# **FÍSICA EXPERIMENTAL - 2021-2 - PARTE III**

Carga Horária: 4h

Prof João Marcello Pereira (joao.pereira@ifc.edu.br)

## **Data frame**

Um `DataFrame` é uma estrutura bidimensional semelhante à uma matriz no qual os dados são tabelados em colunas nomeadas no qual possuem a mesma quantidade de linhas. JOSHI (2016) define data frame como:
> É uma estrutura de dados que tem colunas rotuladas, que individualmente podem ter diferentes tipos de dados. Como uma tabela SQL ou uma planilha, ela tem duas dimensões. Também pode ser pensado como uma lista de dicionários, mas, fundamentalmente, é diferente. 

É uma ótima forma de organizar informações pois além de manter uma boa formatação dos dados, ainda permite que sejam gravados em arquivos do tipo "CSV", "XLSX", "ODS" entre outros, que podem ser abertos e manipulados em softwares de planilha tipo excel ou calc. Exemplo de `DataFrame`:

<img src="https://miro.medium.com/max/724/1*CuHNQWNiCnwIpGKZQO91bg.png" align="center" width="700">


Sintaxe:

```py
nome_dataframe = pd.DataFrame()

nome_dataframe['Nome_coluna_1'] = [dado_1_coluna_1, dado_2_coluna_1, ..., dado_n_coluna_1]
nome_dataframe['Nome_coluna_2'] = [dado_1_coluna_2, dado_2_coluna_2, ..., dado_n_coluna_2]
```



**Exemplo 1:** Criar do seguinte Dataframe:

<table>
<tbody>
<tr>
<td><strong>Tempo (s)</strong></td>
<td><strong>Velocidae (m/s)</strong></td>
</tr>
<tr>
<td>0</td>
<td>0.0</td>
</tr>
<tr>
<td>1</td>
<td>0.5</td>
</tr>
<tr>
<td>2</td>
<td>1.0</td>
</tr>
<tr>
<td>3</td>
<td>1.5</td>
</tr>
<tr>
<td>4</td>
<td>2.0</td>
</tr>
</tbody>
</table>

In [81]:
# configurar o display 

%display unicode_art

In [3]:
# importar a biblioteca pandas
import pandas as pd

In [4]:
# Forma 1:

dataframe1 = pd.DataFrame()

dataframe1['tempo']      = [0, 1, 2, 3, 4]
dataframe1['velocidade'] = [0, 0.5, 1.0, 1.5, 2.0]

dataframe1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5
4,4,2.0


#### **Visualizar Dados em um DataFrame**

* Imprimir nome das colunas:
```py
nome_dataframe.columns
```

* Imprimir dados de toda a coluna:
```py
nome_dataframe.nome_coluna
```
* Imprimir dado de uma coluna:
```py
nome_dataframe.nome_coluna[[ordem_linha]]
```
* Total de dados de um DataFrame:
```py
nome_dataframe.size
```

* Numero de elementos de um DataFrame:
```py
nome_dataframe.count()
```
* Imprimir todos os dados de uma linha:
```py
nome_dataframe.iloc[[ordem_linha]]
```

In [145]:
# visualizar o dataframe

dataframe1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [146]:
# Visualizando toda a primeira coluna dataframe1

dataframe1.tempo

0    0
1    1
2    2
3    3
4    4
Name: tempo, dtype: object

In [147]:
# Visualizando o segundo elemento da primeira coluna

dataframe1.tempo[[1]]

1    1
Name: tempo, dtype: object

In [148]:
# numero de elementos de cada coluna

dataframe1.count()

tempo         5
velocidade    5
dtype: int64

In [150]:
# ver o conteúdo da linha de índice 1 do dataframe 

dataframe1.loc[[1]]

Unnamed: 0,tempo,velocidade
1,1,0.5


In [151]:
# ver o conteúdo de das linhas índice 1 e 3

dataframe1.loc[[1, 3]]

Unnamed: 0,tempo,velocidade
1,1,0.5
3,3,1.5


In [2]:
# ver o conteúdo da linha de índice 2 até o fim

dataframe1.loc[2:]

NameError: name 'dataframe1' is not defined

In [153]:
# ver o conteúdo do início até a linha de índice 2

dataframe1.loc[:2]

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0


#### **Alterar Dados em um DataFrame**

##### **Editar dados em uma DataFrame**

Para editar um dado em um dataframe:
```py
nome_dataframe.nome_coluna[ordem_linha] = novo_valor
```

**Exemplo 1:** Alterar o valor da velocidade da linha de índice 2 para 55.0

In [155]:
# alterar dado
dataframe1.velocidade[2] = 55.0

#visualizar dataframe
dataframe1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


#### **Filtro de dados**

É muito importante filtrar os dados de um dataframe de tal forma que seja exibido somente aqueles que estejam de acordo com determinadas especificações. Imagine selecionar somente os dados de velocidade de um carro de tal forma que somente velocidades acima de 5m/s sejam exibidas, é assim que a função ```query()``` (significa consulta) trabalha. Se a condição é satisfeita, as linhas de dados contendo as informações são exibidas.

* **Função ```query()```**
```py
df.query('nome_dataframe operador dado')

operador: > (maior), < (menor), <= (menor igual), >= (maior igual) , & (E), | (OU), != (diferente)
```

In [158]:
# visualizar dataframe

dataframe1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [160]:
# listar somente os dados velocidade maior que 1m/s

dataframe1.query('velocidade > 1')

Unnamed: 0,tempo,velocidade
2,2,55.0
3,3,1.5
4,4,2.0


In [161]:
# listar somente as velocidades maiores que 1m/s cujo tempo é maior que 3s

dataframe1.query('velocidade > 1 & tempo < 3')

Unnamed: 0,tempo,velocidade
2,2,55


### **ARQUIVOS CSV**

A melhor forma de trabalhar com dataframes é salva-los no formato "CSV". **Comma-separated values** (ou CSV) é um formato de arquivo que armazena dados tabelados, cujo grande uso data da época dos mainframes. Por serem bastante simples, os arquivos '.csv' são comuns em todas as plataformas de computador.

O CSV é um implementação particular de arquivos de texto separados por um delimitador, que usa a vírgula e a quebra de linha para separar os valores. O formato também usa as aspas em campos no qual são usados os caracteres reservados (vírgula e quebra de linha). Essa robustez no formato torna o CSV mais amplo que outros formatos digitais do mesmo segmento (WIKIPEDIA, 2020).

Forma geral de um arquivo CSV na forma de texto:
```python
nome_coluna_1        , nome_coluna_2
dado_linha_0_col_1   , dado_linha_0_col_2
dado_linha_1_col_1   , dado_linha_1_col_2
    .                ,     .
    .                ,     .
    .                ,     .
dado_linha_m_col_1   , dado_linha_m_col_2
```

Uma forma prática de criar arquivos CSV é usando uma planilha (excel, calc-libreoffice/openoffice). Basta preencher os dados nas celulas e depois salvar como CSV.

#### **Importar um Arquivo CSV**
```python
import pandas as pd
nome_dataframe = pd.read_csv('arquivo.csv',index_col = 0)
```

`index_col = 0 `, corresponde a primeira coluna

In [162]:
#importar arquivo movel.csv

import pandas as pd
tabela = pd.read_csv('tabela.csv')

#Visualizar a tabela
tabela

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5


#### **Salvar dados em um Arquivo CSV**

Sintaxe para salvar:
```python
nome_dataframe.to_csv('nome_dataframe.csv')
```

In [42]:
# Salvando o dataframe em um Arquivo

dataframe1.to_csv('dataframe1.csv')

In [164]:
# Lendo os dados gravados no arquivo CSV gravado no disco

dataF1 = pd.read_csv('dataframe1.csv',index_col = 0)

# visualizar o dataframe
dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [5]:
# leitura direta do arquivo gravado em disco sem precisar importar o arquivo

!cat dataframe1.csv

,tempo,velocidade
0,0,0
1,1,0.500000000000000
2,2,55.0
3,3,1.50000000000000
4,4,2.00000000000000



### **Manipular Colunas, Linhas, Dados e Concatenar Dataframes**

#### **Para adicionar uma nova coluna de dados ao DataFrame**
```python
dataframe['Nome_coluna'] = ['dado_1', 'dado_2',...,'dado_n']
```

In [166]:
# visualizar dataframe

dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [177]:
# Adicionar uma nova coluna de dados no dataframe
dataF1['Posição'] = [0, 0.05, 0.09, 0.15,  0.23]

# visualizar dataframe como nova coluna
dataF1

Unnamed: 0,tempo,velocidade,Posição
0,0,0.0,0.0
1,1,0.5,0.05
2,2,55.0,0.09
3,3,1.5,0.15
4,4,2.0,0.23


#### **Para deletar uma coluna**
Para deletar uma coluna
```python
del nome_dataframe['nome_coluna']
    ou
nome_data_frame.pop('nome_coluna') 
```

Para deletar mais de uma coluna
```python
del nome_dataframe['nome_coluna1'], nome_dataframe['nome_coluna2'], ... , nome_dataframe['nome_coluna_N']
    ou
nome_data_frame.drop(['nome_coluna1','nome_coluna2'], axis = 1) 
```

In [178]:
# visualizar dataframe antes de deletar a coluna

dataF1

Unnamed: 0,tempo,velocidade,Posição
0,0,0.0,0.0
1,1,0.5,0.05
2,2,55.0,0.09
3,3,1.5,0.15
4,4,2.0,0.23


In [179]:
# deletar a coluna 'posição' do dataframe

del dataF1['Posição']

In [180]:
# visualizar dataframe depois de deletar a coluna 'posição'

dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


#### **Para alterar nome de uma coluna**
```py
nome_dataframe.rename(columns={'nome_coluna': 'novo_nome_coluna'})
```

**Exemplo 1:** Alterar o nome da coluna 'tempo' para 'tempo_s', sendo o 's' de segundo.

In [181]:
# visualizar dataframe antes de renomear a coluna 'tempo' para 'tempo_s'

dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [183]:
# renomear coluna 'tempo' para 'tempo_s'

dataF1.rename(columns={'tempo': 'tempo_s'})

Unnamed: 0,tempo_s,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


#### **Para concatenar Dataframes**

```py
Horizontal

Vertical
```

**Exemplo 1:** Criar um novo dataframe chamado 'Posição' contendo novos dados da posição do carro, importar o dataframe 'dataframe1.csv' com o nome de 'dataF1' e anexar (concatenação horizontal) o dataframe 'Posição' ao dataframe 'dataF1'.

In [186]:
# Novo Dataframe chamado 'Posição'

Posicao = pd.DataFrame()
Posicao['posição'] = [0, 0.05, 0.09, 0.15, 0.23]

Posicao

Unnamed: 0,posição
0,0.0
1,0.05
2,0.09
3,0.15
4,0.23


In [187]:
# Importanto o datafame gravado em arquivo CSV
dataF1 = pd.read_csv('dataframe1.csv',index_col = 0)

# visualizando o dataframe
dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0


In [188]:
# Concatenação na Horizotal 

dataF1.join(Posicao)

Unnamed: 0,tempo,velocidade,posição
0,0,0.0,0.0
1,1,0.5,0.05
2,2,55.0,0.09
3,3,1.5,0.15
4,4,2.0,0.23


**Exemplo 2:** Criar um novo dataframe chamado 'dataF1_1' contendo novas linhas de dados da posição e velocidade do carro, e anexá-lo (concatenação vertical) ao dataframe 'dataF1'.

In [189]:
# criar novo dataframe com novas linhad de dados
dataF1_1 = pd.DataFrame()

dataF1_1['tempo']      = [5, 6, 7]
dataF1_1['velocidade'] = [2.0, 2.5, 3.0]

# visualizar dataframe
dataF1_1

Unnamed: 0,tempo,velocidade
0,5,2.0
1,6,2.5
2,7,3.0


In [190]:
# anexar novo dataframe ao dataframe 'dataF1'

dataF1.append(dataF1_1, ignore_index = True)

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0
5,5,2.0
6,6,2.5
7,7,3.0


#### **Adicionar Linhas**

A maneira mais prática de adicionar linhas em um DataFrame no Sage é através do comando `loc`. Sintaxe:
```python
nome_dataframe.loc[posição_index] = lista_de_dados
```

In [0]:
import pandas as pd

In [106]:
# adicionar dados ao final do dataframe

dataF1.loc[6] = [99, 77]

dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,55.0
3,3,1.5
4,4,2.0
5,99,77.0
6,99,77.0


Para inserir mais de uma linha a soluão é concatenar na horizontal

#### **Para deletar linhas e linhas com dados repetidos**
```python
dataframe.drop([posição_index])
```

In [215]:
# deletar ultima linha. 

dataF1.drop([len(dataF1)-1])

Unnamed: 0,tempo,velocidade
0,0,0.0
2,2,1.0
3,3,1.5
2,99,77.0
4,99,77.0
5,99,77.0


In [234]:
# OBSERVE QUE O DATAFRAME ORIGINAL NÃO É MODIFICADO 

dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5


In [220]:
# para modificar o dataframe use uma atribuição

dataF1 = dataF1.drop([len(dataF1) - 1])

In [224]:
dataF1

Unnamed: 0,tempo,velocidade
0,0,0.0
2,2,1.0
3,3,1.5
2,99,77.0


In [237]:
# deletar mais de uma linha. # OBSERVE QUE O DATAFRAME ORIGINAL NÃO É MODIFICADO 

dataF1.drop([1, 2])

Unnamed: 0,tempo,velocidade
0,0,0.0
3,3,1.5


In [242]:
# eliminar lihas duplicadas. OBSERVE QUE O DATAFRAME ORIGINAL NÃO É MODIFICADO 

dataF1.drop_duplicates()

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5
4,99,77.0


#### **Para ordenar os elementos de um Dataframe**

* **Ordenar por índice**

In [249]:
dataF1.sort_index()

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5
4,99,77.0
5,99,77.0


* **Ordenar por valor**

In [250]:
dataF1.sort_values('velocidade')

Unnamed: 0,tempo,velocidade
0,0,0.0
1,1,0.5
2,2,1.0
3,3,1.5
4,99,77.0
5,99,77.0
