CoCalc -- Grupo9

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo9_py.ipynb
⁴⁶⁸⁰ views

Kernel: Python 3 (ipykernel)

In [1]:

from IPython.display import display, HTML

display(HTML(data="""
<style>
    div#notebook-container    { width: 75%; }
    div#menubar-container     { width: 95%; }
    div#maintoolbar-container { width: 65%; }a
</style>
"""))

Out[1]:

In [2]:

import numpy as np
import pandas as pd
from pandas import DataFrame,Series

In [3]:

data = pd.read_spss( r"../../data/data_administrativa.sav" )
data

Out[3]:

Pregunta 1

In [4]:

# Mostrar las variables que presentan missing values

# opc1. mostrar solo nombre de variables donde hay missings 

x = list(data.isna().any())   #da un vector de True/False, donde True es 'hay missings' y False es 'no hay missings'
i=0
lista=[]
print('Variables con missings:')
for x in x:
    if x==True:
        print(data.columns.values[i])    #imprimir nombre de variables con missings
        lista.append(data.columns.values[i])
    i=i+1

Out[4]:

Variables con missings:
P203A
P203B
P204
P205
P206
P207
P208A
P208B
P209

In [5]:

# op2. mostrar columnas completas de variables donde hay missings
data.loc[:, lista]

Out[5]:

Pregunta 2

In [6]:

# Identificar etiquetas
import savReaderWriter as sav 

with sav.SavHeaderReader( r"../../data/data_administrativa.sav", ioUtf8=True) as header:
    metadata = header.all()
    labels_data = metadata.valueLabels  
    var_labels_data = metadata.varLabels

In [7]:

#Etiquestas de variables
var_labels_data['DOMINIO']  #1.

Out[7]:

'Dominio geográfico'

In [8]:

#Etiqueta de variables
var_labels_data['P203']  #2.

Out[8]:

'¿Cuál es la relación de parentesco con el jefe(a) del hogar'

In [9]:

#Etiquetas de los valores de variables  
labels_data['DOMINIO']   #1.

Out[9]:

{1.0: 'Costa Norte',
0: 'Costa Centro',
0: 'Costa Sur',
0: 'Sierra Norte',
0: 'Sierra Centro',
0: 'Sierra Sur',
0: 'Selva',
0: 'Lima Metropolitana'}

In [10]:

#Etiquetas de valores de variables 
labels_data['P203B']    #2.

Out[10]:

{1.0: 'Jefe/jefa de hogar',
0: 'Esposa(o)',
0: 'Hijo(a)',
0: 'Padres/suegros'}

Pregunta 3

In [11]:

# Si la persona fue entrevistada ambos años, entonces, los mismos identificadores de conglome, vivienda, hogar y codeperso 
# se repite en ambos años.

In [12]:

data[ data.loc[:, ['CONGLOME' ,'VIVIENDA' , 'HOGAR' ,'CODPERSO']].duplicated(keep="first") ]  
# data filtrada con personas que fueron entrevistadas ambos años,
# la persona solo aparece una vez cuando se filtra porque la opción usada fue .duplicate(keep="first")

Out[12]:

Pregunta 3

In [13]:

# Ordene la base de datos

# 1. Convertir identificadores en números
data=data.astype({'CONGLOME':int,'VIVIENDA':int,'HOGAR': int, 'CODPERSO': int,'year': int})

In [14]:

# 2. Usar base con duplicados para poder ver secuencia 
data=data[ data.loc[:, ['CONGLOME' ,'VIVIENDA' , 'HOGAR' ,'CODPERSO']].duplicated(keep=False) ]  

# 3. Ordenar acorde a identificadores (se reemplazó base)
data.sort_values(['CONGLOME','VIVIENDA','HOGAR','CODPERSO','year'], ascending = True, inplace=True)

# 4. Se observa el individuo los dos años
data.head(20)

Out[14]:

Pregunta 4

In [15]:

# Crear base de datos 2019
data_2019_9=data[ data["year"] == 2019 ]
data_2019_9.tail(50)

    #Nota, se pone == 2019 y no == "2019" porque la variable 'year' ha sido cambiada a string en la pregunta anterior.

Out[15]:

In [16]:

# Crear base de datos 2020
data_2020_9=data[data["year"] == 2020]
data_2020_9.tail(50)

Out[16]:

In [17]:

# Guardar bases de datos

#1. en csv
data_2019_9.to_csv("../../data/data_2019_9.csv")
data_2020_9.to_csv("../../data/data_2020_9.csv")

#2. en excel
data_2019_9.to_excel("../../data/data_2019_9.xlsx")
data_2020_9.to_excel("../../data/data_2020_9.xlsx")

In [ ]:

Pregunta 1

Pregunta 2

Pregunta 3

Pregunta 3

Pregunta 4

Product

Resources

Company