CoCalc -- Grupo6_pregunta1.py

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_final/grupo6/Grupo6_pregunta1.py
⁴⁶⁸² views
1
# -*- coding: utf-8 -*-
2
"""
3
Created on Sun Oct 30 09:55:19 2022
4

5
@author: oa_da
6
"""
7

8
#!pip install weightedcalcs
9

10
import pandas as pd
11
import numpy as np
12
import chardet # to get string character format 
13
import re  # for regular expression 
14
import os # for usernanme y set direcotrio
15

16
# Comenzamos cargando el dataset 2019
17

18
user = os.getlogin()   # Username
19
os.chdir(f"C:/Users/{user}/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG6")
20

21
enaho2019= pd.read_stata(("../../enaho/2019/687-Modulo01/687-Modulo01/enaho01-2019-100.dta"))
22
sumaria2019= pd.read_stata(("../../enaho/2019/687-Modulo01/687-Modulo34/sumaria-2019.dta"))
23

24
# se realiza el merge entre ambas modulos para el año 2019
25

26
enaho_2019 = pd.merge(enaho2019, sumaria2019,
27
                       on = ["conglome", "vivienda", "hogar"], 
28
                       how = "left", 
29
                       suffixes=('', '_y')) #se determinan los sufijos
30

31
#se filtran por ciertas variables 
32
enaho_2019 = enaho_2019[["conglome", "vivienda", "hogar" ,"ubigeo", 
33
                   "aÑo" , "mieperho", "inghog1d", 
34
                   "gashog2d", "ld"]]
35

36

37
#Ahora, se carga el dataset 2020
38

39
enaho2020= pd.read_stata(("../../enaho/2020/737-Modulo01/737-Modulo01/enaho01-2020-100.dta"))
40
sumaria2020= pd.read_stata(("../../enaho/2020/737-Modulo01/737-Modulo34/sumaria-2020.dta"))
41

42
# se realiza el merge entre ambas modulos para el año 2020
43

44
enaho_2020 = pd.merge(enaho2020, sumaria2020,
45
                       on = ["conglome", "vivienda", "hogar"], 
46
                       how = "left", 
47
                       suffixes=('', '_y')) #se determinan los sufijos
48

49
#nuevamente se procede a filtrar según las variables indicadas
50

51
enaho_2020 = enaho_2020[["conglome", "vivienda", "hogar" ,"ubigeo", 
52
                   "aÑo" , "mieperho", "inghog1d", 
53
                   "gashog2d", "ld"]]
54

55
#una vez juntadas las bases de datos para cada año se realizará el append
56

57
merge_append = enaho_2020.append(enaho_2019, 
58
                                 ignore_index = True)
59
merge_append
60

61
#se deflactaran las variables de manera espacial y temporal
62
#primero se llamará  la base de datos de deflactores con año base 2020
63

64
deflactores_base2020_new = pd.read_stata(r"../../../../enaho/2020/737-Modulo34/737-Modulo34/ConstVarGasto-Metodologia actualizada/Gasto2020/Bases/deflactores_base2020_new.dta",
65
                           convert_categoricals=False)
66

67
#
68

69
merge_append_deflac = pd.merge(merge_append, deflactores_base2020_new,
70
                       on = ["dpto", "aNo"],
71
                       how = "left", 
72
                       validate = "m:1")
73

74

75

76

77

78
Product

Resources

Company