Path: blob/main/Trabajo_grupal/WG6/Grupo_1_R.R
2714 views
1########################################### GRUPO 1 ############################################2##################################### Miembros del grupo ######################################3# 20163197, Enrique Alfonso Pazos4# 20191894, Ilenia Ttito5# 20151595, Rodrigo Ramos6# 20193469, Luis Eguzquiza7# 20163377, Jean Ni�o de Guzman89library(haven) # leer archivos spss, stata, dbf, etc10library(dplyr)11library(haven) # leer archivos spss, stata, dbf, etc12library(fastDummies) # crear dummy13library(srvyr) # libreria para declarar el diseño muestral de una encuesta14library(survey)151617########################################## Pregunta 1 ##########################################18# Directorio19user <- Sys.getenv("USERNAME")20setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2") )2122#201923enaho_mod01_2019 <- read_dta("../../Enaho/2019/687-Modulo01/enaho01-2019-100.dta")24enaho_mod34_2019 <- read_dta("../../Enaho/2019/687-Modulo34/sumaria-2019.dta")25#202026enaho_mod01_2020 <- read_dta("../../Enaho/2020/737-Modulo01/737-Modulo01/enaho01-2020-100.dta")27enaho_mod34_2020 <- read_dta("../../Enaho/2020/737-Modulo34/737-Modulo34/sumaria-2020.dta")2829#Nos quedamos solo con variables relevantes30enaho_mod01_2019<-enaho_mod01_2019[,c("a�o", "conglome", "vivienda", "hogar", "ubigeo")]31enaho_mod01_2020<-enaho_mod01_2020[,c("a�o", "conglome", "vivienda", "hogar", "ubigeo")]3233#Renombramos a�o como Year34enaho_mod01_2019<-enaho_mod01_2019 %>% rename(Year = a�o)35enaho_mod01_2020<-enaho_mod01_2020 %>% rename(Year = a�o)3637#Merge ambas bases38Enaho_2019<-merge(enaho_mod01_2019,enaho_mod34_2019, by=c("vivienda", "hogar", "ubigeo"),all.x = TRUE)39Enaho_2020<-merge(enaho_mod01_2020,enaho_mod34_2020, by=c("vivienda", "hogar", "ubigeo"),all.x = TRUE)404142Enaho_2019_2020<-bind_rows(Enaho_2019,Enaho_2020)43dep<-substr(Enaho_2019_2020$ubigeo,start = 1,stop=2)44dep<-as.numeric(dep)45dep <- data.frame(dep)46Enaho_2019_2020 <- cbind(Enaho_2019_2020, dep)4748deflactor_temporal <- read_dta("../../Enaho/2020/737-Modulo34/737-Modulo34/ConstVarGasto-Metodologia actualizada/Gasto2020/Bases/deflactores_base2020_new.dta")4950deflactor_temporal<-deflactor_temporal %>% rename(dep = dpto)51deflactor_temporal<-deflactor_temporal %>% rename(Year = aniorec)525354merg_final<-merge(Enaho_2019_2020,deflactor_temporal, by =c("dep","Year"),all.x = TRUE)5556# Deflacto entre la variable "mieperho", 12, "ld", "i00"5758merg_final$inghog1d<- merg_final$inghog1d/merg_final$mieperho59merg_final$gashog2d<- merg_final$gashog2d/merg_final$mieperho6061merg_final$inghog1d<- merg_final$inghog1d/1262merg_final$gashog2d<- merg_final$gashog2d/126364merg_final$inghog1d<- merg_final$inghog1d/merg_final$ld65merg_final$gashog2d<- merg_final$gashog2d/merg_final$ld6667merg_final$inghog1d<- merg_final$inghog1d/merg_final$i0068merg_final$gashog2d<- merg_final$gashog2d/merg_final$i006970# Base de datos final:71merg_final7273########################################## Pregunta 2 ##########################################7475##76## Salario por hora del trabajador dependiente77##7879# Leemos la base de datos de la ENAHO80df <- read_dta("../../Enaho/2020/737-Modulo05/737-Modulo05/enaho01a-2020-500.dta")8182# Utilizamos fillna para reemplazar todos los missing values con 083# Solo lo hacemos en las variables que ser?n ?tiles para el c?lculo del salario por hora84df <- mutate_at(df, c("i524e1","i538e1","i513t","i518"), ~replace(., is.na(.), 0))8586# Creamos la variable salario_hora con la f?rmula de salario por hora especificado en la tarea87salario_hora <- ( (df$i524e1)+(df$i538e1) ) / ( ( (df$i513t) + (df$i518) ) * 52 )8889# A?adimos la nueva variable a la base de datos90df <- cbind(df, salario_hora)9192# Reemplazamos los 0 por Nan en la columna salario_hora93# Esto con la finalidad de indicar que no hay datos para esas filas94df$salario_hora[df$salario_hora == 0] <- NaN95df$salario_hora9697########################################## Pregunta 3 ##########################################9899##100## Group By101##102103#Se cargan las bases de datos del modulo02 y modulo34104#Modulo02:105enaho02 <- data.frame(106read_dta("../../Enaho/2020/737-Modulo02/737-Modulo02/enaho01-2020-200.dta")107)108#Modulo34109enaho34 <- data.frame(110read_dta("../../Enaho/2020/737-Modulo34/737-Modulo34/sumaria-2020.dta")111)112113#Se seleccionan las variables que necesarias para cada m?dulo (para identificar individuos en hogares y conocer la edad y pobreza del hogar)114enaho02 <- enaho02[ , c("conglome", "vivienda", "hogar","p208a") ]115116enaho34 <- enaho34[ , c("conglome", "vivienda", "hogar","pobreza") ]117118119#Se aplica el groupby para el m?dulo02:120121enaho02 <- enaho02%>%122group_by(conglome, vivienda, hogar)%>%123summarise(max(p208a)) #Se indica que se extraiga el mayor valor de edad de cada hogar124125#Merge126#Se juntan las bases de datos en base a las variables de conglome, vivienda y hogar. Se tiene como base maestra el modulo02127enaho_merge <- merge(enaho02, enaho34,128by = c("conglome", "vivienda", "hogar"),129all.x = T130)131132#Se renombra a la variable p208a por "edad":133names (enaho_merge)[4] = "edad"134135#Dummy136#Se crea una dummy con los criterios:137#Si el hogar tiene al menos un integrante mayor de 65 y est?n en pobreza, se le coloca 1138#Todos los dem?s casos se les coloca 0139#Adem?s, se indica que en caso se tengan datos na, estos no tengan un 0, sino que se les asigne un NA140enaho_merge <- enaho_merge %>%141mutate(dummy_pobre = ifelse( (enaho_merge$p208a > 65 & enaho_merge$pobreza < 3) ,1421,143ifelse(!is.na(enaho_merge$p208a |!is.na(enaho_merge$pobreza)),1440,145NA) ) )146147148########################################## Pregunta 4 ##########################################149150##151## Indicadores152##153154# Leemos la base de datos del modulo 37 y 34 de la ENAHO155enaho37 = data.frame(read_dta("../../Enaho/2020/737-Modulo37/737-Modulo37/enaho01-2020-700.dta"))156157enaho34 = data.frame(read_dta("../../Enaho/2020/737-Modulo34/737-Modulo34/sumaria-2020.dta"))158159#Nos quedamos solo con variables relevantes de ambos m?dulos160161enaho37 <- enaho37[,c("p710_04", "factor07", "conglome", "vivienda", "hogar" ,"ubigeo", "estrato")]162163enaho34 <- enaho34[ ,c("gru51hd", "gashog2d", "factor07", "conglome", "vivienda", "hogar" ,"ubigeo", "estrato")]164165166#Primero, especificamos el dise?o de las encuestas167# ids: conglomerado, strato: estrato y wieght : factor de expansi?n168169encuesta_enaho37 <- enaho37 %>% as_survey_design(ids = conglome,170strata = estrato,171weight = factor07)172173encuesta_enaho34 <- enaho34 %>% as_survey_design(ids = conglome,174strata = estrato,175weight = factor07)176177178#Obtenemos la variable de ubigeo de cada regi?n de ambos m?dulos179180enaho37['ubigeo_dep'] = substr(enaho37$ubigeo, 1, 2)181182enaho37 <- enaho37 %>%183mutate(region = case_when(ubigeo_dep == "01" ~ "Amazonas",184ubigeo_dep == "02" ~ "Ancash",185ubigeo_dep == "03" ~ "Apurimac",186ubigeo_dep == "04" ~ "Arequipa",187ubigeo_dep == "05" ~ "Ayacucho",188ubigeo_dep == "06" ~ "Cajamarca",189ubigeo_dep == "07" ~ "Callao",190ubigeo_dep == "08" ~ "Cusco",191ubigeo_dep == "09" ~ "Huancavelica",192ubigeo_dep == "10" ~ "Huanuco",193ubigeo_dep == "11" ~ "Ica",194ubigeo_dep == "12" ~ "Junin",195ubigeo_dep == "13" ~ "La Libertad",196ubigeo_dep == "14" ~ "Lambayeque",197ubigeo_dep == "15" ~ "Lima",198ubigeo_dep == "16" ~ "Loreto",199ubigeo_dep == "17" ~ "Madre de Dios",200ubigeo_dep == "18" ~ "Moquegua",201ubigeo_dep == "19" ~ "Pasco",202ubigeo_dep == "20" ~ "Piura",203ubigeo_dep == "21" ~ "Puno",204ubigeo_dep == "22" ~ "San Mart?n",205ubigeo_dep == "23" ~ "Tacna",206ubigeo_dep == "24" ~ "Tumbes",207ubigeo_dep == "25" ~ "Ucayali",)208)209210211encuesta_enaho37 <- enaho37 %>% as_survey_design(ids = conglome,212strata = estrato,213weight = factor07)214215216217218enaho34['ubigeo_dep'] = substr(enaho34$ubigeo, 1, 2)219enaho34 <- enaho34 %>%220mutate(region = case_when(ubigeo_dep == "01" ~ "Amazonas",221ubigeo_dep == "02" ~ "Ancash",222ubigeo_dep == "03" ~ "Apurimac",223ubigeo_dep == "04" ~ "Arequipa",224ubigeo_dep == "05" ~ "Ayacucho",225ubigeo_dep == "06" ~ "Cajamarca",226ubigeo_dep == "07" ~ "Callao",227ubigeo_dep == "08" ~ "Cusco",228ubigeo_dep == "09" ~ "Huancavelica",229ubigeo_dep == "10" ~ "Huanuco",230ubigeo_dep == "11" ~ "Ica",231ubigeo_dep == "12" ~ "Junin",232ubigeo_dep == "13" ~ "La Libertad",233ubigeo_dep == "14" ~ "Lambayeque",234ubigeo_dep == "15" ~ "Lima",235ubigeo_dep == "16" ~ "Loreto",236ubigeo_dep == "17" ~ "Madre de Dios",237ubigeo_dep == "18" ~ "Moquegua",238ubigeo_dep == "19" ~ "Pasco",239ubigeo_dep == "20" ~ "Piura",240ubigeo_dep == "21" ~ "Puno",241ubigeo_dep == "22" ~ "San Mart?n",242ubigeo_dep == "23" ~ "Tacna",243ubigeo_dep == "24" ~ "Tumbes",244ubigeo_dep == "25" ~ "Ucayali",) )245246247248encuesta_enaho34 <- enaho34 %>% as_survey_design(ids = conglome,249strata = estrato,250weight = factor07)251252253254#Calculamos el indicador de porcentaje que hogares a nivel de regi?n (departamentos) que se beneficia del programa255256enaho37_final <- encuesta_enaho37 %>% group_by(region) %>%257summarise(juntos= survey_mean(p710_04, na.rm = T))258259View(enaho_37[, c('region', 'juntos')])260261262#Calculamos el indicador de promedio del porcentaje de gasto en salud realizado por los hogares a nivel de regi?n (departamentos)263264265enaho34_final <- encuesta_enaho34 %>% mutate(porcentaje_gasto_salud = gru51hd/gashog2d) %>% group_by(region) %>%266summarise(promedio_gasto_salud= survey_mean(porcentaje_gasto_salud))267268View(enaho34_final[, c('region', 'promedio_gasto_salud')])269270271272273274275276277278279