################ laboratorio 6 ############################1## Curso: Laboratorio de R y Python ###########################2## @author: Roberto Mendoza3456pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)78# haven: leer archivos spss (sav)9# string : trabajar con string101112#janitor to detect duplicates1314user <- Sys.getenv("USERNAME") # username1516setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") ) # set directorio1718# Put relative path1920file_path = "../data/enapres_2020_ch_100/736-Modulo1618/CAP_100_URBANO_RURAL_3.sav"2122enapres2020_1 <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset2324head(enapres2020_1)2526names(enapres2020_1) # nombre de las variables en una lista2728# Observar labels2930# %>% Ctrl + shift + m3132enapres2020_1$ESTRATO %>% attr('labels') # value labels333435enapres2020_1$ESTRATO %>% attr('label') # var label36373839print(AREA)4041enapres2020_1$AREA%>% attr('labels') # value labels4243print(RESFIN)4445enapres2020_1$RESFIN %>% attr('labels') # value labels4647# 2. Check duplicates report4849" %>% Ctrol + shift + m, uso de dplyr library"5051attach(enapres2020_1)5253# Filter hogares urbanos que responden toda la encuesta5455enapres2020_1 <- enapres2020_1 %>% filter(RESFIN == 1 & AREA == 1)5657data_filtrada <- enapres2020_1 %>% group_by(CCDD ,CCPP , CCDI ,CONGLOMERADO , NSELV, VIVIENDA, HOGAR) %>%58mutate(duplicates = n()) %>% filter(duplicates >1) %>%59select(CCDD ,CCPP , CCDI ,CONGLOMERADO , NSELV, VIVIENDA, HOGAR, duplicates )6061View(data_filtrada)62636465# First group by unique household identifier66# mutate() create variables67# filter duplicates68# select unique household identifier6970# Drop duplicates rows (observaciones). Se borra las copias, No las primeras apariciones7172enapres2020_1_ndup <- enapres2020_1 %>% distinct(CCDD ,CCPP73, CCDI ,CONGLOMERADO , NSELV,74VIVIENDA, HOGAR, .keep_all = TRUE)7576# .keep_all = TRUE muestra todas las variables7778enapres2020_1_ndup <- enapres2020_1 %>% distinct(CCDD ,CCPP79, CCDI ,CONGLOMERADO , NSELV,80VIVIENDA, HOGAR, .keep_all = F)8182# .keep_all = FALSE Solo muestra las variables seleccionadas "CCDD ,CCPP,CCDI ,CONGLOMERADO , NSELV,VIVIENDA, HOGAR"8384dim(enapres2020_1_ndup)858687write_sav(enapres2020_1_ndup , "../data/enapres_2020_ch_100/736-Modulo1618/df.sav") # save in spss format888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125