Path: blob/main/Trabajo_grupal/WG5/Grupo10_r .r
2714 views
library(haven)12#subimos la base de datos3#--------------------------4user <- Sys.getenv("USERNAME") # username56setwd( paste0("C:/Users/",user,"/Documentos/Git_Hub/1ECO35_2022_2/Lab6") ) # set directorio78file_path = "../data/data_administrativa.sav"910data_administrativa <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset1112head(data_administrativa)1314names(data_administrativa) # nombre de las variables en una lista1516#Las etiquetas de las variables de la base de datos17#--------------------------------------------------1819#La etiqueta de la variable 'DOMINIO' de la base de datos20data_administrativa$DOMINIO %>% attr('label')2122#La etiqueta de la variable 'P203' de la base de datos23data_administrativa$P203 %>% attr('label')2425#las etiquetas de los valores de las variables en la base de datos26#-----------------------------------------------------------------2728#La etiqueta de la variable 'DOMINIO' de la base de datos29data_administrativa$DOMINIO %>% attr('labels')3031#La etiqueta de la variable 'P203' de la base de datos32data_administrativa$P203 %>% attr('labels')333435#Duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso36#--------------------------------------------------------------------------------------------37attach(data_administrativa)3839data_administrativa_filtrada <- data_administrativa %>% group_by(CODPERSO ,CONGLOME , VIVIENDA, HOGAR) %>%40mutate(duplicates = n()) %>% filter(duplicates >1) %>%41select(CODPERSO, CONGLOME, VIVIENDA, HOGAR, duplicates )4243View(data_administrativa_filtrada)444546# me quedo con las primeras apariciones y elimino los duplicados47data_administrativa_ndup <- data_administrativa %>% distinct(CODPERSO ,CONGLOME , VIVIENDA, HOGAR, .keep_all = TRUE)484950# Variables que presentan valores faltantes51#--------------------------------------------5253any( is.na(data_administrativa)) # TRUE: al menos un missing value5455is.na(data_administrativa) #Variables con missing value5657data_administrativa_ndup <- data_administrativa_ndup %>% mutate(Dummy_2 = ifelse(DOMINIO == 4 , 1 , ifelse(!is.na(DOMINIO),0, NA) ) )5859#podemos ver que sí hay variables con missing values606162# Base de datos ordenada a partir de las variables que identifican cada miembro y la variable de año (year)63#----------------------------------------------------------------------------------------------------------6465data_administrativa_new <- data_administrativa[order(data_administrativa$CODPERSO, data_administrativa$year),]66View(data_administrativa_new)676869#Cree una base de datos para cada año70#----------------------------------7172#Creamos la base de datos para el año 201973data_administrativa_2019_Grupo10 <- data_administrativa %>% filter( (year == "2019") ) #con la base data_administrativa74data_administrativa_2019_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2019") ) #data_administrativa_ndup7576#Guardamos la base de datos 201977write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10.sav")78write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10_1.sav")798081#Creamos la base de datos para el año 202082data_administrativa_2020_Grupo10 <- data_administrativa %>% filter( (year == "2020") ) #con la base data_administrativa83data_administrativa_2020_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2020") ) #data_administrativa_ndup8485#Guardamos la base de datos 202086write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10.sav")87write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10_1.sav")8889