Path: blob/main/Trabajo_grupal/WG5/Grupo5_Tarea5.R
2714 views
#Pregunta número 21pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)2user <- Sys.getenv("USERNAME")3library("magrittr")4library(haven)56#Importamos la base de datos7setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") )8file_path = "../data/data_administrativa.sav"9data_administrativa <- haven::read_sav(file_path , encoding = "UTF-8" )10View(data_administrativa)11#Encontramos los missing en la data frame12is.na(data_administrativa)13#Aquí mostramos el value labels de Estrato y Dominio14data_administrativa$ESTRATO %>% attr('labels') # value labels15data_administrativa$DOMINIO %>% attr('labels') # value labels16#Aquí mostramos el label de Estrato y Domio17data_administrativa$ESTRATO %>% attr('label') # var label18data_administrativa$DOMINIO %>% attr('label') # var label19#Cada variable separada sola20attach(data_administrativa)21#Vamos a filtrar la data, si contiene duplicados22data_filtrada <- data_administrativa %>% group_by(CONGLOME, VIVIENDA, HOGAR , CODPERSO) %>%23mutate(duplicates = n()) %>% filter(duplicates >1) %>%24#Vamos a elegir solo algunas variables25select(year, CONGLOME, VIVIENDA, HOGAR , CODPERSO, duplicates)26#Ahora vamos a eliminar los duplicados porque crearemos una nueva base de datos27data_administrativa_ndup <- data_administrativa %>% distinct(year, CONGLOME, VIVIENDA, HOGAR , CODPERSO, .keep_all = FALSE)28#Creamos una data frame para cada año29data_años <- split(data_administrativa_ndup,data_administrativa_ndup$year)30#Ahora guardamos los archivos31data_2019_5 <- data_años$`2019`32data_2020_5 <- data_años$`2020`33write_sav(data_2019_5,file_path )34write_sav(data_2020_5,file_path)353637