Path: blob/main/Trabajo_grupal/WG5/Grupo_7_r.R
2714 views
#####################1### SPSS file ###2#####################345#############6#### 1 ####78# Trabajar con la data_administrativa que est� en la carpeta data.910pacman::p_load(tidyverse, haven, janitor, stringr ) # otra forma de cargar librer�as1112user <- Sys.getenv("USERNAME") # username13setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") ) # set directorio1415# Put relative path16file_path = "../data/data_administrativa.sav"17df <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset181920#############21#### 2 ####2223# Mostrar las variables que presentan missing values24colSums(is.na(df)) # muestra el n�mero de missing por columna252627#############28#### 3 ####2930# Se le pide mostrar las etiquetas de dos variables (var labels) y las etiquetas31# de los valores en dos variables (value's labels).3233df$DOMINIO %>% attr('label') # var labels34df$ESTRATO %>% attr('label') # var labels3536df$DOMINIO %>% attr('labels') # value labels37df$ESTRATO %>% attr('labels') # value labels383940#############41#### 4 ####4243# Se le pide detectar personas que fueran entrevistadas en ambos a�os. Para ello, se pide44# detectar duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso.45attach(df) # para que cada columna sea un objeto independiente y prenscindamos del data$col4647duplicated_data <- df %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>%48mutate(duplicates = n()) %>% filter(duplicates >1) %>%49select(CONGLOME, VIVIENDA, HOGAR, CODPERSO, duplicates )5051View(duplicated_data)5253# Borrando duplicados. Borra las copias, no las primeras apariciones.54df_noduplicates <- df %>% distinct(CONGLOME, VIVIENDA, HOGAR, CODPERSO, .keep_all = TRUE)555657#############58#### 5 ####5960# Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year).61# As� podr� observar a cada individuo en ambos a�os.6263df_noduplicates <- df_noduplicates %>% arrange(year, CONGLOME, VIVIENDA, HOGAR, CODPERSO) # libreria dplyr para ordenar646566#############67#### 6 ####68# Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres69# data_2019_(numero de grupo) y data_2020_(numero de grupo).7071# creando base para cada a�o72df_2019 <- df_noduplicates %>% filter(year == "2019")73View(df_2019)7475df_2020 <- df_noduplicates %>% filter(year == "2020")76View(df_2020)7778# guardando las bases de datos79write.csv(df_2019,"../data/data_2019_Grupo7.csv", row.names = FALSE)80write.csv(df_2020,"../data/data_2020_Grupo7.csv", row.names = FALSE)8182838485