Path: blob/main/Trabajo_grupal/WG5/Grupo_3_R.R
2714 views
1# Instalar paquete23#"pacman": permite abrir varias librerias de R al mismo tiempo45pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)67# haven: leer archivos spss (sav). Se usará este para el trabajo89# 1. Trabajar base data_administrativa10# Definimos usuario11user <- Sys.getenv("fdcc0")1213# Definimos directorio14setwd( paste0("C:/Users/fdcc0/Documents/GitHub/1ECO35_2022_2/data") )1516#Definimos archivo17base = "data_administrativa.sav"1819# Definimos la base a trabajar con el nombre "enc_hogar"20enc_hogar <- haven::read_sav(base , encoding = "UTF-8")2122# 2. Mostrar variables con missing values23sapply( enc_hogar, function(x) sum(is.na(x)) )2425# Las variables con mmissing values son: P203A, P203B, P204, P205, P206,26# P207, P208A, P208B, P2092728# 3. Mostrar las etiquetas de dos variables:2930enc_hogar$DOMINIO %>% attr('label')31enc_hogar$ESTRATO %>% attr('label')3233# Mostrar las etiquetas de los valores de dos variables34enc_hogar$DOMINIO %>% attr('labels')35enc_hogar$ESTRATO %>% attr('labels')36enc_hogar$P203 %>% attr('labels')37enc_hogar$P203B %>% attr('labels')38enc_hogar$P204 %>% attr('labels')39enc_hogar$P205 %>% attr('labels')40enc_hogar$P206 %>% attr('labels')41enc_hogar$P207 %>% attr('labels')42enc_hogar$P209 %>% attr('labels')4344# 4. Detectar personas evaluadas en ambos año 2019 y 20204546# Usamos "attach" para generar cada variable como objeto independiente47attach(enc_hogar)4849# Mutate crear variables5051# Ver duplicados (incluye las copias)52enc_hogar %>% group_by( CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>%53mutate(duplicates = n()) %>% filter(duplicates >1) %>%54select(CONGLOME, VIVIENDA, HOGAR, CODPERSO, duplicates)5556# Borrar duplicados y solo quedarnos con la evaluación de una persona}5758enc_hogardup <- enc_hogar %>% distinct(CONGLOME,59VIVIENDA, HOGAR,60CODPERSO, .keep_all = TRUE)6162# "Dim": para saber el # de filas y columnas63dim(enc_hogar)64dim(enc_hogardup)6566# base original(enc_hogar) #obs = 8503567# base sin duplicados (enc_hogardup) #obs = 8090068# Hay un total de 4135 personas duplicadas (encuestadas en 2019 y 2020)69707172# 5. Ordenar la base de datos a partir de variables que identifican cada73#miembro y la variable del año "year". Así poder ver al individuo en ambos años7475attach(enc_hogar)7677# Usando el codigo anterior añadimos el filtro que diferencia el año y podemos ver cada al miembro en cada año7879enc_hogar2019 <- enc_hogar %>% filter( year == 2019) %>% distinct(CONGLOME,80VIVIENDA, HOGAR,81CODPERSO, .keep_all = TRUE)8283enc_hogar2020 <- enc_hogar %>% filter( year == 2020) %>% distinct(CONGLOME,84VIVIENDA, HOGAR,85CODPERSO, .keep_all = TRUE)868788# 6. Crear base de datos para cada año8990# En el problema anterior ya se definieron las bases por año, entonces se cambia al nombre solicitado919293data2019 <- enc_hogar201994data2020 <- enc_hogar20209596# Guardamos base en la ruta de data en formato spss9798write_sav(data2019 , "data_2019_Grupo3.sav")99write_sav(data2020 , "data_2020_Grupo3.sav")100101102103