Path: blob/main/Trabajo_grupal/WG5/Grupo_4_r.R
2714 views
################################################################################1# #2# TAREA 5 - GRUPO 4 #3# #4################################################################################56# Luana Morales - 201912407# Flavia Oré - 201912158# Marcela Quintero - 201914459# Seidy Ascencios - 201916221011#------------------------------------------------------------------------------#12# #13# PREGUNTA 2 #14# #15#------------------------------------------------------------------------------#1617#En primer lugar, llamaremos a las librerías necesarias para empezar a tratar la base de datos1819install.packages("pacman")20pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)2122#Elegimos el directorio23user <- Sys.getenv("USERNAME")2425setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )2627#Abrimos la base de datos2829data_administrativa <- haven::read_sav("../../data/data_administrativa.sav")3031head (data_administrativa)3233names(data_administrativa)3435#variables que presentan missing values3637any( is.na(data_administrativa) ) #El resultado es "TRUE", por lo que sí hay missing values3839sum(is.na(data_administrativa)) #Vemos que existen 243075 missing values en nuestra base de datos4041is.na(data_administrativa) #El resultado el "TRUE", donde existen missing values. Es decir, las varibles P203A, P203B, P204, P205, P206, P207,P208A, P208B, P2094243#dos variables en var labels4445summary.data.frame (data_administrativa) #vemos el resumen estadístico4647install.packages("Hmisc") #instalamos para tener la función label48library (Hmisc)49label (data_administrativa$P204)<- "miembro_hogar"50label (data_administrativa$P203)<- "parentesco_jefefamiliar"5152#dos variables en value's labels5354table (data_administrativa$P207)55data_administrativa$p207<-factor(data_administrativa$p207,levels=c(1,2), labels = c("hombre", "mujer"))56table (data_administrativa$P204)57data_administrativa$p204<-factor(data_administrativa$p204,levels=c(1,2), labels = c("si", "no"))5859#detectar duplicados6061data_adminitrativa_1 <- data_administrativa %>% distinct(CONGLOME,VIVIENDA,HOGAR,CODPERSO, .keep_all = TRUE)6263#Ordenar base de datos6465data_adminitrativa_2 <- data_adminitrativa_1[with(data_adminitrativa_1, order(data_adminitrativa_1$CODPERSO)), ]6667data_adminitrativa_3 <- data_adminitrativa_2[with(data_adminitrativa_2, order(data_adminitrativa_2$UBIGEO)), ]6869data_adminitrativa_4 <- data_adminitrativa_3[with(data_adminitrativa_3, order(data_adminitrativa_3$CONGLOME)), ]7071data_adminitrativa_5 <- data_adminitrativa_4[with(data_adminitrativa_4, order(data_adminitrativa_4$VIVIENDA)), ]7273data_adminitrativa_6 <- data_adminitrativa_5[with(data_adminitrativa_5, order(data_adminitrativa_5$HOGAR)), ]7475data_adminitrativa_7 <- data_adminitrativa_6[with(data_adminitrativa_6, order(data_adminitrativa_6$year)), ]7677#separar por año7879data_trabajada2019 <- data_adminitrativa_7[data_adminitrativa_7$year==2019,]8081data_trabajada2020 <- data_adminitrativa_7[data_adminitrativa_7$year==2020,]8283#se guarda las bases de datos creadas8485install.packages("haven")86library("haven")8788write_sav(data_trabajada2019 , "../data/data_2019_grupo4.sav")89write_sav(data_trabajada2020 , "../data/data_2020_grupo4.sav")909192