Path: blob/main/Trabajo_grupal/WG5/Grupo_6_R.R
2714 views
################ TAREA 6 ############################1## Curso: Laboratorio de R y Python ###########################2## GRUPO 63456####Usted debe trabajar una base data_administrativa que est� en la carpeta data.7####Esta base de datos contiene es una encuesta realizado a miembros del hogar durante a�os a�os 2019 y 2020.89# username10user <- Sys.getenv("USERNAME")1112# set directorio13setwd( paste0("C:\Users\User\Documents\GitHub\1ECO35_2022_2\data") )1415# Put relative path16file_path = "../data/data_administrativa.sav"1718# read dataset19data_administrativa_1 <- haven::read_sav(file_path , encoding = "UTF-8" )2021####Mostrar las variables que presentan missing values2223#primero se mostraran todas las varaibles de la base de datos24names(data_administrativa_12526#para ver el numero de missings values que tienen las variables27apply(data_administrativa_1, MARGIN = 2, function(x) sum(is.na(x)))2829#Las varaibles con missings values son P203A, P203B, P204, P205, P206, P207, P208A, P208B y P209303132####Se le pide mostrar las etiquetas de dos variables (var labels) y33####las etiquetas de los valores en dos variables (value's labels).3435#Seleccionamos 2 varaibles para analizar y buscamos lo que significa cada una36#para ello escogemos las variables P203 y P20437data_administrativa_1$P203 %>% attr('label')38data_administrativa_1$P204 %>% attr('label')3940#Luego, buscamos el significado de su valoracion de cada variable, es decir de P203 y P20441data_administrativa_1$P203 %>% attr('labels')42data_administrativa_1$P204 %>% attr('labels')43#De lo anterior se puede determinar que P203 tiene hasta 11 posibles respuestas que se puede obtener44#por el lado de P204 se puede observar que es una variable binaria, es decir con respuesta afirmativa y negativa454647####Se le pide detectar personas que fueran entrevistadas en ambos a�os.48####Para ello, se pide detectar duplicados a partir del identificador por persona:49#### conglome, vivienda, hogar y codperso.5051#Primero, para que cada variable sea independiente establecemos el siguiente comanddo52attach(data_administrativa_1)5354#Para detectar los duplicados de las variables CONGLOME, VIVIENDA, HOGAR, CODPERSO establecemos lo siguiente55data_administrativa_1 %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>%56mutate(duplicates = n()) %>% filter(duplicates >1) %>%57select(CONGLOME ,VIVIENDA ,HOGAR ,CODPERSO, duplicates )585960####Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year).61####As� podr� observar a cada individuo en ambos a�os.6263library(dplyr)6465#para ver las variables en la base de datos de manera ordenada ascendentemente en a�os66data_administrativa_1 <- arrange(data_administrativa_1, year)6768#reducimos a las variables que se estan usando y le asignamos su respectivo a�o69#corremos lo siguiente para obtener las varaibles especificas70select(data_administrativa_1, year, CONGLOME, VIVIENDA, HOGAR, CODPERSO)7172####Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres73#### data_2019_(numero de grupo) y data_2020_(numero de grupo).7475#Como ya la base de datos data_administrativa_1 esta ordenada ascendentemente en a�os76#se procedera a crear otra base de datos con filas hasta del 42601, donde resulta el ultimo dato77#del a�o 2019, y es a partir de la fila 42602 hasta el final en que se empieza a encontrar datos del 202078#por ello se crean 2 bases de datos nuevas para separar el 2019 y el 202079data_2019_6 <- data_administrativa_1[1:42601 , 1:6]80data_2020_6 <- data_administrativa_1[42602:85035 , 1:6]818283