Path: blob/main/Trabajo_grupal/WG5/Grupo 2_ tarea5.R
2714 views
#-----------------------------------------1# WG5 Tarea 5 - Grupo 22#-----------------------------------------3# R y Python4#-----------------------------------------5# Integrantes:6# Enrique Ríos7# Fabio Salas8# Amalia Castillo9# Angie Quispe1011user <-Sys.getenv("USERNAME")12setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )131415#--------------16# Comando para borrar todo lo que no sirva antes17rm(list=ls())1819#---------------20# Librerías21#---------------22install.packages("pacman")23library(foreign)24library(dplyr)2526pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)2728# haven: Este comando lee archivos spss (sav)29# string : Este comando trabaja con string3031#-----------------------32# Ruta de trabajo33#-----------------------34# Se setea el directorio35script.path <- dirname(rstudioapi::getSourceEditorContext()$path)36setwd("D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data")373839# Procedemos a importar los datos a analizar4041file_path = "D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data\\data_administrativa.sav"42datos <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset4344#Revisamos la dimensión de los datos4546head(datos)47names(datos) #Para el nombre de las variables de la lista484950# Var labels y values labels51# Se emplea el comando "control + shift + m " en iOS para que aparezca este símbolo %>%5253datos$ESTRATO %>% attr('labels') # value labels54datos$ESTRATO %>% attr('label') # var label555657datos$DOMINIO %>% attr('labels') # value labels58datos$DOMINIO %>% attr('label') # var label5960# Primero se procede a desarrollar value labels6162print(datos$ESTRATO) #vemos el estrato63datos$ESTRATO %>% attr('labels') # value labels646566# Segundo se procede a encontrar las variables labels67print(datos$DOMINIO)68datos$DOMINIO %>% attr('labels') # value labels6970# Ahora se procede a detectar y eliminar duplicados71attach(datos)727374datos <- datos %>% filter(ESTRATO == 1 & DOMINIO == 1)7576view(datos)7778datos_filtrados <- datos %>% group_by(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) %>%79mutate(duplicates = n()) %>% filter(duplicates >1) %>%80select(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR, duplicates )8182View(datos_filtrados) # No existen duplicados838485# Se crea dataframe para los años 2019 y 20208687# Drop duplicates rows (observaciones). Se borra las copias, No las primeras apariciones8889datos_2019 <- datos %>% distinct(year = 2019 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) # .keep_all = TRUE muestra todas las variables9091datos_2020 <- datos %>% distinct(year = 2020 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR)9293# Finalmente, se guarda la nueva data creada9495datos_20199697datos_20209899write_sav(datos_2019, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")100write_sav(datos_2020, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")101102103104