CoCalc -- Grupo5

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo5_Tarea5.R
⁴⁶⁸³ views
1
#Pregunta número 2
2
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
3
user <- Sys.getenv("USERNAME")
4
library("magrittr")
5
library(haven)
6

7
#Importamos la base de datos
8
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") )
9
file_path = "../data/data_administrativa.sav"
10
data_administrativa <- haven::read_sav(file_path , encoding = "UTF-8" ) 
11
View(data_administrativa)
12
#Encontramos los missing en la data frame
13
is.na(data_administrativa)
14
#Aquí mostramos el value labels de Estrato y Dominio
15
data_administrativa$ESTRATO %>% attr('labels') # value labels
16
data_administrativa$DOMINIO %>% attr('labels') # value labels
17
#Aquí mostramos el label de Estrato y Domio
18
data_administrativa$ESTRATO %>% attr('label') # var label
19
data_administrativa$DOMINIO %>% attr('label') # var label
20
#Cada variable separada sola
21
attach(data_administrativa)
22
#Vamos a filtrar la data, si contiene duplicados
23
data_filtrada <- data_administrativa %>% group_by(CONGLOME, VIVIENDA, HOGAR , CODPERSO) %>% 
24
  mutate(duplicates = n()) %>% filter(duplicates >1) %>%
25
#Vamos a elegir solo algunas variables
26
select(year, CONGLOME, VIVIENDA, HOGAR , CODPERSO, duplicates)
27
#Ahora vamos a eliminar los duplicados porque crearemos una nueva base de datos
28
data_administrativa_ndup <- data_administrativa %>% distinct(year, CONGLOME, VIVIENDA, HOGAR , CODPERSO, .keep_all = FALSE)
29
#Creamos una data frame para cada año 
30
data_años <- split(data_administrativa_ndup,data_administrativa_ndup$year)
31
#Ahora guardamos los archivos
32
data_2019_5 <- data_años$`2019`
33
data_2020_5 <- data_años$`2020`
34
write_sav(data_2019_5,file_path )
35
write_sav(data_2020_5,file_path)
36

37
Product

Resources

Company