Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo10_r .r
2714 views
1
library(haven)
2
3
#subimos la base de datos
4
#--------------------------
5
user <- Sys.getenv("USERNAME") # username
6
7
setwd( paste0("C:/Users/",user,"/Documentos/Git_Hub/1ECO35_2022_2/Lab6") ) # set directorio
8
9
file_path = "../data/data_administrativa.sav"
10
11
data_administrativa <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset
12
13
head(data_administrativa)
14
15
names(data_administrativa) # nombre de las variables en una lista
16
17
#Las etiquetas de las variables de la base de datos
18
#--------------------------------------------------
19
20
#La etiqueta de la variable 'DOMINIO' de la base de datos
21
data_administrativa$DOMINIO %>% attr('label')
22
23
#La etiqueta de la variable 'P203' de la base de datos
24
data_administrativa$P203 %>% attr('label')
25
26
#las etiquetas de los valores de las variables en la base de datos
27
#-----------------------------------------------------------------
28
29
#La etiqueta de la variable 'DOMINIO' de la base de datos
30
data_administrativa$DOMINIO %>% attr('labels')
31
32
#La etiqueta de la variable 'P203' de la base de datos
33
data_administrativa$P203 %>% attr('labels')
34
35
36
#Duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso
37
#--------------------------------------------------------------------------------------------
38
attach(data_administrativa)
39
40
data_administrativa_filtrada <- data_administrativa %>% group_by(CODPERSO ,CONGLOME , VIVIENDA, HOGAR) %>%
41
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
42
select(CODPERSO, CONGLOME, VIVIENDA, HOGAR, duplicates )
43
44
View(data_administrativa_filtrada)
45
46
47
# me quedo con las primeras apariciones y elimino los duplicados
48
data_administrativa_ndup <- data_administrativa %>% distinct(CODPERSO ,CONGLOME , VIVIENDA, HOGAR, .keep_all = TRUE)
49
50
51
# Variables que presentan valores faltantes
52
#--------------------------------------------
53
54
any( is.na(data_administrativa)) # TRUE: al menos un missing value
55
56
is.na(data_administrativa) #Variables con missing value
57
58
data_administrativa_ndup <- data_administrativa_ndup %>% mutate(Dummy_2 = ifelse(DOMINIO == 4 , 1 , ifelse(!is.na(DOMINIO),0, NA) ) )
59
60
#podemos ver que sí hay variables con missing values
61
62
63
# Base de datos ordenada a partir de las variables que identifican cada miembro y la variable de año (year)
64
#----------------------------------------------------------------------------------------------------------
65
66
data_administrativa_new <- data_administrativa[order(data_administrativa$CODPERSO, data_administrativa$year),]
67
View(data_administrativa_new)
68
69
70
#Cree una base de datos para cada año
71
#----------------------------------
72
73
#Creamos la base de datos para el año 2019
74
data_administrativa_2019_Grupo10 <- data_administrativa %>% filter( (year == "2019") ) #con la base data_administrativa
75
data_administrativa_2019_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2019") ) #data_administrativa_ndup
76
77
#Guardamos la base de datos 2019
78
write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10.sav")
79
write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10_1.sav")
80
81
82
#Creamos la base de datos para el año 2020
83
data_administrativa_2020_Grupo10 <- data_administrativa %>% filter( (year == "2020") ) #con la base data_administrativa
84
data_administrativa_2020_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2020") ) #data_administrativa_ndup
85
86
#Guardamos la base de datos 2020
87
write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10.sav")
88
write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10_1.sav")
89