Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Lab6/script_2_r.R
2714 views
1
################ laboratorio 6 ############################
2
## Curso: Laboratorio de R y Python ###########################
3
## @author: Roberto Mendoza
4
5
6
7
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
8
9
# haven: leer archivos spss (sav)
10
# string : trabajar con string
11
12
13
#janitor to detect duplicates
14
15
user <- Sys.getenv("USERNAME") # username
16
17
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") ) # set directorio
18
19
# Put relative path
20
21
file_path = "../data/enapres_2020_ch_100/736-Modulo1618/CAP_100_URBANO_RURAL_3.sav"
22
23
enapres2020_1 <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset
24
25
head(enapres2020_1)
26
27
names(enapres2020_1) # nombre de las variables en una lista
28
29
# Observar labels
30
31
# %>% Ctrl + shift + m
32
33
enapres2020_1$ESTRATO %>% attr('labels') # value labels
34
35
36
enapres2020_1$ESTRATO %>% attr('label') # var label
37
38
39
40
print(AREA)
41
42
enapres2020_1$AREA%>% attr('labels') # value labels
43
44
print(RESFIN)
45
46
enapres2020_1$RESFIN %>% attr('labels') # value labels
47
48
# 2. Check duplicates report
49
50
" %>% Ctrol + shift + m, uso de dplyr library"
51
52
attach(enapres2020_1)
53
54
# Filter hogares urbanos que responden toda la encuesta
55
56
enapres2020_1 <- enapres2020_1 %>% filter(RESFIN == 1 & AREA == 1)
57
58
data_filtrada <- enapres2020_1 %>% group_by(CCDD ,CCPP , CCDI ,CONGLOMERADO , NSELV, VIVIENDA, HOGAR) %>%
59
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
60
select(CCDD ,CCPP , CCDI ,CONGLOMERADO , NSELV, VIVIENDA, HOGAR, duplicates )
61
62
View(data_filtrada)
63
64
65
66
# First group by unique household identifier
67
# mutate() create variables
68
# filter duplicates
69
# select unique household identifier
70
71
# Drop duplicates rows (observaciones). Se borra las copias, No las primeras apariciones
72
73
enapres2020_1_ndup <- enapres2020_1 %>% distinct(CCDD ,CCPP
74
, CCDI ,CONGLOMERADO , NSELV,
75
VIVIENDA, HOGAR, .keep_all = TRUE)
76
77
# .keep_all = TRUE muestra todas las variables
78
79
enapres2020_1_ndup <- enapres2020_1 %>% distinct(CCDD ,CCPP
80
, CCDI ,CONGLOMERADO , NSELV,
81
VIVIENDA, HOGAR, .keep_all = F)
82
83
# .keep_all = FALSE Solo muestra las variables seleccionadas "CCDD ,CCPP,CCDI ,CONGLOMERADO , NSELV,VIVIENDA, HOGAR"
84
85
dim(enapres2020_1_ndup)
86
87
88
write_sav(enapres2020_1_ndup , "../data/enapres_2020_ch_100/736-Modulo1618/df.sav") # save in spss format
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125