Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_7_r.R
2714 views
1
#####################
2
### SPSS file ###
3
#####################
4
5
6
#############
7
#### 1 ####
8
9
# Trabajar con la data_administrativa que est� en la carpeta data.
10
11
pacman::p_load(tidyverse, haven, janitor, stringr ) # otra forma de cargar librer�as
12
13
user <- Sys.getenv("USERNAME") # username
14
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") ) # set directorio
15
16
# Put relative path
17
file_path = "../data/data_administrativa.sav"
18
df <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset
19
20
21
#############
22
#### 2 ####
23
24
# Mostrar las variables que presentan missing values
25
colSums(is.na(df)) # muestra el n�mero de missing por columna
26
27
28
#############
29
#### 3 ####
30
31
# Se le pide mostrar las etiquetas de dos variables (var labels) y las etiquetas
32
# de los valores en dos variables (value's labels).
33
34
df$DOMINIO %>% attr('label') # var labels
35
df$ESTRATO %>% attr('label') # var labels
36
37
df$DOMINIO %>% attr('labels') # value labels
38
df$ESTRATO %>% attr('labels') # value labels
39
40
41
#############
42
#### 4 ####
43
44
# Se le pide detectar personas que fueran entrevistadas en ambos a�os. Para ello, se pide
45
# detectar duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso.
46
attach(df) # para que cada columna sea un objeto independiente y prenscindamos del data$col
47
48
duplicated_data <- df %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>%
49
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
50
select(CONGLOME, VIVIENDA, HOGAR, CODPERSO, duplicates )
51
52
View(duplicated_data)
53
54
# Borrando duplicados. Borra las copias, no las primeras apariciones.
55
df_noduplicates <- df %>% distinct(CONGLOME, VIVIENDA, HOGAR, CODPERSO, .keep_all = TRUE)
56
57
58
#############
59
#### 5 ####
60
61
# Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year).
62
# As� podr� observar a cada individuo en ambos a�os.
63
64
df_noduplicates <- df_noduplicates %>% arrange(year, CONGLOME, VIVIENDA, HOGAR, CODPERSO) # libreria dplyr para ordenar
65
66
67
#############
68
#### 6 ####
69
# Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres
70
# data_2019_(numero de grupo) y data_2020_(numero de grupo).
71
72
# creando base para cada a�o
73
df_2019 <- df_noduplicates %>% filter(year == "2019")
74
View(df_2019)
75
76
df_2020 <- df_noduplicates %>% filter(year == "2020")
77
View(df_2020)
78
79
# guardando las bases de datos
80
write.csv(df_2019,"../data/data_2019_Grupo7.csv", row.names = FALSE)
81
write.csv(df_2020,"../data/data_2020_Grupo7.csv", row.names = FALSE)
82
83
84
85