Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_1_r.R
2714 views
1
#Instalamos el paquete "pacman"
2
install.packages("pacman")
3
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
4
5
#Colocamos el usuario para que pueda correr f�cilmente
6
user <- Sys.getenv("USERNAME")
7
#Seteamos el directorio
8
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data"))
9
#Colocamos la ruta
10
file_path = "../data/data_administrativa.sav"
11
12
#Para que lea el archivo SPSS
13
df <- haven::read_sav(file_path , encoding = "UTF-8" )
14
15
#Se muestran las variables del dataframe y abajo si tienen o no missing values
16
#Aparece True si tiene alg�n valor nulo y False si no tiene ning�n valor nulo
17
apply(df, MARGIN = 2, function(x) any(is.na(x)))
18
19
#Se muestran las etiquetas de las dos variables P203 y P204:
20
21
#Etiqueta de P203
22
paste("Etiqueta de variable P203 =", df$P203 %>% attr('label') )# var label
23
#Etiqueta de P204
24
paste("Etiqueta de variable P204 =", df$P204 %>% attr('label') )# var label
25
26
#Se muestran las etiquetas de los valores de las dos variables P203 y P204:
27
28
#Etiquetas de los valores de variable P203
29
df$P203 %>% attr('labels')
30
#Etiquetas de los valores de la variable P204
31
df$P204 %>% attr('labels')
32
33
#Hallamos los duplicados con attach
34
attach(df)
35
36
#Se crea un dataframe con los valores duplicados
37
df_filtrada <- df %>% group_by(CONGLOME ,VIVIENDA , HOGAR ,CODPERSO) %>%
38
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
39
40
#Se indica que se muestren las variables del Indicador por Persona y el a�o de cada registro
41
select(year, CONGLOME ,VIVIENDA , HOGAR ,CODPERSO ,duplicates )
42
43
#Se ordena el nuevo dataframe para que se pueda identificar f�cilmente los registros duplicados y en que a�o se registr� cada uno
44
df_filtrada <- df_filtrada[order(df_filtrada$CONGLOME, df_filtrada$VIVIENDA, df_filtrada$year),]
45
46
#Mostramos el DataFrame
47
View(df_filtrada)
48
49
50
df_filtrada %>% filter(year==2019)-> df_2019
51
df_filtrada %>% filter(year==2020)-> df_2020
52
53
write.csv(df_2019, "../data/df_2019")
54
write.csv(df_2020, "../data/df_2020")
55
56
57
58
59
60
61
62
63
64
65
66
67
68