CoCalc -- Grupo_7

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_7_r.R
⁴⁶⁸⁶ views
1
#####################
2
###   SPSS file   ###
3
#####################
4

5

6
#############
7
####  1  ####
8

9
# Trabajar con la data_administrativa que est� en la carpeta data.
10

11
pacman::p_load(tidyverse, haven, janitor, stringr )   # otra forma de cargar librer�as
12

13
user <- Sys.getenv("USERNAME")  # username
14
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab6") ) # set directorio
15

16
# Put relative path
17
file_path = "../data/data_administrativa.sav"
18
df <- haven::read_sav(file_path , encoding = "UTF-8" )  # read dataset
19

20

21
#############
22
####  2  ####
23

24
# Mostrar las variables que presentan missing values
25
colSums(is.na(df))     # muestra el n�mero de missing por columna
26

27

28
#############
29
####  3  ####
30

31
# Se le pide mostrar las etiquetas de dos variables (var labels) y las etiquetas 
32
# de los valores en dos variables (value's labels).
33

34
df$DOMINIO %>% attr('label')  # var labels
35
df$ESTRATO %>% attr('label')  # var labels
36

37
df$DOMINIO %>% attr('labels') # value labels      
38
df$ESTRATO %>% attr('labels') # value labels
39

40

41
#############
42
####  4  ####
43

44
# Se le pide detectar personas que fueran entrevistadas en ambos a�os. Para ello, se pide 
45
# detectar duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso.
46
attach(df) # para que cada columna sea un objeto independiente y prenscindamos del data$col
47

48
duplicated_data <- df %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>% 
49
  mutate(duplicates = n()) %>% filter(duplicates >1) %>%
50
  select(CONGLOME, VIVIENDA, HOGAR, CODPERSO, duplicates ) 
51

52
View(duplicated_data)
53

54
# Borrando duplicados. Borra las copias, no las primeras apariciones.
55
df_noduplicates <- df %>% distinct(CONGLOME, VIVIENDA, HOGAR, CODPERSO, .keep_all = TRUE)
56

57

58
#############
59
####  5  ####
60

61
# Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year). 
62
# As� podr� observar a cada individuo en ambos a�os.
63

64
df_noduplicates <- df_noduplicates %>% arrange(year, CONGLOME, VIVIENDA, HOGAR, CODPERSO)  # libreria dplyr para ordenar
65

66

67
#############
68
####  6  ####
69
# Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres 
70
# data_2019_(numero de grupo) y data_2020_(numero de grupo).
71

72
# creando base para cada a�o
73
df_2019 <- df_noduplicates %>% filter(year == "2019")
74
View(df_2019)
75

76
df_2020 <- df_noduplicates %>% filter(year == "2020")
77
View(df_2020)
78

79
# guardando las bases de datos
80
write.csv(df_2019,"../data/data_2019_Grupo7.csv", row.names = FALSE)
81
write.csv(df_2020,"../data/data_2020_Grupo7.csv", row.names = FALSE)
82

83

84

85
Product

Resources

Company