Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_4_r.R
2714 views
1
################################################################################
2
# #
3
# TAREA 5 - GRUPO 4 #
4
# #
5
################################################################################
6
7
# Luana Morales - 20191240
8
# Flavia Oré - 20191215
9
# Marcela Quintero - 20191445
10
# Seidy Ascencios - 20191622
11
12
#------------------------------------------------------------------------------#
13
# #
14
# PREGUNTA 2 #
15
# #
16
#------------------------------------------------------------------------------#
17
18
#En primer lugar, llamaremos a las librerías necesarias para empezar a tratar la base de datos
19
20
install.packages("pacman")
21
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
22
23
#Elegimos el directorio
24
user <- Sys.getenv("USERNAME")
25
26
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )
27
28
#Abrimos la base de datos
29
30
data_administrativa <- haven::read_sav("../../data/data_administrativa.sav")
31
32
head (data_administrativa)
33
34
names(data_administrativa)
35
36
#variables que presentan missing values
37
38
any( is.na(data_administrativa) ) #El resultado es "TRUE", por lo que sí hay missing values
39
40
sum(is.na(data_administrativa)) #Vemos que existen 243075 missing values en nuestra base de datos
41
42
is.na(data_administrativa) #El resultado el "TRUE", donde existen missing values. Es decir, las varibles P203A, P203B, P204, P205, P206, P207,P208A, P208B, P209
43
44
#dos variables en var labels
45
46
summary.data.frame (data_administrativa) #vemos el resumen estadístico
47
48
install.packages("Hmisc") #instalamos para tener la función label
49
library (Hmisc)
50
label (data_administrativa$P204)<- "miembro_hogar"
51
label (data_administrativa$P203)<- "parentesco_jefefamiliar"
52
53
#dos variables en value's labels
54
55
table (data_administrativa$P207)
56
data_administrativa$p207<-factor(data_administrativa$p207,levels=c(1,2), labels = c("hombre", "mujer"))
57
table (data_administrativa$P204)
58
data_administrativa$p204<-factor(data_administrativa$p204,levels=c(1,2), labels = c("si", "no"))
59
60
#detectar duplicados
61
62
data_adminitrativa_1 <- data_administrativa %>% distinct(CONGLOME,VIVIENDA,HOGAR,CODPERSO, .keep_all = TRUE)
63
64
#Ordenar base de datos
65
66
data_adminitrativa_2 <- data_adminitrativa_1[with(data_adminitrativa_1, order(data_adminitrativa_1$CODPERSO)), ]
67
68
data_adminitrativa_3 <- data_adminitrativa_2[with(data_adminitrativa_2, order(data_adminitrativa_2$UBIGEO)), ]
69
70
data_adminitrativa_4 <- data_adminitrativa_3[with(data_adminitrativa_3, order(data_adminitrativa_3$CONGLOME)), ]
71
72
data_adminitrativa_5 <- data_adminitrativa_4[with(data_adminitrativa_4, order(data_adminitrativa_4$VIVIENDA)), ]
73
74
data_adminitrativa_6 <- data_adminitrativa_5[with(data_adminitrativa_5, order(data_adminitrativa_5$HOGAR)), ]
75
76
data_adminitrativa_7 <- data_adminitrativa_6[with(data_adminitrativa_6, order(data_adminitrativa_6$year)), ]
77
78
#separar por año
79
80
data_trabajada2019 <- data_adminitrativa_7[data_adminitrativa_7$year==2019,]
81
82
data_trabajada2020 <- data_adminitrativa_7[data_adminitrativa_7$year==2020,]
83
84
#se guarda las bases de datos creadas
85
86
install.packages("haven")
87
library("haven")
88
89
write_sav(data_trabajada2019 , "../data/data_2019_grupo4.sav")
90
write_sav(data_trabajada2020 , "../data/data_2020_grupo4.sav")
91
92