CoCalc -- Grupo_4

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_4_r.R
⁴⁶⁸² views
1
################################################################################
2
#                                                                              #
3
#                              TAREA 5 - GRUPO 4                               #
4
#                                                                              #
5
################################################################################
6

7
# Luana Morales - 20191240
8
# Flavia Oré - 20191215
9
# Marcela Quintero - 20191445
10
# Seidy Ascencios - 20191622
11

12
#------------------------------------------------------------------------------#
13
#                                                                              #
14
#                                PREGUNTA 2                                    # 
15
#                                                                              #
16
#------------------------------------------------------------------------------#
17

18
#En primer lugar, llamaremos a las librerías necesarias para empezar a tratar la base de datos
19

20
install.packages("pacman")
21
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
22

23
#Elegimos el directorio
24
user <- Sys.getenv("USERNAME")  
25

26
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )
27

28
#Abrimos la base de datos
29

30
data_administrativa <- haven::read_sav("../../data/data_administrativa.sav") 
31

32
head (data_administrativa)
33

34
names(data_administrativa)
35

36
#variables que presentan missing values
37

38
any( is.na(data_administrativa) ) #El resultado es "TRUE", por lo que sí hay missing values
39

40
sum(is.na(data_administrativa)) #Vemos que existen 243075 missing values en nuestra base de datos
41

42
is.na(data_administrativa) #El resultado el "TRUE", donde existen missing values. Es decir, las varibles P203A, P203B, P204, P205, P206, P207,P208A, P208B, P209
43

44
#dos variables en var labels 
45

46
summary.data.frame (data_administrativa) #vemos el resumen estadístico
47

48
install.packages("Hmisc") #instalamos para tener la función label
49
library (Hmisc)
50
label (data_administrativa$P204)<- "miembro_hogar"
51
label (data_administrativa$P203)<- "parentesco_jefefamiliar"
52

53
#dos variables en value's labels 
54

55
table (data_administrativa$P207)
56
data_administrativa$p207<-factor(data_administrativa$p207,levels=c(1,2), labels  = c("hombre", "mujer"))
57
table (data_administrativa$P204)
58
data_administrativa$p204<-factor(data_administrativa$p204,levels=c(1,2), labels = c("si", "no"))
59

60
#detectar duplicados
61

62
data_adminitrativa_1 <- data_administrativa %>% distinct(CONGLOME,VIVIENDA,HOGAR,CODPERSO, .keep_all = TRUE)
63

64
#Ordenar base de datos
65

66
data_adminitrativa_2 <- data_adminitrativa_1[with(data_adminitrativa_1, order(data_adminitrativa_1$CODPERSO)), ] 
67

68
data_adminitrativa_3 <- data_adminitrativa_2[with(data_adminitrativa_2, order(data_adminitrativa_2$UBIGEO)), ] 
69

70
data_adminitrativa_4 <- data_adminitrativa_3[with(data_adminitrativa_3, order(data_adminitrativa_3$CONGLOME)), ] 
71

72
data_adminitrativa_5 <- data_adminitrativa_4[with(data_adminitrativa_4, order(data_adminitrativa_4$VIVIENDA)), ] 
73

74
data_adminitrativa_6 <- data_adminitrativa_5[with(data_adminitrativa_5, order(data_adminitrativa_5$HOGAR)), ] 
75

76
data_adminitrativa_7 <- data_adminitrativa_6[with(data_adminitrativa_6, order(data_adminitrativa_6$year)), ] 
77

78
#separar por año 
79

80
data_trabajada2019 <- data_adminitrativa_7[data_adminitrativa_7$year==2019,]
81

82
data_trabajada2020 <- data_adminitrativa_7[data_adminitrativa_7$year==2020,]
83

84
#se guarda las bases de datos creadas
85

86
install.packages("haven")      
87
library("haven")
88

89
write_sav(data_trabajada2019 , "../data/data_2019_grupo4.sav")
90
write_sav(data_trabajada2020 , "../data/data_2020_grupo4.sav")
91

92
Product

Resources

Company