CoCalc -- Grupo10

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo10_r .r
⁴⁶⁸⁵ views
1
library(haven)
2

3
#subimos la base de datos
4
#--------------------------
5
user <- Sys.getenv("USERNAME")  # username
6

7
setwd( paste0("C:/Users/",user,"/Documentos/Git_Hub/1ECO35_2022_2/Lab6") ) # set directorio
8

9
file_path = "../data/data_administrativa.sav"
10

11
data_administrativa <- haven::read_sav(file_path , encoding = "UTF-8" )  # read dataset
12

13
head(data_administrativa)
14

15
names(data_administrativa) # nombre de las variables en una lista
16

17
#Las etiquetas de las variables de la base de datos
18
#--------------------------------------------------
19

20
#La etiqueta de la variable 'DOMINIO' de la base de datos
21
data_administrativa$DOMINIO %>% attr('label')
22

23
#La etiqueta de la variable 'P203' de la base de datos
24
data_administrativa$P203 %>% attr('label')
25

26
#las etiquetas de los valores de las variables en la base de datos
27
#-----------------------------------------------------------------
28

29
#La etiqueta de la variable 'DOMINIO' de la base de datos
30
data_administrativa$DOMINIO %>% attr('labels')
31

32
#La etiqueta de la variable 'P203' de la base de datos
33
data_administrativa$P203 %>% attr('labels')
34

35

36
#Duplicados a partir del identificador por persona : conglome, vivienda, hogar y codperso  
37
#--------------------------------------------------------------------------------------------
38
attach(data_administrativa)
39

40
data_administrativa_filtrada <- data_administrativa %>% group_by(CODPERSO ,CONGLOME , VIVIENDA, HOGAR) %>% 
41
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
42
select(CODPERSO, CONGLOME, VIVIENDA, HOGAR, duplicates ) 
43

44
View(data_administrativa_filtrada)
45

46

47
# me quedo con las primeras apariciones y elimino los duplicados
48
data_administrativa_ndup <- data_administrativa %>% distinct(CODPERSO ,CONGLOME , VIVIENDA, HOGAR, .keep_all = TRUE)
49

50

51
# Variables que presentan valores faltantes
52
#--------------------------------------------
53

54
any( is.na(data_administrativa)) # TRUE: al menos un missing value
55

56
is.na(data_administrativa) #Variables con missing value
57

58
data_administrativa_ndup <- data_administrativa_ndup %>%  mutate(Dummy_2 = ifelse(DOMINIO == 4 ,  1 , ifelse(!is.na(DOMINIO),0, NA) ) )
59

60
#podemos ver que sí hay variables con missing values
61

62

63
# Base de datos ordenada a partir de las variables que identifican cada miembro y la variable de año (year)
64
#----------------------------------------------------------------------------------------------------------
65

66
data_administrativa_new <- data_administrativa[order(data_administrativa$CODPERSO, data_administrativa$year),]
67
View(data_administrativa_new)
68

69

70
#Cree una base de datos para cada año
71
#----------------------------------
72

73
#Creamos la base de datos para el año 2019
74
data_administrativa_2019_Grupo10 <- data_administrativa %>% filter( (year == "2019") ) #con la base data_administrativa
75
data_administrativa_2019_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2019") ) #data_administrativa_ndup
76

77
#Guardamos la base de datos 2019
78
write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10.sav")
79
write_sav(data_administrativa,"../data/data_administrativa_2019_Grupo10_1.sav")
80

81

82
#Creamos la base de datos para el año 2020
83
data_administrativa_2020_Grupo10 <- data_administrativa %>% filter( (year == "2020") ) #con la base data_administrativa
84
data_administrativa_2020_Grupo10_1 <- data_administrativa_ndup %>% filter( (year == "2020") ) #data_administrativa_ndup
85

86
#Guardamos la base de datos 2020
87
write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10.sav")
88
write_sav(data_administrativa,"../data/data_administrativa_2020_Grupo10_1.sav")
89
Product

Resources

Company