Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo 2_ tarea5.R
2714 views
1
#-----------------------------------------
2
# WG5 Tarea 5 - Grupo 2
3
#-----------------------------------------
4
# R y Python
5
#-----------------------------------------
6
# Integrantes:
7
# Enrique Ríos
8
# Fabio Salas
9
# Amalia Castillo
10
# Angie Quispe
11
12
user <-Sys.getenv("USERNAME")
13
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )
14
15
16
#--------------
17
# Comando para borrar todo lo que no sirva antes
18
rm(list=ls())
19
20
#---------------
21
# Librerías
22
#---------------
23
install.packages("pacman")
24
library(foreign)
25
library(dplyr)
26
27
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
28
29
# haven: Este comando lee archivos spss (sav)
30
# string : Este comando trabaja con string
31
32
#-----------------------
33
# Ruta de trabajo
34
#-----------------------
35
# Se setea el directorio
36
script.path <- dirname(rstudioapi::getSourceEditorContext()$path)
37
setwd("D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data")
38
39
40
# Procedemos a importar los datos a analizar
41
42
file_path = "D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data\\data_administrativa.sav"
43
datos <- haven::read_sav(file_path , encoding = "UTF-8" ) # read dataset
44
45
#Revisamos la dimensión de los datos
46
47
head(datos)
48
names(datos) #Para el nombre de las variables de la lista
49
50
51
# Var labels y values labels
52
# Se emplea el comando "control + shift + m " en iOS para que aparezca este símbolo %>%
53
54
datos$ESTRATO %>% attr('labels') # value labels
55
datos$ESTRATO %>% attr('label') # var label
56
57
58
datos$DOMINIO %>% attr('labels') # value labels
59
datos$DOMINIO %>% attr('label') # var label
60
61
# Primero se procede a desarrollar value labels
62
63
print(datos$ESTRATO) #vemos el estrato
64
datos$ESTRATO %>% attr('labels') # value labels
65
66
67
# Segundo se procede a encontrar las variables labels
68
print(datos$DOMINIO)
69
datos$DOMINIO %>% attr('labels') # value labels
70
71
# Ahora se procede a detectar y eliminar duplicados
72
attach(datos)
73
74
75
datos <- datos %>% filter(ESTRATO == 1 & DOMINIO == 1)
76
77
view(datos)
78
79
datos_filtrados <- datos %>% group_by(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) %>%
80
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
81
select(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR, duplicates )
82
83
View(datos_filtrados) # No existen duplicados
84
85
86
# Se crea dataframe para los años 2019 y 2020
87
88
# Drop duplicates rows (observaciones). Se borra las copias, No las primeras apariciones
89
90
datos_2019 <- datos %>% distinct(year = 2019 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) # .keep_all = TRUE muestra todas las variables
91
92
datos_2020 <- datos %>% distinct(year = 2020 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR)
93
94
# Finalmente, se guarda la nueva data creada
95
96
datos_2019
97
98
datos_2020
99
100
write_sav(datos_2019, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")
101
write_sav(datos_2020, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")
102
103
104