CoCalc -- Grupo 2

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo 2_ tarea5.R
⁴⁶⁸⁸ views
1
#-----------------------------------------
2
# WG5 Tarea 5 - Grupo 2
3
#-----------------------------------------
4
# R y Python
5
#-----------------------------------------
6
# Integrantes:
7
# Enrique Ríos 
8
# Fabio Salas
9
# Amalia Castillo
10
# Angie  Quispe
11

12
user <-Sys.getenv("USERNAME")
13
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG5") )
14

15

16
#--------------
17
# Comando para borrar todo lo que no sirva antes
18
rm(list=ls())
19

20
#---------------
21
# Librerías
22
#---------------
23
install.packages("pacman")
24
library(foreign)
25
library(dplyr)
26

27
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
28

29
# haven: Este comando lee archivos spss (sav)
30
# string : Este comando trabaja con string
31

32
#-----------------------
33
# Ruta de trabajo
34
#-----------------------
35
# Se setea el directorio
36
script.path <- dirname(rstudioapi::getSourceEditorContext()$path)
37
setwd("D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data")
38

39

40
# Procedemos a importar los datos a analizar
41

42
file_path = "D:\\Users\\Usuario\\Documents\\GitHub\\1ECO35_2022_2\\data\\data_administrativa.sav"
43
datos <- haven::read_sav(file_path , encoding = "UTF-8" )  # read dataset
44

45
#Revisamos la dimensión de los datos
46

47
head(datos)
48
names(datos) #Para el nombre de las variables de la lista 
49

50

51
# Var labels y values labels
52
# Se emplea el comando "control + shift + m " en iOS para que aparezca este símbolo %>% 
53

54
datos$ESTRATO %>% attr('labels') # value labels
55
datos$ESTRATO %>% attr('label') # var label
56

57

58
datos$DOMINIO %>% attr('labels') # value labels
59
datos$DOMINIO %>% attr('label') # var label
60

61
# Primero se procede a desarrollar value labels
62

63
print(datos$ESTRATO) #vemos el estrato
64
datos$ESTRATO %>% attr('labels') # value labels
65

66

67
# Segundo se procede a encontrar las variables labels
68
print(datos$DOMINIO)
69
datos$DOMINIO %>% attr('labels') # value labels
70

71
# Ahora se procede a detectar y eliminar duplicados
72
attach(datos) 
73

74

75
datos <- datos %>% filter(ESTRATO == 1 & DOMINIO == 1)
76

77
view(datos)
78

79
datos_filtrados <- datos %>% group_by(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) %>% 
80
  mutate(duplicates = n()) %>% filter(duplicates >1) %>%
81
  select(year ,MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR, duplicates ) 
82

83
View(datos_filtrados) # No existen duplicados
84

85

86
# Se crea dataframe para los años 2019 y 2020
87

88
# Drop duplicates rows (observaciones). Se borra las copias, No las primeras apariciones
89

90
datos_2019 <- datos %>% distinct(year = 2019 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR) # .keep_all = TRUE muestra todas las variables
91

92
datos_2020 <- datos %>% distinct(year = 2020 , MES , UBIGEO ,CONGLOME , CODPERSO, VIVIENDA, HOGAR)
93

94
# Finalmente, se guarda la nueva data creada
95

96
datos_2019
97

98
datos_2020
99

100
write_sav(datos_2019, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")
101
write_sav(datos_2020, "/Users/enriquerios/Desktop/PUCP 2022.2/R y Python/1ECO35_2022_2/data")
102

103

104
Product

Resources

Company