CoCalc -- Grupo_1

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_1_r.R
⁴⁶⁸² views
1
#Instalamos el paquete "pacman"
2
install.packages("pacman")
3
pacman::p_load(tidyverse, haven, dplyr, janitor , stringr)
4

5
#Colocamos el usuario para que pueda correr f�cilmente
6
user <- Sys.getenv("USERNAME")  
7
#Seteamos el directorio
8
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data")) 
9
#Colocamos la ruta 
10
file_path = "../data/data_administrativa.sav"
11

12
#Para que lea el archivo SPSS
13
df <- haven::read_sav(file_path , encoding = "UTF-8" )  
14

15
#Se muestran las variables del dataframe y abajo si tienen o no missing values
16
#Aparece True si tiene alg�n valor nulo y False si no tiene ning�n valor nulo
17
apply(df, MARGIN = 2, function(x) any(is.na(x)))
18

19
#Se muestran las etiquetas de las dos variables P203 y P204:
20

21
#Etiqueta de P203
22
paste("Etiqueta de variable P203 =", df$P203 %>% attr('label') )# var label
23
#Etiqueta de P204
24
paste("Etiqueta de variable P204 =", df$P204 %>% attr('label') )# var label
25

26
#Se muestran las etiquetas de los valores de las dos variables P203 y P204:
27

28
#Etiquetas de los valores de variable P203
29
df$P203 %>% attr('labels')
30
#Etiquetas de los valores de la variable P204
31
df$P204 %>% attr('labels')
32

33
#Hallamos los duplicados con attach
34
attach(df)
35

36
#Se crea un dataframe con los valores duplicados
37
df_filtrada <- df %>% group_by(CONGLOME ,VIVIENDA , HOGAR ,CODPERSO) %>% 
38
  mutate(duplicates = n()) %>% filter(duplicates >1) %>%
39

40
  #Se indica que se muestren las variables del Indicador por Persona y el a�o de cada registro
41
  select(year, CONGLOME ,VIVIENDA , HOGAR ,CODPERSO ,duplicates ) 
42

43
#Se ordena el nuevo dataframe para que se pueda identificar f�cilmente los registros duplicados y en que a�o se registr� cada uno
44
df_filtrada <- df_filtrada[order(df_filtrada$CONGLOME, df_filtrada$VIVIENDA, df_filtrada$year),]
45

46
#Mostramos el DataFrame
47
View(df_filtrada)
48

49

50
df_filtrada %>%  filter(year==2019)-> df_2019
51
df_filtrada %>%  filter(year==2020)-> df_2020
52

53
write.csv(df_2019, "../data/df_2019")
54
write.csv(df_2020, "../data/df_2020")
55

56

57

58

59

60

61

62

63

64

65

66

67

68
Product

Resources

Company