CoCalc -- Grupo_6

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_6_R.R
⁴⁶⁸² views
1
################  TAREA 6 ############################
2
## Curso: Laboratorio de R y Python ###########################
3
## GRUPO 6
4

5

6

7
####Usted debe trabajar una base data_administrativa que est� en la carpeta data. 
8
####Esta base de datos contiene es una encuesta realizado a miembros del hogar durante a�os a�os 2019 y 2020.
9
  
10
  # username
11
  user <- Sys.getenv("USERNAME")
12
  
13
  # set directorio
14
  setwd( paste0("C:\Users\User\Documents\GitHub\1ECO35_2022_2\data") ) 
15

16
  # Put relative path
17
  file_path = "../data/data_administrativa.sav"  
18

19
  # read dataset
20
  data_administrativa_1 <- haven::read_sav(file_path , encoding = "UTF-8" )  
21

22
####Mostrar las variables que presentan missing values
23

24
  #primero se mostraran todas las varaibles de la base de datos 
25
  names(data_administrativa_1
26
      
27
  #para ver el numero de missings values que tienen las variables      
28
  apply(data_administrativa_1, MARGIN = 2, function(x) sum(is.na(x)))   
29
  
30
  #Las varaibles con missings values son P203A, P203B, P204, P205, P206, P207, P208A, P208B y P209
31

32

33
####Se le pide mostrar las etiquetas de dos variables (var labels) y 
34
####las etiquetas de los valores en dos variables (value's labels).
35
  
36
  #Seleccionamos 2 varaibles para analizar y buscamos lo que significa cada una
37
  #para ello escogemos las variables P203 y P204
38
  data_administrativa_1$P203 %>% attr('label')
39
  data_administrativa_1$P204 %>% attr('label')
40
  
41
  #Luego, buscamos el significado de su valoracion de cada variable, es decir de P203 y P204
42
  data_administrativa_1$P203 %>% attr('labels')
43
  data_administrativa_1$P204 %>% attr('labels')
44
  #De lo anterior se puede determinar que P203 tiene hasta 11 posibles respuestas que se puede obtener
45
  #por el lado de P204 se puede observar que es una variable binaria, es decir con respuesta afirmativa y negativa
46
  
47
  
48
####Se le pide detectar personas que fueran entrevistadas en ambos a�os.
49
####Para ello, se pide detectar duplicados a partir del identificador por persona:
50
#### conglome, vivienda, hogar y codperso.
51
  
52
  #Primero, para que cada variable sea independiente establecemos el siguiente comanddo
53
  attach(data_administrativa_1)
54
  
55
  #Para detectar los duplicados de las variables CONGLOME, VIVIENDA, HOGAR, CODPERSO establecemos lo siguiente
56
  data_administrativa_1 %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>% 
57
  mutate(duplicates = n()) %>% filter(duplicates >1) %>%
58
  select(CONGLOME ,VIVIENDA ,HOGAR ,CODPERSO, duplicates )
59
  
60
  
61
####Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year). 
62
####As� podr� observar a cada individuo en ambos a�os.
63
  
64
  library(dplyr)
65
  
66
  #para ver las variables en la base de datos de manera ordenada ascendentemente en a�os
67
  data_administrativa_1 <- arrange(data_administrativa_1, year)
68
  
69
  #reducimos a las variables que se estan usando y le asignamos su respectivo a�o
70
  #corremos lo siguiente para obtener las varaibles especificas
71
  select(data_administrativa_1, year, CONGLOME, VIVIENDA, HOGAR, CODPERSO)
72
  
73
####Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres
74
#### data_2019_(numero de grupo) y data_2020_(numero de grupo).
75
  
76
  #Como ya la base de datos data_administrativa_1 esta ordenada ascendentemente en a�os
77
  #se procedera a crear otra base de datos con filas hasta del 42601, donde resulta el ultimo dato
78
  #del a�o 2019, y es a partir de la fila 42602 hasta el final en que se empieza a encontrar datos del 2020
79
  #por ello se crean 2 bases de datos nuevas para separar el 2019 y el 2020
80
  data_2019_6 <- data_administrativa_1[1:42601 , 1:6]
81
  data_2020_6 <- data_administrativa_1[42602:85035 , 1:6]
82
  
83
Product

Resources

Company