Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG5/Grupo_6_R.R
2714 views
1
################ TAREA 6 ############################
2
## Curso: Laboratorio de R y Python ###########################
3
## GRUPO 6
4
5
6
7
####Usted debe trabajar una base data_administrativa que est� en la carpeta data.
8
####Esta base de datos contiene es una encuesta realizado a miembros del hogar durante a�os a�os 2019 y 2020.
9
10
# username
11
user <- Sys.getenv("USERNAME")
12
13
# set directorio
14
setwd( paste0("C:\Users\User\Documents\GitHub\1ECO35_2022_2\data") )
15
16
# Put relative path
17
file_path = "../data/data_administrativa.sav"
18
19
# read dataset
20
data_administrativa_1 <- haven::read_sav(file_path , encoding = "UTF-8" )
21
22
####Mostrar las variables que presentan missing values
23
24
#primero se mostraran todas las varaibles de la base de datos
25
names(data_administrativa_1
26
27
#para ver el numero de missings values que tienen las variables
28
apply(data_administrativa_1, MARGIN = 2, function(x) sum(is.na(x)))
29
30
#Las varaibles con missings values son P203A, P203B, P204, P205, P206, P207, P208A, P208B y P209
31
32
33
####Se le pide mostrar las etiquetas de dos variables (var labels) y
34
####las etiquetas de los valores en dos variables (value's labels).
35
36
#Seleccionamos 2 varaibles para analizar y buscamos lo que significa cada una
37
#para ello escogemos las variables P203 y P204
38
data_administrativa_1$P203 %>% attr('label')
39
data_administrativa_1$P204 %>% attr('label')
40
41
#Luego, buscamos el significado de su valoracion de cada variable, es decir de P203 y P204
42
data_administrativa_1$P203 %>% attr('labels')
43
data_administrativa_1$P204 %>% attr('labels')
44
#De lo anterior se puede determinar que P203 tiene hasta 11 posibles respuestas que se puede obtener
45
#por el lado de P204 se puede observar que es una variable binaria, es decir con respuesta afirmativa y negativa
46
47
48
####Se le pide detectar personas que fueran entrevistadas en ambos a�os.
49
####Para ello, se pide detectar duplicados a partir del identificador por persona:
50
#### conglome, vivienda, hogar y codperso.
51
52
#Primero, para que cada variable sea independiente establecemos el siguiente comanddo
53
attach(data_administrativa_1)
54
55
#Para detectar los duplicados de las variables CONGLOME, VIVIENDA, HOGAR, CODPERSO establecemos lo siguiente
56
data_administrativa_1 %>% group_by(CONGLOME, VIVIENDA, HOGAR, CODPERSO) %>%
57
mutate(duplicates = n()) %>% filter(duplicates >1) %>%
58
select(CONGLOME ,VIVIENDA ,HOGAR ,CODPERSO, duplicates )
59
60
61
####Ordene la base de datos a partir de las variables que identifican cada miembro y la variable de a�o (year).
62
####As� podr� observar a cada individuo en ambos a�os.
63
64
library(dplyr)
65
66
#para ver las variables en la base de datos de manera ordenada ascendentemente en a�os
67
data_administrativa_1 <- arrange(data_administrativa_1, year)
68
69
#reducimos a las variables que se estan usando y le asignamos su respectivo a�o
70
#corremos lo siguiente para obtener las varaibles especificas
71
select(data_administrativa_1, year, CONGLOME, VIVIENDA, HOGAR, CODPERSO)
72
73
####Finalmente crear una base de datos para cada a�o y guardar en la carpeta data con los siguientes nombres
74
#### data_2019_(numero de grupo) y data_2020_(numero de grupo).
75
76
#Como ya la base de datos data_administrativa_1 esta ordenada ascendentemente en a�os
77
#se procedera a crear otra base de datos con filas hasta del 42601, donde resulta el ultimo dato
78
#del a�o 2019, y es a partir de la fila 42602 hasta el final en que se empieza a encontrar datos del 2020
79
#por ello se crean 2 bases de datos nuevas para separar el 2019 y el 2020
80
data_2019_6 <- data_administrativa_1[1:42601 , 1:6]
81
data_2020_6 <- data_administrativa_1[42602:85035 , 1:6]
82
83