CoCalc -- Tarea2_Grupo5

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Tarea2_Grupo5_r.R
⁴⁶⁸² views
1
#install.packages("dplyr") # filter data
2
#install.packages("readxl") # excel, csv
3
#install.packages("tidyr")
4
'Solo es necesario cargar una vez los paquetes, luego simplemente debemos llamarlo:'
5

6
library(dplyr) # librería de limpieza de datos
7
library(tidyr)# librería de limpieza de datos
8
library(readxl) # libreria para subir archivos excel, csv
9
getwd()
10
user <- Sys.getenv("USERNAME")  # username
11

12

13
print(user)
14
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/lab3") ) # set directorio
15

16
junin_data <- read_excel("../data/Region_Junin.xlsx")
17

18
View(junin_data)
19

20
#Pregunta 1
21
ls(junin_data) #para obtener el nombre de las variables
22
#Pregunta 2
23
str(junin_data) #para obtener información de cada variable
24
lapply(junin_data, class) #para obtener el tipo de variable que pertenece
25
summary(junin_data) #para obtener las principales estadísticas
26

27
#Pregunta 3
28
any(is.null(junin_data)) #verificar si existe algún missing null
29
any(is.na(junin_data)) #verificar si existe algún missing na
30
sum(is.na(junin_data)) #contar las cantidades de missing
31

32
#Pregunta 4: Aquí teníamos la opción de cambiar los nombres en la base original,
33
#pero decidimos hacerlo en un data frame para observar los cambios
34
data_frame <- junin_data %>% rename(comunidad = Place, 
35
                                    homxlee = men_not_read, 
36
                                    mujerxlee = women_not_read,
37
                                    totalxlee = total_not_read)
38
#Pregunta 5: Creamos dataframe1 para mostrar las columnas comunidad y District 
39
dataframe1 <- data_frame[,c('comunidad','District')] # seleccionar columnas
40
View(dataframe1)#Mostramos los valores del data frame
41

42
attach(dataframe1) #También podemos observar los valores únicos con attach y la base original
43
unique(District)#Valores unicos para District
44
unique(comunidad)#Valores unicos para comunidad
45

46
#Pregunta 6: Creamos 3 columnas en el data_frame para % de mujeres que no escriben ni leen, % de hombres que no escriben ni leen y % de nativos respecto al total de la población
47
data_frame['mujeres que no escriben ni leen'] = data_frame['mujerxlee'] / data_frame['totalxlee'] 
48
data_frame['varones que no escriben ni leen'] = data_frame['homxlee'] / data_frame['totalxlee'] 
49
data_frame['Nativos con respecto al total de la población'] = data_frame['natives']/(data_frame['peruvian_men'] + data_frame['peruvian_women'] + data_frame['foreign_men'] + data_frame['foreign_women'])
50
View(data_frame) #Ahora, al final del data_frame, deberiamos tener las nuevas variables en 3 columnas
51

52
#Pregunta 7:
53
#Finalmente, utilizamos filter para filtrar solo ciertos contenidos que deseamos en nuestros datos 
54
db_final = data_frame %>% filter(District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "CONCEPCIÓN", "SAN GERÓNIMO", "TARMA", "OROYA"))
55
#Utilizamos el != "0" para obtener solo a comunidades con mestizos y natives
56
db_final1 = db_final %>% filter(mestizos != "0" & natives != "0")
57

58
db_final2 <- db_final1[, c("mujeres que no escriben ni leen","varones que no escriben ni leen","Nativos con respecto al total de la población","District","comunidad")] #Finalmente la nueva base de datos 
59
# Para exportar nuestra dataset a excel
60
write.csv2(db_final2, '../data/Base_cleaned_WG(5).csv')
61

62
#dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblaci?n','District','comunidad')]
63
#View(dataframe2)
64
Product

Resources

Company