Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Tarea2_Grupo5_r.R
2714 views
1
#install.packages("dplyr") # filter data
2
#install.packages("readxl") # excel, csv
3
#install.packages("tidyr")
4
'Solo es necesario cargar una vez los paquetes, luego simplemente debemos llamarlo:'
5
6
library(dplyr) # librería de limpieza de datos
7
library(tidyr)# librería de limpieza de datos
8
library(readxl) # libreria para subir archivos excel, csv
9
getwd()
10
user <- Sys.getenv("USERNAME") # username
11
12
13
print(user)
14
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/lab3") ) # set directorio
15
16
junin_data <- read_excel("../data/Region_Junin.xlsx")
17
18
View(junin_data)
19
20
#Pregunta 1
21
ls(junin_data) #para obtener el nombre de las variables
22
#Pregunta 2
23
str(junin_data) #para obtener información de cada variable
24
lapply(junin_data, class) #para obtener el tipo de variable que pertenece
25
summary(junin_data) #para obtener las principales estadísticas
26
27
#Pregunta 3
28
any(is.null(junin_data)) #verificar si existe algún missing null
29
any(is.na(junin_data)) #verificar si existe algún missing na
30
sum(is.na(junin_data)) #contar las cantidades de missing
31
32
#Pregunta 4: Aquí teníamos la opción de cambiar los nombres en la base original,
33
#pero decidimos hacerlo en un data frame para observar los cambios
34
data_frame <- junin_data %>% rename(comunidad = Place,
35
homxlee = men_not_read,
36
mujerxlee = women_not_read,
37
totalxlee = total_not_read)
38
#Pregunta 5: Creamos dataframe1 para mostrar las columnas comunidad y District
39
dataframe1 <- data_frame[,c('comunidad','District')] # seleccionar columnas
40
View(dataframe1)#Mostramos los valores del data frame
41
42
attach(dataframe1) #También podemos observar los valores únicos con attach y la base original
43
unique(District)#Valores unicos para District
44
unique(comunidad)#Valores unicos para comunidad
45
46
#Pregunta 6: Creamos 3 columnas en el data_frame para % de mujeres que no escriben ni leen, % de hombres que no escriben ni leen y % de nativos respecto al total de la población
47
data_frame['mujeres que no escriben ni leen'] = data_frame['mujerxlee'] / data_frame['totalxlee']
48
data_frame['varones que no escriben ni leen'] = data_frame['homxlee'] / data_frame['totalxlee']
49
data_frame['Nativos con respecto al total de la población'] = data_frame['natives']/(data_frame['peruvian_men'] + data_frame['peruvian_women'] + data_frame['foreign_men'] + data_frame['foreign_women'])
50
View(data_frame) #Ahora, al final del data_frame, deberiamos tener las nuevas variables en 3 columnas
51
52
#Pregunta 7:
53
#Finalmente, utilizamos filter para filtrar solo ciertos contenidos que deseamos en nuestros datos
54
db_final = data_frame %>% filter(District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "CONCEPCIÓN", "SAN GERÓNIMO", "TARMA", "OROYA"))
55
#Utilizamos el != "0" para obtener solo a comunidades con mestizos y natives
56
db_final1 = db_final %>% filter(mestizos != "0" & natives != "0")
57
58
db_final2 <- db_final1[, c("mujeres que no escriben ni leen","varones que no escriben ni leen","Nativos con respecto al total de la población","District","comunidad")] #Finalmente la nueva base de datos
59
# Para exportar nuestra dataset a excel
60
write.csv2(db_final2, '../data/Base_cleaned_WG(5).csv')
61
62
#dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblaci?n','District','comunidad')]
63
#View(dataframe2)
64