Path: blob/main/Trabajo_grupal/WG2/Tarea2_Grupo5_r.R
2714 views
#install.packages("dplyr") # filter data1#install.packages("readxl") # excel, csv2#install.packages("tidyr")3'Solo es necesario cargar una vez los paquetes, luego simplemente debemos llamarlo:'45library(dplyr) # librería de limpieza de datos6library(tidyr)# librería de limpieza de datos7library(readxl) # libreria para subir archivos excel, csv8getwd()9user <- Sys.getenv("USERNAME") # username101112print(user)13setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/lab3") ) # set directorio1415junin_data <- read_excel("../data/Region_Junin.xlsx")1617View(junin_data)1819#Pregunta 120ls(junin_data) #para obtener el nombre de las variables21#Pregunta 222str(junin_data) #para obtener información de cada variable23lapply(junin_data, class) #para obtener el tipo de variable que pertenece24summary(junin_data) #para obtener las principales estadísticas2526#Pregunta 327any(is.null(junin_data)) #verificar si existe algún missing null28any(is.na(junin_data)) #verificar si existe algún missing na29sum(is.na(junin_data)) #contar las cantidades de missing3031#Pregunta 4: Aquí teníamos la opción de cambiar los nombres en la base original,32#pero decidimos hacerlo en un data frame para observar los cambios33data_frame <- junin_data %>% rename(comunidad = Place,34homxlee = men_not_read,35mujerxlee = women_not_read,36totalxlee = total_not_read)37#Pregunta 5: Creamos dataframe1 para mostrar las columnas comunidad y District38dataframe1 <- data_frame[,c('comunidad','District')] # seleccionar columnas39View(dataframe1)#Mostramos los valores del data frame4041attach(dataframe1) #También podemos observar los valores únicos con attach y la base original42unique(District)#Valores unicos para District43unique(comunidad)#Valores unicos para comunidad4445#Pregunta 6: Creamos 3 columnas en el data_frame para % de mujeres que no escriben ni leen, % de hombres que no escriben ni leen y % de nativos respecto al total de la población46data_frame['mujeres que no escriben ni leen'] = data_frame['mujerxlee'] / data_frame['totalxlee']47data_frame['varones que no escriben ni leen'] = data_frame['homxlee'] / data_frame['totalxlee']48data_frame['Nativos con respecto al total de la población'] = data_frame['natives']/(data_frame['peruvian_men'] + data_frame['peruvian_women'] + data_frame['foreign_men'] + data_frame['foreign_women'])49View(data_frame) #Ahora, al final del data_frame, deberiamos tener las nuevas variables en 3 columnas5051#Pregunta 7:52#Finalmente, utilizamos filter para filtrar solo ciertos contenidos que deseamos en nuestros datos53db_final = data_frame %>% filter(District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "CONCEPCIÓN", "SAN GERÓNIMO", "TARMA", "OROYA"))54#Utilizamos el != "0" para obtener solo a comunidades con mestizos y natives55db_final1 = db_final %>% filter(mestizos != "0" & natives != "0")5657db_final2 <- db_final1[, c("mujeres que no escriben ni leen","varones que no escriben ni leen","Nativos con respecto al total de la población","District","comunidad")] #Finalmente la nueva base de datos58# Para exportar nuestra dataset a excel59write.csv2(db_final2, '../data/Base_cleaned_WG(5).csv')6061#dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblaci?n','District','comunidad')]62#View(dataframe2)6364