Path: blob/main/Trabajo_grupal/WG2/Grupo_9_r.R
2714 views
################ Trabajo 2 ############################1## Curso: Laboratorio de R y Python ###########################2## @author: Grupo 9345#-------------------------------------------------------------------------------6#*. Descargar librerias7library(dplyr) # librería de limpieza de datos8library(tidyr) # librería de limpieza de datos9library(readxl) # librería para subir archivos excel, csv1011#*. Cargar ruta12user <- Sys.getenv("USERNAME") # username13print(user)1415setwd(paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2")) # set directorio1617junin_data <- read_excel("data/Region_Junin.xlsx")18na.strings=c("",NA) # reemplaza vacios por missing1920View(junin_data)2122#-------------------------------------------------------------------------------23# 1. Información de cada variable - # Obtener el nombre de todas las variables2425str(junin_data) #nombre de variables op.126names (junin_data) #nombre de variables op.227head(junin_data) #nombre de variables op.3282930#-------------------------------------------------------------------------------31# 2. Mostrar el tipo de variables (type) así como presentar los principales estadísticos32class(junin_data) #tipo de archivo3334lapply(junin_data, class) #tipos de variable en lista op.135sapply(junin_data, class) #tipos de variable en vector op.23637summary(junin_data) # estadisticas descriptivas de cada variable3839#-------------------------------------------------------------------------------40# 3. Verifique si las columnas presentan missing values4142apply(X=is.na(junin_data),MARGIN = 2,FUN=sum)43#estos resultados se leen así, la variable 'Region' tiene 0 missings, la variable44# 'Place' tiene 11 missings (así para todas las variables).4546#-------------------------------------------------------------------------------47# 4.Renombrar las siguientes variables (se crea nueva data para ello):4849#place : comunidad50#men_not_read: homxlee51#women_not_read: mujerxlee52#total_not_read: totalxlee5354Junin2 <- junin_data %>% rename( comunidad = Place, homxlee = men_not_read,mujerxlee=women_not_read,totalxlee=total_not_read)5556#-------------------------------------------------------------------------------57#5.Muestre los valores únicos de las siguientes variables (comunidad , District)5859#*Para variable "comunidad"60unique(Junin2$comunidad)61length(unique(Junin2$comunidad)) #183 valores únicos de comunidad6263#Comprobación: 197 obs -14 obs duplicadas= 183 obs únicas64sum(duplicated(Junin2$comunidad) ) #14 valores duplicados6566#*Para variable "District"67unique(Junin2$District)68length(unique(Junin2$District)) #35 valores únicos de District6970#Comprobación: 197 obs -162 obs duplicadas= 35 obs únicas71sum(duplicated(Junin2$District) ) #162 valores duplicados727374#-------------------------------------------------------------------------------75# 6. Crear columnas con las siguiente información:76# a. % de mujeres que no escriben ni leen77# b. % de varones que no escriben ni leen78# c. % de nativos respecto al total de la población7980#a.81Junin2['porct_mujer']=Junin2$mujerxlee/(Junin2$totalxlee)82#b.83Junin2['porct_hombre']=Junin2$homxlee/(Junin2$totalxlee)8485#c.86Junin2['total']=(Junin2$peruvian_men+Junin2$peruvian_women+Junin2$foreign_men+Junin2$foreign_women) # primero se crea variable de poblacion total87Junin2['porct_natives']=Junin2$natives/(Junin2$total)888990#-------------------------------------------------------------------------------91# 7. Crear una base de datos con la siguiente información9293#a. Quedarse con la información de los distritos9495Junin2 <- Junin2[junin_data$District %in% c("CIUDAD DEL CERRO","JAUJA","ACOLLA","SAN GERÓNIMO","TARMA","OROYA","CONCEPCIÓN"),]96dim(Junin2) #57=filas, 43=columnas97View(Junin2)9899#b. Quedarse con las comunidades que cuentan con nativos y mestizos.100101Junin2 <- Junin2 %>% filter( (natives > 0) & (mestizos > 0 ))102View(Junin2)103104105#c. Solo quedarse con las variables trabajadas en el punto 8)106Junin2 <- Junin2[,c('porct_mujer','porct_hombre','porct_natives','District','comunidad')]107View(Junin2)108109#d. Guardar la base de datos en formato csv y excel en la carpeta data110111write.csv(Junin2, 'data/Base_cleaned_WG9.csv') #guardado en csv112113install.packages("writexl") # instalar paquete de ser necesario114library(writexl)115116write_xlsx(Junin2, 'data/Base_cleaned_WG9.xlsx') #guardado en xlsx117118