Path: blob/main/Trabajo_grupal/WG2/Grupo_8_R.R
2714 views
rm(list=ls())12#Instalamos los paquetes para realizar las actividades3#install.packages("reshape")4# install.packages("dplyr")5# install.packages("readxl")6# install.packages("tidyr")78#Cargamos nuestras librerías9library(reshape)10library(dplyr)11library(tidyr)12library(readxl)1314getwd()15user <- Sys.getenv("USERNAME") # username16print(user)1718#Primero corremos el directorio e importamos la base de datos19setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data"))20junin_data<- read_excel("Region_Junin.xlsx")2122#1.-Obtenemos los nombres de mis variables23names(junin_data)2425#2.1.-Detallamos nuestros tipos de variables26lapply(junin_data, class) #la mayoría de variables son "numeric", excepto region,district y Place2728#2.2.-Mostramos los principales datos estadisticos: mediana, media, minimo, max, primer quintil,tercer quintil29summary(junin_data)3031#3.-Verificamos que variables presentan missing values3233#Al correr cada codigo, si resulta TRUE, significa que la variable entre corchetes presenta missing values.34#Si resulta FALSE, la variable no presenta missing values.35any(is.na(junin_data["Region"])) #No presenta missing values36any(is.na(junin_data["District"])) #No presenta Missings37any(is.na(junin_data["Place"])) #sí presenta missings38any(is.na(junin_data["4_6_years_men"])) #NO39any(is.na(junin_data["4_6_years_women"])) #NO40any(is.na(junin_data["4_6_years_total"])) #NO41any(is.na(junin_data["6_14_years_men"])) #SÍ42any(is.na(junin_data["6_14_years_women"])) #NO43any(is.na(junin_data["6_14_years_total"])) #NO44any(is.na(junin_data["man_read"])) #NO45any(is.na(junin_data["women_read"])) #SI46any(is.na(junin_data["total_read"])) #NO47any(is.na(junin_data["men_not_read"])) #NO48any(is.na(junin_data["women_not_read"])) #NO49any(is.na(junin_data["total_not_read"])) #SI50any(is.na(junin_data["man_write"]))51any(is.na(junin_data["women_write"]))52any(is.na(junin_data["total_write"]))53any(is.na(junin_data["men_not_write"]))54any(is.na(junin_data["women_not_write"])) #NO55any(is.na(junin_data["total_not_write"]))56any(is.na(junin_data["instruction_men"])) #NO57any(is.na(junin_data["instruction_women"]))58any(is.na(junin_data["instruction_total"]))59any(is.na(junin_data["no_instruction_men"]))60any(is.na(junin_data["no_instruction_women"]))61any(is.na(junin_data["no_instruction_total"]))62any(is.na(junin_data["finished_instr_men"]))63any(is.na(junin_data["finished_instr_women"]))64any(is.na(junin_data["finished_instr_total"]))65any(is.na(junin_data["not_finished_instr_men"]))66any(is.na(junin_data["not_finished_instr_women"]))67any(is.na(junin_data["not_finished_instr_total"]))68any(is.na(junin_data["peruvian_men"]))69any(is.na(junin_data["peruvian_women"]))70any(is.na(junin_data["foreign_men"]))71any(is.na(junin_data["foreign_women"]))72any(is.na(junin_data["whites"]))73any(is.na(junin_data["natives"]))74any(is.na(junin_data["mestizos"]))75any(is.na(junin_data["blacks"]))7677#4.-Cambiamos nombres a las siguientes variables:78#comunidad en lugar de place, homxlee en lugar de men_not_read,79#mujerxlee en lugar de woman_not_read y totalxlee en lugar de total_not_read8081junin_data= rename(junin_data, c(Place="Comunidad"))82junin_data= rename(junin_data, c(men_not_read="Homxlee"))83junin_data= rename(junin_data, c(women_not_read="Mujerxlee"))84junin_data= rename(junin_data, c(total_not_read="Totalxlee"))8586#5.-Muestre los valores únicos de las siguientes variables ( comunidad , District)8788unique(junin_data$Comunidad)8990unique(junin_data$District)9192#6.-Crear columnas con las siguiente información:93#el % de mujeres del que no escriben ni leen (mujerxlee/totalxlee)9495#para hallar el % de las mujeres que no leen multiplicamos por 100 a la división (mujerxlee/totalxlee)96junin_data['%mujeresnoleen'] = 100 * junin_data['Mujerxlee'] / junin_data['Totalxlee']97#para hallar el % de las mujeres que no escriben multiplicamos por 100 a la división (mujerxlee/totalxlee)98junin_data['%mujeresnoescriben'] = 100 * junin_data['women_not_write'] / junin_data['total_not_write']99100#% de varones que no escriben ni leen (homxlee/totalxlee)101#se realiza el mismo procedimiento que para mujeres102junin_data['%hombresnoleen'] = 100 * junin_data['Homxlee'] / junin_data['Totalxlee']103junin_data['%hombresnoescriben'] = 100 * junin_data['men_not_write'] / junin_data['total_not_write']104105#% de nativos respecto al total de la población.106107#primero creamos una variable "población total" que suma mujeres y hombres peruanos y extranjeros108junin_data['poblacióntotal']= junin_data['peruvian_women'] + junin_data['peruvian_men'] + junin_data['foreign_women'] + junin_data['foreign_men']109#hallamos el % de nativos respecto al total de la población110junin_data['%nativos'] = 100 * junin_data['natives'] / junin_data['poblacióntotal']111112#7.-Crear una base de datos con la siguiente información:113114#a. Quedarse con la información de los distritos de Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción115116clean <- junin_data[junin_data$District %in% c("CIUDAD DEL CERRO","JAUJA","ACOLLA","SAN GERÓNIMO","TARMA","OROYA", "CONCEPCIÓN"),]117118# b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.119120clean1 <- clean[ ! clean$natives %in% c("0"),] #nos quedamos con solo nativos.Primero eliminamos todas las filas que tengan 0 en nativos. No asumimos que los NA son igual a 0.121clean2 <- clean1[ ! clean1$mestizos %in% c("0"),] #nos quedamos con solo mestizos. Primeros eliminamos todas las filas que tengan 0 en mestizos. No asumimos que los NA son igual a 0.122123# c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.124Base_cleaned <- clean2[,c('District','Comunidad','%mujeresnoleen','%mujeresnoescriben','%hombresnoleen', '%hombresnoescriben', 'poblacióntotal','%nativos')] #seleccionar columnas solicitadas125View(Base_cleaned)126127# d. Guardar la base de datos en formato csv en la carpeta data.128129write.csv(Base_cleaned, '../data/Base_cleaned_WG(grupo8).csv')130131132