########################################### GRUPO 1 ############################################12##################################### Miembros del grupo ######################################34# 20163197, Enrique Alfonso Pazos5# 20191894, Ilenia Ttito6# 20151595, Rodrigo Ramos7# 20193469, Luis Egusquiza8# 20163377, Jean Ni�o de Guzm�n910##Se cargan las librer�as necesarias para limpieza de datos y leer archivos de Excel.11library(tidyr)12library(dplyr)13library(readxl)14library(reshape)1516##se extrae el usuario para posteriormente pegarlo en el nuevo directorio de la base de datos y pueda correr a cualquier persona con acceso al repositorio del curso.17user <- Sys.getenv("USERNAME")1819##Se setea un directorio para que se cargue la base de datos desde el repositorio del curso y se utilice el usuario de la PC en donde se corra el c�digo.20setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data") )2122##Se indica que se extraiga la base de datos "Region_Junin"23junin_data <- read_excel("../data/Region_Junin.xlsx")2425##Se juntan las columnas del dataframe para poder trabajar con cada una independientemente.26attach(junin_data)2728### PREGUNTA 1:2930#Mostrar los nombres de las 42 variables del Dataframe31names(junin_data)3233### PREGUNTA 2:3435#Con este comando se pueden mostrar las variables del dataframe con su respectivo tipo de dato.36lapply(junin_data, class)37str(lapply)3839#Y con este comando se muestra el resumen estad�stico de los datos de cada variable40summary(junin_data)4142### PREGUNTA 34344#Va colocar TRUE en los missing values45is.na(junin_data)4647#N�mero de missing values de la base de datos48sum(is.na(junin_data))4950#N�mero de casos completos51sum(complete.cases(junin_data))5253#Crear una nueva base de datos que omita los missing values54data<- na.omit(junin_data)5556#Corroboramos que ya no hay missing values57sum(is.na(data))5859### PREGUNTA 46061#Para conocer los nombres de las columnas de la tabla62names(data)6364#Como son muchas columnas, utilizamos reshape para no contar la posici�n de la columna que deseamos cambiar65require(reshape)6667#Renombramos los nombres de las variables solicitadas68data <- rename(data, c(Place="comunidad", men_not_read="homxlee", women_not_read="mujerxlee", total_not_read="totalxlee"))6970#Corroboramos que los nombres hayan sido modificados71names(data)7273### PREGUNTA 57475#Mostramos los identificadores de todas las observaciones76unique(...1)7778#Se muestra los valores �nicos de las 2 variables solicitadas7980# Valores �nicos de la var. 'comunidad'81# Referenciamos a la �ltima base de datos modificada: 'data'8283unique(data$comunidad)8485# Valores �nicos de la var. 'District'86# Referenciamos a la �ltima base de datos modificada: 'data'8788unique(data$District)8990### PREGUNTA 69192#Crear porcentajes solicitados, usando las variables del dataframe93porct_mujxlee<-(data$mujerxlee)/(data$totalxlee)94porct_hmxlee<-(data$homxlee)/(data$totalxlee)95total_pob<-(data$peruvian_men)+(data$peruvian_women)+(data$foreign_men)+(data$foreign_women)96porct_nativos<-(data$natives)/total_pob9798# A�adimos las nuevas variabes a la base de datos99data<-cbind(data,porct_mujxlee, porct_hmxlee,porct_nativos)100data101102### PREGUNTA 7103104#Filtro solamente de acuerdo a esos valores105106# a:107pregunta_7_a <- data[data$District %in% c("CIUDAD DEL CERRO","JAUJA",108"ACOLLA", "SAN GERÓunique(dataNIMO", "TARMA",109"OROYA", "CONCEPCIÓN"),]110111#b, Solo quedarme con aquellas observaciones, cuyas variables mestizo y nativos toma un valor estrictamente mayor a 0.112113pregunta_7_b <- pregunta_7_a %>% filter( (natives > 0) & ( mestizos > 0) )114115#c, SOlo quedarme con las columnas distrito y comunidad116117pregunta_7_c <- pregunta_7_b[,c('District','comunidad')]118119#d, Guardar la base de datos:120121library("writexl")122write_xlsx(pregunta_7_c, '../data/Base_cleaned_WG1.xlsx')123124125126127