Path: blob/main/Trabajo_grupal/WG2/Grupo_4 _r.R
2714 views
12################################################################################3# #4# TAREA 2 - GRUPO 4 #5# #6################################################################################78# Seidy Ascencios - 201916229# Luana Morales - 2019124010# Flavia Or� - 2019121511# Marcela Quintero - 20191445121314#------------------------------------------------------------------------------#15# #16# PREGUNTA 1 #17# #18#------------------------------------------------------------------------------#1920#En primer lugar, llamaremos a las librer�as necesarias para empezar a tratar la base de datos2122library(dplyr)23library(tidyr)24library(readxl)252627#Elegimos el directorio2829getwd()30user <- Sys.getenv("USERNAME")3132print(user)3334setwd( paste0("C:/Users/", user, "/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG2") )3536junin_data <- read_excel("../../data/Region_Junin.xlsx")37383940#Obtenemos el nombre de las variables utilizando el comando str:4142attach(junin_data)43str(junin_data)444546#------------------------------------------------------------------------------#47# #48# PREGUNTA 2 #49# #50#------------------------------------------------------------------------------#515253#Obtenemos las variables y de qu� tipo son utilizando lapply:5455lapply(junin_data, class)565758#Luego, para obtener los principales estad�sticos descriptivos de las variables, usamos el comando summary:596061summary(junin_data)62636465#------------------------------------------------------------------------------#66# #67# PREGUNTA 3 #68# #69#------------------------------------------------------------------------------#707172#Reemplazamos los missing values por "na":7374na.strings=c("",NA)7576#Verificamos la existencia de missing values:7778any( is.na(junin_data) ) #El resultado es "TRUE", por lo que s� hay missing values798081#Contamos el número de missing values:8283sum(is.na(junin_data)) #Vemos que existen 66 missing values en nuestra base de datos848586#Obtenemos el nombre de las columnas con al menos 1 missing value:8788is.na(junin_data)8990colSums(is.na(junin_data))9192which(colSums(is.na(junin_data))>0)9394names(which(colSums(is.na(junin_data))>0))9596#------------------------------------------------------------------------------#97# #98# PREGUNTA 4 #99# #100#------------------------------------------------------------------------------#101102#Ver los nombres de las columnas103names (junin_data )104105106#Instalar paquete "reshape" para activar rename107108install.packages("reshape")109110111#Cambio de la variable place : comunidad112113attach(junin_data)114115print(Place)116117junin_data= rename(junin_data, c (Comunidad= "Place"))118119table (junin_data$Comunidad)120121122#Cambio de la variable men_not_read: homxlee123124attach(junin_data)125126print(men_not_read)127128junin_data= rename(junin_data, c (homxlee= "men_not_read"))129130table (junin_data$homxlee)131132133#Cambio de la variable women_not_read: mujerxlee134135attach(junin_data)136137print(women_not_read)138139junin_data = rename(junin_data, c (mujerxlee= "women_not_read"))140141table (junin_data$mujerxlee)142143144#Cambio de la variable total_not_read: totalxlee145146attach(junin_data)147148print(total_not_read)149150junin_data = rename(junin_data, c (totalxlee= "total_not_read"))151152table (junin_data$totalxlee)153154155156#------------------------------------------------------------------------------#157# #158# PREGUNTA 5 #159# #160#------------------------------------------------------------------------------#161162#Detecci�n de valores duplicados en la columna comunidad y distrito163164any(duplicated(Comunidad))165any(duplicated(District))166#En ambos casos, notamos que es cierto que existen valores duplicados.167168169#Podemos saber que la cantidad de missing values para Comunidad y Distrito:170sum(is.na(Comunidad))171sum(is.na(District))172173# Valores �nicos de Comunidad:174unique(Comunidad)175176# Valores �nicos de District:177unique(District)178179180181#------------------------------------------------------------------------------#182# #183# PREGUNTA 6 #184# #185#------------------------------------------------------------------------------#186187#Creamos la nuevas variables188189junin_data['pmujxlee'] = junin_data['mujerxlee'] / junin_data['totalxlee'] * 100190191junin_data['phomxlee'] = junin_data['homxlee'] / junin_data['totalxlee'] * 100192193junin_data['total_pobla'] = junin_data['peruvian_men'] + junin_data['peruvian_women'] + junin_data['foreign_men'] + junin_data['foreign_women']194195junin_data['pnativos'] = junin_data['natives'] / junin_data['total_pobla'] * 100196197198junin_data2 <- junin_data[,c('pmujxlee','phomxlee','total_pobla','pnativos')]199200201#Columna del porcentaje de mujeres que no escriben ni leen202203attach(junin_data2)204205View( junin_data2[1:197,c('pmujxlee')] )206207208#Columna del porcentaje de varones que no escriben ni leen209210attach(junin_data2)211212View( junin_data2[1:197,c('phomxlee')] )213214#Columna del porcentaje de nativos respectos al total de la población215216attach(junin_data2)217218View( junin_data2[,c('nativos')] )219220221#------------------------------------------------------------------------------#222# #223# PREGUNTA 7 #224# #225#------------------------------------------------------------------------------#226227#Subsetting columns228229# Nos quedamos con los datos de los distritos de Ciudad del Cerro, Jauja, Acolla230#San Gerónimo, Tarma, Oroya y Concepci�n231232junin_data3 <- junin_data[which(junin_data$District == 'CIUDAD DEL CERRO' | junin_data$District == 'JAUJA' | junin_data$District == 'ACOLLA' | junin_data$District == 'SAN GERÓNIMO' | junin_data$District == 'TARMA' | junin_data$District == 'OROYA' | junin_data$District == 'CONCEPCIÓN'), ]233View(junin_data3)234235#comunidades que cuentan con nativos y mestizos236237junin_data4 <- junin_data3[which(junin_data3$natives > 0 & junin_data3$mestizos > 0), ]238View(junin_data4)239240#crear una nueva base de datos241242junin_data5 <- junin_data4[,c('District','Comunidad')]243View(junin_data5)244245#Guardamos la base de datos en formato csv en la carpeta data246247write.csv(base, '../data/Base_cleaned_4.xlsx')248249250251