Path: blob/main/Trabajo_grupal/WG2/Grupo 6_Tarea 2_R.R
2714 views
' Se cargan los paquetes y luego ya los utilizaremos automaticamente'12library(dplyr) # librería de limpieza de datos3library(tidyr) # librería de limpieza de datos4library(readxl) # libreria para subir archivos excel, csv56library("readxl")78junin_data = read_excel("C:/Users/HP/Documents/GitHub/1ECO35_2022_2/data/Region_Junin.xlsx")9#-—----------------------------------------------------------------------------1011### PREGUNTA 1 ###12# Hallando información sobre cada variable1314# Mediante comando head se obtiene las categorias existentes de toda la data15head(junin_data)1617#Mediante comando str podemos obtener los detalles característicos de cada variable existente18str(junin_data)19#-—------------------------------------------------------------------------2021### PREGUNTA 2 ###22# Conociendo el tipo de variables y sus principales estadísticos2324# Utilizando el comando lapply que va a iterar la información desde una lista,25# y mostrando como resultado otra lista26lapply(junin_data, class)27str(lapply)2829# Utilizando el comando sapply porque va aiterar la informacion de forma que30# nos muestre como resultado un vector.31sapply(junin_data, class)3233# Ahora, calculamos los estadísticos de las variables34summary(junin_data, class)3536# Luego de ello, se puede evidenciar que existe para Region, Distrito,37# Lugar, edad por intervalos para mujeres y varones, residencia, mestizaje, etc38#----------------------------------------------------------------------3940### PREGUNTA 3 ###41# Verificando si las columnas tienen missing values42any(is.na(junin_data))4344# Cuando se corre el codigo el resultado es TRUE, es decir existe al menos45# un valor perdido4647# Por eso, ahora se pide al programa conocer cuántos valores perdidos hay en total48sum(is.na(junin_data))4950# Cuando se corre el codigo, el resultado es 66 valores perdidos.51#-----------------------------------------------------52### PREGUNTA 4 ###5354# Primero observamos cuáles son los nombres de la tabla de datos Junin55names (junin_data)56View(junin_data)57# Se observa que en total hay 42 categorías de nombres en la tabla5859# A continuacion nos piden renombrar 4 categorias60nuevo_junin = rename(junin_data, Comunidad = Place, homxlee = men_not_read, mujerxlee = women_not_read, totalxlee = total_not_read)61View(nuevo_junin)62# Asi finalmente se han renombrado cada una de las columnas de Place, men_not_read63# women_not_read y total_not_read --> por nombres como Comunidad, homxlee,64# mujerxlee y totalxlee6566#-----------------------------------------------------------------------------------67### PREGUNTA 5 ###6869# para poder abrir la base de datos a analizar70View(nuevo_junin)7172# filtrar columnas y filas específicas de las variables comunidad y distrito73View(nuevo_junin[c(1:144),c(3,4)])74#-------------------------------------------------------------------------------75### PREGUNTA 6 ###7677#Tendremos que dividir las personas que no leen / total, esto para hallar el porcentaje de cada una.78#De esta manera, creamos los 3 requisitos.79# DONDE:80#men_not_read -> homxlee81#women_not_read -> mujerxlee82#total_not_read -> totalxlee8384#Esto corre en MacBook85nuevo_junin <- porcentaje_mujerxlee=nuevo_junin$$mujerxlee/nuevo_junin$$totalxlee8687nuevo_junin <- porcentaje_homxlee=nuevo_junin$$homxlee/nuevo_junin$$totalxlee8889nuevo_junin <- porcentaje_nativos=nuevo_junin$$natives/(nuevo_junin$$peruvian_men+nuevo_junin$$peruvian_women+nuevo_junin$foreign_men+nuevo_junin$foreign_women)9091#Con lo efectuado, podremos visualizar el porcentaje de cada uno.9293View(nuevo_junin) # Con esto, notamos que hay elementos que superan el 100% (1.0). Identificamos un problema en la data, debido a que no deberían ser capaces de superar el total.9495#### PREGUNTA 7 ###9697dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblacion','District','comunidad')]98View(dataframe2)99100#a.Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n101junin_final = iris [Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n]102103#b.Luego quedarse con las comunidades que cuentan con nativos y mestizos.104junin_final = iris$Comunidad [nativos, mestizos]105106#c.Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.107junin_final = iris[district, Comunidad]108109#d.Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(n�mero de grupo)110write.csv2(base '../data/Base_cleaned_WG(6).csv')111112113114115