Path: blob/main/Trabajo_grupal/WG2/GRUPO 3_ TAREA 2.R
2714 views
# instalar paquete readxl para importar la base de datos1install.packages("readxl")23#cargar paquete readxl4library(readxl)56#importamos los datos7junin_data <- read_excel("C:\\Users\\claud\\Downloads\\Region_Junin.xlsx",8range = 'B1:AP198')9fil10## 1) obtener el nombre de todas las variables (son 41 variables)11names(junin_data)1213## 2) mostrar el tipo de variable y los principales estadísticos1415## los tipos16str(junin_data) ## se observa que las 3 primeras variables son del tipo 'character' (texto) mientras que las 38 restantes son del tipo 'num' (numéricas)1718## los principales estadísticos (mediana, media, # de missings) dependiendo del tipo de variable19summary(junin_data) ## para las variables "character" la información es distinta, se muestra el numero de veces que cada valor aparece en los datos2021## 3) verificar si las columnas presentan missing values22sum(is.na(junin_data)) ## tenemos el número total de missings en el dataframe (66)23apply(X=is.na(junin_data), MARGIN = 2, FUN = sum) ## así tenemos la cantidad de missings por columnas (por variable)2425## 4) cambiar el nombre de las siguientes variables:2627## place : comunidad28colnames(junin_data)[3] <- "comunidad" #cambiamos el nombre de la columna2930## men_not_read : homxlee31colnames(junin_data)[13] <- "homxlee"3233## women_not_read : mujerxlee34colnames(junin_data)[14] <- "mujerxlee"3536## total_not_read : totalxlee37colnames(junin_data)[15] <- "totalxlee"3839# 5. Mostrar valores unicos de comunidad y distrito40# Se observan los valores unicos de la variable comunidad41unique(junin_data$comunidad)4243# 6. Crear columnas4445# Pregunta 6: Crear columnas con las siguiente información46# Para esta pregunta, es relevante conocer los siguientes datos:47# men_not_read: homxlee48# women_not_read: mujerxlee49# total_not_read: totalxlee50# Entonces, en primera instancia hallamos el % de mujeres que no escriben ni leen (mujerxlee/totalxlee)51# El código a utilizar para identificar ello es:5253Region_Junin$porcentajemujeres_noescriben_noleen=Region_Junin$women_not_read/Region_Junin$total_not_read545556# En segunda instancia, hallamos el % de varones que no escriben ni leen, razón por la cual, el código a utilizar es:5758Region_Junin$porcentajehombres_noescriben_noleen=Region_Junin$men_not_read/Region_Junin$total_not_read5960# En tercera instancia, hallamos el % de nativos respecto al total de la población. Para el total de la población sumar (peruvian_men + peruvian_women + foreign_men + foreign_women). En este sentido, el código a utilizar es:6162Region_Junin$porcentajenativos_respecto_totalpoblación=Region_Junin$natives/(Region_Junin$peruvian_men+Region_Junin$peruvian_women+Region_Junin$foreign_men+Region_Junin$foreign_women)636465# 7. Crear base de datos66## Quedarse con los valores de los ditritos: CIUDAD DEL CERRO, JAUJA, ACOLLA, SAN GERÓNIMO, TARMA, OROYA, CONCEPCIÓN6768install.packages("tidyverse")69library(tidyverse)7071## Quedarse con las variables Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción72junin_data2 <- junin_data %>% filter( District != "JAUJA", "CIUDAD DEL CERRO", "ACOLLA", "SAN GERÓNIMO", "TARMA", "OROYA", "CONCEPCIÓN")7374# Quedarse con los que cuentan con nativos y mestizos7576junin_data3 <- junin_data2 %>% filter( natives > 0 )7778junin_data4 <- junin_data3 %>% filter( mestizos > 0)7980# Generar base en formato excel8182write.table(junin_data4, file = "Base_cleaned_WG3.csv" , sep = ";", row.names = F)8384# Se descarga y adjunta base858687