Path: blob/main/Trabajo_grupal/WG2/Grupo_10_r.R
2714 views
#Base de datos12library("readxl")3Region_Junin <- read_excel("../data/Region_Junin.xlsx", col_names = T)45#Pregunta 1: Obtener el nombre de todas las variables67attach(Region_Junin)8str(Region_Junin)9names(Region_Junin)1011#Pregunta 2: Mostrar el tipo de variables (type) así como presentar los principales estadísticos.1213lapply(Region_Junin, class) #list14sapply(Region_Junin, class) #vector, Datrame15summary(Region_Junin) # estadisticas desciptivas de las variables1617#Pregunta 3: Verifique si las columnas presentan valores faltantes1819any(is.na(Region_Junin)) # al menos una observación es Missing20sum(is.na(Region_Junin)) #hay 66 missing2122#Pregunta 4: Cambie el nombre de las siguientes variables2324install.packages("tidyverse")25library(tidyverse)2627Region_Junin <- Region_Junin %>%28select(Place, men_not_read, women_not_read, total_not_read) %>%29rename(comunidad = Place, homxlee = men_not_read, mujerxlee = women_not_read, totalxlee = total_not_read)30View(Region_Junin)3132#Pregunta 5: Muestre los valores únicos de las siguientes variables ( comunidad , District)3334attach(Region_Junin)35unique(comunidad) # De forma individual36unique(District) # De forma individual37unique(comunidad, District) # de manera conjunta3839# Pregunta 6: Crear columnas con las siguiente información: el % de mujeres del que no escriben40#ni leen (mujerxlee/totalxlee) % de varones que no escriben ni leen (homxlee/totalxlee) y % de41#nativos respecto al total de la población. Para el total de la población sumar (peruvian_men +42#peruvian_women + foreign_men + foreign_women)4344# creación de la variable % de mujeres que no escriben ni leen45Region_Junin['% de mujeres del que no escriben ni leen'] = Region_Junin['mujerxlee']*100 / Region_Junin['totalxlee']4647# creación de la variable % de varones que no escriben ni leen48Region_Junin['% de varones que no escriben ni leen'] = Region_Junin['homxlee']*100 / Region_Junin['totalxlee']4950# Total de la población51Region_Junin <- read_excel("../data/Region_Junin.xlsx", col_names = T)52attach(Region_Junin)53Region_Junin['total de la población'] = Region_Junin['peruvian_men']+ Region_Junin['peruvian_women']+Region_Junin['foreign_men']+Region_Junin['foreign_women']5455# Pregunta 7: Crear una base de datos con la siguiente información:5657# a. Quedarse con la información de los distritos de Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción5859attach(Region_Junin)60data_frame <-Region_Junin[District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "SAN JERÓNIMO", "TARMA", "OROYA", "CONCEPCIÓN"),]6162#b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.6364data_frame <- Region_Junin[Region_Junin$comunidad %in% c("nativos","mestizos"),]6566#c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.6768Region_Junin <- Region_Junin %>%69select(comunidad, District,% de mujeres que no escriben ni leen, % de varones que no escriben ni leen, `total de la población`) %>%7071#d. Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(numero de grupo)7273747576777879