Path: blob/main/Trabajo_grupal/WG2/Grupo_7_r.R
2714 views
library(dplyr) # librer�a de limpieza de datos1library(tidyr) # librer�a de limpieza de datos2library(readxl) # librer�a para subir archivos excel, csv34## Adaptamos el directorio5user <- Sys.getenv("USERNAME") # username6print(user)7setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab3") ) # set directorio8junin_data <- read_excel("../data/Region_Junin.xlsx")91011###############################12### Exploring a DataFrame ####13###############################141516#-----------------------------------------------------------------------17# 1. Obtener el nombre de todas las variables.1819names(junin_data)2021#-----------------------------------------------------------------------22# 2. Mostrar el tipo de variables (type) as� como presentar los principales estad�sticos.2324str(junin_data) # Se observa que todas las variables son num�ricas a excepci�n de Region, Distric y Place que son character252627#-----------------------------------------------------------------------28# 3. Verifique si las columnas presentan missing values.2930unique(junin_data) # muestra los valores �nicos por cada columna3132sum(is.na(junin_data)) # total de missing values en el dataframe3334junin_data2 <- junin_data %>% drop_na() # creando nueva base sin missing values353637#-----------------------------------------------------------------------38# 4. Cambie el nombre de las siguientes variables:3940junin_data2 <- junin_data2 %>% rename(comunidad = Place,41homxlee = men_not_read,42mujerxlee = women_not_read,43totalxlee = total_not_read) # nombre nuevo = nombre antiguo444546#----------------------------------------------------------------------------47# 5. Valores �nicos de las siguientes variables ( comunidad , District)4849# mostrar valores únicos de ambas variables5051unique(junin_data2$comunidad)52unique(junin_data2$District)53545556#----------------------------------------------------------------------------5758# 6. Crear columnas con la siguiente informaci�n5960# Unimos las columnas de una vez al dataframe total6162junin_data2$mujer_noescribenilee <- junin_data2$mujerxlee / junin_data2$totalxlee63junin_data2$hombre_noescribenilee <- junin_data2$homxlee / junin_data2$totalxlee64junin_data2$nativos_total <- junin_data2$natives / (junin_data2$peruvian_men + junin_data2$peruvian_women + junin_data2$foreign_men + junin_data2$foreign_women)65666768#-----------------------------------------------------------------------69# 7. Cambie el nombre de las siguientes variables:7071# a. Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n7273unique(junin_data2$District) # para obtener los verdaderos nombres de los distritos7475junin_data3 <- junin_data2 %>% filter( District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "SAN GER�NIMO", "TARMA", "OROYA", "CONCEPCI�N"))7677# b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.7879names(junin_data3) # para ver el nombre de las variables80# vemos que los nombres son "whites" y "natives"8182junin_data3 <- junin_data3 %>% filter( natives > 0 & mestizos > 0 )8384# c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.8586junin_data3 <- junin_data3[ , c('mujer_noescribenilee', 'hombre_noescribenilee', 'nativos_total', 'District', 'comunidad')]8788# d. Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(numero de grupo)8990write.csv(junin_data3, '../data/Base_cleaned_WG7.csv')9192939495