Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_7_r.R
2714 views
1
library(dplyr) # librer�a de limpieza de datos
2
library(tidyr) # librer�a de limpieza de datos
3
library(readxl) # librer�a para subir archivos excel, csv
4
5
## Adaptamos el directorio
6
user <- Sys.getenv("USERNAME") # username
7
print(user)
8
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab3") ) # set directorio
9
junin_data <- read_excel("../data/Region_Junin.xlsx")
10
11
12
###############################
13
### Exploring a DataFrame ####
14
###############################
15
16
17
#-----------------------------------------------------------------------
18
# 1. Obtener el nombre de todas las variables.
19
20
names(junin_data)
21
22
#-----------------------------------------------------------------------
23
# 2. Mostrar el tipo de variables (type) as� como presentar los principales estad�sticos.
24
25
str(junin_data) # Se observa que todas las variables son num�ricas a excepci�n de Region, Distric y Place que son character
26
27
28
#-----------------------------------------------------------------------
29
# 3. Verifique si las columnas presentan missing values.
30
31
unique(junin_data) # muestra los valores �nicos por cada columna
32
33
sum(is.na(junin_data)) # total de missing values en el dataframe
34
35
junin_data2 <- junin_data %>% drop_na() # creando nueva base sin missing values
36
37
38
#-----------------------------------------------------------------------
39
# 4. Cambie el nombre de las siguientes variables:
40
41
junin_data2 <- junin_data2 %>% rename(comunidad = Place,
42
homxlee = men_not_read,
43
mujerxlee = women_not_read,
44
totalxlee = total_not_read) # nombre nuevo = nombre antiguo
45
46
47
#----------------------------------------------------------------------------
48
# 5. Valores �nicos de las siguientes variables ( comunidad , District)
49
50
# mostrar valores únicos de ambas variables
51
52
unique(junin_data2$comunidad)
53
unique(junin_data2$District)
54
55
56
57
#----------------------------------------------------------------------------
58
59
# 6. Crear columnas con la siguiente informaci�n
60
61
# Unimos las columnas de una vez al dataframe total
62
63
junin_data2$mujer_noescribenilee <- junin_data2$mujerxlee / junin_data2$totalxlee
64
junin_data2$hombre_noescribenilee <- junin_data2$homxlee / junin_data2$totalxlee
65
junin_data2$nativos_total <- junin_data2$natives / (junin_data2$peruvian_men + junin_data2$peruvian_women + junin_data2$foreign_men + junin_data2$foreign_women)
66
67
68
69
#-----------------------------------------------------------------------
70
# 7. Cambie el nombre de las siguientes variables:
71
72
# a. Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n
73
74
unique(junin_data2$District) # para obtener los verdaderos nombres de los distritos
75
76
junin_data3 <- junin_data2 %>% filter( District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "SAN GER�NIMO", "TARMA", "OROYA", "CONCEPCI�N"))
77
78
# b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.
79
80
names(junin_data3) # para ver el nombre de las variables
81
# vemos que los nombres son "whites" y "natives"
82
83
junin_data3 <- junin_data3 %>% filter( natives > 0 & mestizos > 0 )
84
85
# c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.
86
87
junin_data3 <- junin_data3[ , c('mujer_noescribenilee', 'hombre_noescribenilee', 'nativos_total', 'District', 'comunidad')]
88
89
# d. Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(numero de grupo)
90
91
write.csv(junin_data3, '../data/Base_cleaned_WG7.csv')
92
93
94
95