Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/GRUPO 3_ TAREA 2.R
2714 views
1
# instalar paquete readxl para importar la base de datos
2
install.packages("readxl")
3
4
#cargar paquete readxl
5
library(readxl)
6
7
#importamos los datos
8
junin_data <- read_excel("C:\\Users\\claud\\Downloads\\Region_Junin.xlsx",
9
range = 'B1:AP198')
10
fil
11
## 1) obtener el nombre de todas las variables (son 41 variables)
12
names(junin_data)
13
14
## 2) mostrar el tipo de variable y los principales estadísticos
15
16
## los tipos
17
str(junin_data) ## se observa que las 3 primeras variables son del tipo 'character' (texto) mientras que las 38 restantes son del tipo 'num' (numéricas)
18
19
## los principales estadísticos (mediana, media, # de missings) dependiendo del tipo de variable
20
summary(junin_data) ## para las variables "character" la información es distinta, se muestra el numero de veces que cada valor aparece en los datos
21
22
## 3) verificar si las columnas presentan missing values
23
sum(is.na(junin_data)) ## tenemos el número total de missings en el dataframe (66)
24
apply(X=is.na(junin_data), MARGIN = 2, FUN = sum) ## así tenemos la cantidad de missings por columnas (por variable)
25
26
## 4) cambiar el nombre de las siguientes variables:
27
28
## place : comunidad
29
colnames(junin_data)[3] <- "comunidad" #cambiamos el nombre de la columna
30
31
## men_not_read : homxlee
32
colnames(junin_data)[13] <- "homxlee"
33
34
## women_not_read : mujerxlee
35
colnames(junin_data)[14] <- "mujerxlee"
36
37
## total_not_read : totalxlee
38
colnames(junin_data)[15] <- "totalxlee"
39
40
# 5. Mostrar valores unicos de comunidad y distrito
41
# Se observan los valores unicos de la variable comunidad
42
unique(junin_data$comunidad)
43
44
# 6. Crear columnas
45
46
# Pregunta 6: Crear columnas con las siguiente información
47
# Para esta pregunta, es relevante conocer los siguientes datos:
48
# men_not_read: homxlee
49
# women_not_read: mujerxlee
50
# total_not_read: totalxlee
51
# Entonces, en primera instancia hallamos el % de mujeres que no escriben ni leen (mujerxlee/totalxlee)
52
# El código a utilizar para identificar ello es:
53
54
Region_Junin$porcentajemujeres_noescriben_noleen=Region_Junin$women_not_read/Region_Junin$total_not_read
55
56
57
# En segunda instancia, hallamos el % de varones que no escriben ni leen, razón por la cual, el código a utilizar es:
58
59
Region_Junin$porcentajehombres_noescriben_noleen=Region_Junin$men_not_read/Region_Junin$total_not_read
60
61
# En tercera instancia, hallamos el % de nativos respecto al total de la población. Para el total de la población sumar (peruvian_men + peruvian_women + foreign_men + foreign_women). En este sentido, el código a utilizar es:
62
63
Region_Junin$porcentajenativos_respecto_totalpoblación=Region_Junin$natives/(Region_Junin$peruvian_men+Region_Junin$peruvian_women+Region_Junin$foreign_men+Region_Junin$foreign_women)
64
65
66
# 7. Crear base de datos
67
## Quedarse con los valores de los ditritos: CIUDAD DEL CERRO, JAUJA, ACOLLA, SAN GERÓNIMO, TARMA, OROYA, CONCEPCIÓN
68
69
install.packages("tidyverse")
70
library(tidyverse)
71
72
## Quedarse con las variables Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción
73
junin_data2 <- junin_data %>% filter( District != "JAUJA", "CIUDAD DEL CERRO", "ACOLLA", "SAN GERÓNIMO", "TARMA", "OROYA", "CONCEPCIÓN")
74
75
# Quedarse con los que cuentan con nativos y mestizos
76
77
junin_data3 <- junin_data2 %>% filter( natives > 0 )
78
79
junin_data4 <- junin_data3 %>% filter( mestizos > 0)
80
81
# Generar base en formato excel
82
83
write.table(junin_data4, file = "Base_cleaned_WG3.csv" , sep = ";", row.names = F)
84
85
# Se descarga y adjunta base
86
87