CoCalc -- GRUPO 3

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/GRUPO 3_ TAREA 2.R
⁴⁶⁸⁴ views
1
# instalar paquete readxl para importar la base de datos
2
install.packages("readxl")
3

4
#cargar paquete readxl
5
library(readxl)
6

7
#importamos los datos
8
junin_data <- read_excel("C:\\Users\\claud\\Downloads\\Region_Junin.xlsx", 
9
                         range = 'B1:AP198')
10
fil
11
## 1) obtener el nombre de todas las variables (son 41 variables)
12
names(junin_data)
13

14
## 2) mostrar el tipo de variable y los principales estadísticos
15

16
## los tipos
17
str(junin_data) ## se observa que las 3 primeras variables son del tipo 'character' (texto) mientras que las 38 restantes son del tipo 'num' (numéricas) 
18

19
## los principales estadísticos (mediana, media, # de missings) dependiendo del tipo de variable 
20
summary(junin_data) ## para las variables "character" la información es distinta, se muestra el numero de veces que cada valor aparece en los datos
21

22
## 3) verificar si las columnas presentan missing values
23
sum(is.na(junin_data)) ## tenemos el número total de missings en el dataframe (66)
24
apply(X=is.na(junin_data), MARGIN = 2, FUN = sum) ## así tenemos la cantidad de missings por columnas (por variable)
25

26
## 4) cambiar el nombre de las siguientes variables:
27

28
## place : comunidad
29
colnames(junin_data)[3] <- "comunidad" #cambiamos el nombre de la columna
30

31
## men_not_read : homxlee
32
colnames(junin_data)[13] <- "homxlee"
33

34
## women_not_read : mujerxlee
35
colnames(junin_data)[14] <- "mujerxlee"
36

37
## total_not_read : totalxlee
38
colnames(junin_data)[15] <- "totalxlee"
39

40
# 5. Mostrar valores unicos de comunidad y distrito
41
# Se observan los valores unicos de la variable comunidad
42
unique(junin_data$comunidad)
43

44
# 6. Crear columnas 
45

46
# Pregunta 6: Crear columnas con las siguiente información
47
# Para esta pregunta, es relevante conocer los siguientes datos: 
48
# men_not_read: homxlee
49
# women_not_read: mujerxlee
50
# total_not_read: totalxlee
51
# Entonces, en primera instancia hallamos el % de mujeres que no escriben ni leen (mujerxlee/totalxlee)
52
# El código a utilizar para identificar ello es: 
53

54
Region_Junin$porcentajemujeres_noescriben_noleen=Region_Junin$women_not_read/Region_Junin$total_not_read
55

56

57
# En segunda instancia, hallamos el % de varones que no escriben ni leen, razón por la cual, el código a utilizar es: 
58

59
Region_Junin$porcentajehombres_noescriben_noleen=Region_Junin$men_not_read/Region_Junin$total_not_read
60

61
# En tercera instancia, hallamos el % de nativos respecto al total de la población. Para el total de la población sumar (peruvian_men + peruvian_women + foreign_men + foreign_women). En este sentido, el código a utilizar es: 
62

63
Region_Junin$porcentajenativos_respecto_totalpoblación=Region_Junin$natives/(Region_Junin$peruvian_men+Region_Junin$peruvian_women+Region_Junin$foreign_men+Region_Junin$foreign_women)
64

65

66
# 7. Crear base de datos
67
 ## Quedarse con los valores de los ditritos: CIUDAD DEL CERRO, JAUJA, ACOLLA, SAN GERÓNIMO, TARMA, OROYA, CONCEPCIÓN
68

69
install.packages("tidyverse")
70
library(tidyverse)
71

72
## Quedarse con las variables Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción
73
junin_data2 <- junin_data %>% filter( District != "JAUJA", "CIUDAD DEL CERRO", "ACOLLA", "SAN GERÓNIMO", "TARMA", "OROYA", "CONCEPCIÓN")
74

75
# Quedarse con los que cuentan con nativos y mestizos
76

77
junin_data3 <- junin_data2 %>% filter( natives > 0 )
78

79
junin_data4 <- junin_data3 %>% filter( mestizos > 0)
80

81
# Generar base en formato excel
82

83
write.table(junin_data4, file = "Base_cleaned_WG3.csv" , sep = ";", row.names = F)
84

85
# Se descarga y adjunta base
86

87
Product

Resources

Company