CoCalc -- Grupo

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_1.R
⁴⁶⁸² views
1
###########################################  GRUPO 1 ############################################
2

3
#####################################  Miembros del grupo  ######################################
4

5
# 20163197, Enrique Alfonso Pazos 
6
# 20191894, Ilenia Ttito
7
# 20151595, Rodrigo Ramos
8
# 20193469, Luis Egusquiza 
9
# 20163377, Jean Ni�o de Guzm�n
10

11
##Se cargan las librer�as necesarias para limpieza de datos y leer archivos de Excel.
12
library(tidyr)
13
library(dplyr)
14
library(readxl)
15
library(reshape)
16

17
##se extrae el usuario para posteriormente pegarlo en el nuevo directorio de la base de datos y pueda correr a cualquier persona con acceso al repositorio del curso.
18
user <- Sys.getenv("USERNAME")  
19

20
##Se setea un directorio para que se cargue la base de datos desde el repositorio del curso y se utilice el usuario de la PC en donde se corra el c�digo.
21
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data") ) 
22

23
##Se indica que se extraiga la base de datos "Region_Junin" 
24
junin_data <- read_excel("../data/Region_Junin.xlsx")
25

26
##Se juntan las columnas del dataframe para poder trabajar con cada una independientemente.
27
attach(junin_data)
28

29
### PREGUNTA 1:
30

31
#Mostrar los nombres de las 42 variables del Dataframe
32
names(junin_data)
33

34
### PREGUNTA 2:
35

36
#Con este comando se pueden mostrar las variables del dataframe con su respectivo tipo de dato.
37
lapply(junin_data, class)
38
str(lapply)
39

40
#Y con este comando se muestra el resumen estad�stico de los datos de cada variable
41
summary(junin_data)
42

43
### PREGUNTA 3
44

45
#Va colocar TRUE en los missing values
46
is.na(junin_data)
47

48
#N�mero de missing values de la base de datos
49
sum(is.na(junin_data))
50

51
#N�mero de casos completos
52
sum(complete.cases(junin_data))
53

54
#Crear una nueva base de datos que omita los missing values
55
data<- na.omit(junin_data)
56

57
#Corroboramos que ya no hay missing values 
58
sum(is.na(data))
59

60
### PREGUNTA 4
61

62
#Para conocer los nombres de las columnas de la tabla 
63
names(data)
64

65
#Como son muchas columnas, utilizamos reshape para no contar la posici�n de la columna que deseamos cambiar
66
require(reshape)
67

68
#Renombramos los nombres de las variables solicitadas 
69
data <- rename(data, c(Place="comunidad", men_not_read="homxlee", women_not_read="mujerxlee", total_not_read="totalxlee"))
70

71
#Corroboramos que los nombres hayan sido modificados 
72
names(data)
73

74
### PREGUNTA 5
75

76
#Mostramos los identificadores de todas las observaciones
77
unique(...1)
78

79
#Se muestra los valores �nicos de las 2 variables solicitadas
80

81
# Valores �nicos de la var. 'comunidad'
82
# Referenciamos a la �ltima base de datos modificada: 'data'
83

84
unique(data$comunidad)
85

86
# Valores �nicos de la var. 'District'
87
# Referenciamos a la �ltima base de datos modificada: 'data'
88

89
unique(data$District)
90

91
### PREGUNTA 6
92

93
#Crear porcentajes solicitados, usando las variables del dataframe
94
porct_mujxlee<-(data$mujerxlee)/(data$totalxlee)
95
porct_hmxlee<-(data$homxlee)/(data$totalxlee)
96
total_pob<-(data$peruvian_men)+(data$peruvian_women)+(data$foreign_men)+(data$foreign_women)
97
porct_nativos<-(data$natives)/total_pob
98

99
# A�adimos las nuevas variabes a la base de datos
100
data<-cbind(data,porct_mujxlee, porct_hmxlee,porct_nativos)
101
data
102

103
### PREGUNTA 7
104

105
#Filtro solamente de acuerdo a esos valores
106

107
# a:
108
pregunta_7_a <- data[data$District %in% c("CIUDAD DEL CERRO","JAUJA", 
109
                                             "ACOLLA", "SAN GERÓunique(dataNIMO", "TARMA",
110
                                             "OROYA", "CONCEPCIÓN"),]
111

112
#b, Solo quedarme con aquellas observaciones, cuyas variables mestizo y nativos toma un valor estrictamente mayor a 0.
113

114
pregunta_7_b <- pregunta_7_a %>% filter( (natives > 0) & ( mestizos > 0) )
115

116
#c, SOlo quedarme con las columnas distrito y comunidad
117

118
pregunta_7_c <- pregunta_7_b[,c('District','comunidad')]
119

120
#d, Guardar la base de datos: 
121

122
library("writexl")
123
write_xlsx(pregunta_7_c, '../data/Base_cleaned_WG1.xlsx')
124

125

126

127
Product

Resources

Company