CoCalc -- Grupo_4

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_4 _r.R
⁴⁶⁸⁶ views
1

2

3
################################################################################
4
#                                                                              #
5
#                              TAREA 2 - GRUPO 4                               #
6
#                                                                              #
7
################################################################################
8

9
# Seidy Ascencios - 20191622
10
# Luana Morales - 20191240
11
# Flavia Or� - 20191215
12
# Marcela Quintero - 20191445
13

14

15
#------------------------------------------------------------------------------#
16
#                                                                              #
17
#                                PREGUNTA 1                                    # 
18
#                                                                              #
19
#------------------------------------------------------------------------------#
20

21
#En primer lugar, llamaremos a las librer�as necesarias para empezar a tratar la base de datos
22

23
library(dplyr) 
24
library(tidyr)
25
library(readxl)
26

27

28
#Elegimos el directorio
29

30
getwd()
31
user <- Sys.getenv("USERNAME")
32

33
print(user)
34

35
setwd( paste0("C:/Users/", user, "/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG2") )
36

37
junin_data <- read_excel("../../data/Region_Junin.xlsx") 
38

39

40

41
#Obtenemos el nombre de las variables utilizando el comando str:
42

43
attach(junin_data)
44
str(junin_data)
45

46

47
#------------------------------------------------------------------------------#
48
#                                                                              #
49
#                                PREGUNTA 2                                    # 
50
#                                                                              #
51
#------------------------------------------------------------------------------#
52

53

54
#Obtenemos las variables y de qu� tipo son utilizando lapply:
55

56
lapply(junin_data, class)
57

58

59
#Luego, para obtener los principales estad�sticos descriptivos de las variables, usamos el comando summary:
60

61

62
summary(junin_data)
63

64

65

66
#------------------------------------------------------------------------------#
67
#                                                                              #
68
#                                PREGUNTA 3                                    # 
69
#                                                                              #
70
#------------------------------------------------------------------------------#
71

72

73
#Reemplazamos los missing values por "na":
74

75
na.strings=c("",NA)
76

77
#Verificamos la existencia de missing values:
78

79
any( is.na(junin_data) )  #El resultado es "TRUE", por lo que s� hay missing values
80

81

82
#Contamos el número de missing values:
83

84
sum(is.na(junin_data)) #Vemos que existen 66 missing values en nuestra base de datos
85

86

87
#Obtenemos el nombre de las columnas con al menos 1 missing value: 
88

89
is.na(junin_data)
90

91
colSums(is.na(junin_data))
92

93
which(colSums(is.na(junin_data))>0)
94

95
names(which(colSums(is.na(junin_data))>0))
96

97
#------------------------------------------------------------------------------#
98
#                                                                              #
99
#                                PREGUNTA 4                                    # 
100
#                                                                              #
101
#------------------------------------------------------------------------------#
102

103
#Ver los nombres de las columnas
104
names (junin_data )
105

106

107
#Instalar paquete "reshape" para activar rename
108

109
install.packages("reshape")
110

111

112
#Cambio de la variable place : comunidad
113

114
attach(junin_data) 
115

116
print(Place)
117

118
junin_data= rename(junin_data, c (Comunidad= "Place"))
119

120
table (junin_data$Comunidad)
121

122

123
#Cambio de la variable men_not_read: homxlee
124

125
attach(junin_data) 
126

127
print(men_not_read)
128

129
junin_data= rename(junin_data, c (homxlee= "men_not_read"))
130

131
table (junin_data$homxlee)
132

133

134
#Cambio de la variable women_not_read: mujerxlee
135

136
attach(junin_data) 
137

138
print(women_not_read)
139

140
junin_data = rename(junin_data, c (mujerxlee= "women_not_read"))
141

142
table (junin_data$mujerxlee)
143

144

145
#Cambio de la variable total_not_read: totalxlee
146

147
attach(junin_data) 
148

149
print(total_not_read)
150

151
junin_data = rename(junin_data, c (totalxlee= "total_not_read"))
152

153
table (junin_data$totalxlee)
154

155

156

157
#------------------------------------------------------------------------------#
158
#                                                                              #
159
#                                PREGUNTA 5                                    # 
160
#                                                                              #
161
#------------------------------------------------------------------------------#
162

163
#Detecci�n de valores duplicados en la columna comunidad y distrito
164

165
any(duplicated(Comunidad))
166
any(duplicated(District))
167
#En ambos casos, notamos que es cierto que existen valores duplicados.
168

169

170
#Podemos saber que la cantidad de missing values para Comunidad y Distrito:
171
sum(is.na(Comunidad))
172
sum(is.na(District))
173

174
# Valores �nicos de Comunidad:
175
unique(Comunidad)
176

177
# Valores �nicos de District:
178
unique(District)
179

180

181

182
#------------------------------------------------------------------------------#
183
#                                                                              #
184
#                                PREGUNTA 6                                    # 
185
#                                                                              #
186
#------------------------------------------------------------------------------#
187

188
#Creamos la nuevas variables
189

190
junin_data['pmujxlee'] = junin_data['mujerxlee'] / junin_data['totalxlee'] * 100
191

192
junin_data['phomxlee'] = junin_data['homxlee'] / junin_data['totalxlee'] * 100
193

194
junin_data['total_pobla'] = junin_data['peruvian_men'] + junin_data['peruvian_women'] + junin_data['foreign_men'] + junin_data['foreign_women']
195

196
junin_data['pnativos'] = junin_data['natives'] / junin_data['total_pobla'] * 100
197

198

199
junin_data2 <- junin_data[,c('pmujxlee','phomxlee','total_pobla','pnativos')] 
200

201

202
#Columna del porcentaje de mujeres que no escriben ni leen
203

204
attach(junin_data2) 
205

206
View( junin_data2[1:197,c('pmujxlee')] )
207

208

209
#Columna del porcentaje de varones que no escriben ni leen
210

211
attach(junin_data2) 
212

213
View( junin_data2[1:197,c('phomxlee')] )
214

215
#Columna del porcentaje de nativos respectos al total de la población
216

217
attach(junin_data2) 
218

219
View( junin_data2[,c('nativos')] )
220

221
     
222
#------------------------------------------------------------------------------#
223
#                                                                              #
224
#                                PREGUNTA 7                                    # 
225
#                                                                              #
226
#------------------------------------------------------------------------------#
227

228
#Subsetting columns
229
     
230
# Nos quedamos con los datos de los distritos de Ciudad del Cerro, Jauja, Acolla
231
#San Gerónimo, Tarma, Oroya y Concepci�n     
232

233
junin_data3 <- junin_data[which(junin_data$District == 'CIUDAD DEL CERRO' | junin_data$District == 'JAUJA' | junin_data$District == 'ACOLLA' | junin_data$District == 'SAN GERÓNIMO' | junin_data$District == 'TARMA' | junin_data$District == 'OROYA' | junin_data$District == 'CONCEPCIÓN'), ]
234
View(junin_data3)
235

236
#comunidades que cuentan con nativos y mestizos
237

238
junin_data4 <- junin_data3[which(junin_data3$natives > 0 & junin_data3$mestizos > 0), ] 
239
View(junin_data4)
240

241
#crear una nueva base de datos 
242

243
junin_data5 <- junin_data4[,c('District','Comunidad')] 
244
View(junin_data5)
245

246
#Guardamos la base de datos en formato csv en la carpeta data
247

248
write.csv(base, '../data/Base_cleaned_4.xlsx')
249

250
     
251
Product

Resources

Company