Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_4 _r.R
2714 views
1
2
3
################################################################################
4
# #
5
# TAREA 2 - GRUPO 4 #
6
# #
7
################################################################################
8
9
# Seidy Ascencios - 20191622
10
# Luana Morales - 20191240
11
# Flavia Or� - 20191215
12
# Marcela Quintero - 20191445
13
14
15
#------------------------------------------------------------------------------#
16
# #
17
# PREGUNTA 1 #
18
# #
19
#------------------------------------------------------------------------------#
20
21
#En primer lugar, llamaremos a las librer�as necesarias para empezar a tratar la base de datos
22
23
library(dplyr)
24
library(tidyr)
25
library(readxl)
26
27
28
#Elegimos el directorio
29
30
getwd()
31
user <- Sys.getenv("USERNAME")
32
33
print(user)
34
35
setwd( paste0("C:/Users/", user, "/Documents/GitHub/1ECO35_2022_2/Trabajo_grupal/WG2") )
36
37
junin_data <- read_excel("../../data/Region_Junin.xlsx")
38
39
40
41
#Obtenemos el nombre de las variables utilizando el comando str:
42
43
attach(junin_data)
44
str(junin_data)
45
46
47
#------------------------------------------------------------------------------#
48
# #
49
# PREGUNTA 2 #
50
# #
51
#------------------------------------------------------------------------------#
52
53
54
#Obtenemos las variables y de qu� tipo son utilizando lapply:
55
56
lapply(junin_data, class)
57
58
59
#Luego, para obtener los principales estad�sticos descriptivos de las variables, usamos el comando summary:
60
61
62
summary(junin_data)
63
64
65
66
#------------------------------------------------------------------------------#
67
# #
68
# PREGUNTA 3 #
69
# #
70
#------------------------------------------------------------------------------#
71
72
73
#Reemplazamos los missing values por "na":
74
75
na.strings=c("",NA)
76
77
#Verificamos la existencia de missing values:
78
79
any( is.na(junin_data) ) #El resultado es "TRUE", por lo que s� hay missing values
80
81
82
#Contamos el número de missing values:
83
84
sum(is.na(junin_data)) #Vemos que existen 66 missing values en nuestra base de datos
85
86
87
#Obtenemos el nombre de las columnas con al menos 1 missing value:
88
89
is.na(junin_data)
90
91
colSums(is.na(junin_data))
92
93
which(colSums(is.na(junin_data))>0)
94
95
names(which(colSums(is.na(junin_data))>0))
96
97
#------------------------------------------------------------------------------#
98
# #
99
# PREGUNTA 4 #
100
# #
101
#------------------------------------------------------------------------------#
102
103
#Ver los nombres de las columnas
104
names (junin_data )
105
106
107
#Instalar paquete "reshape" para activar rename
108
109
install.packages("reshape")
110
111
112
#Cambio de la variable place : comunidad
113
114
attach(junin_data)
115
116
print(Place)
117
118
junin_data= rename(junin_data, c (Comunidad= "Place"))
119
120
table (junin_data$Comunidad)
121
122
123
#Cambio de la variable men_not_read: homxlee
124
125
attach(junin_data)
126
127
print(men_not_read)
128
129
junin_data= rename(junin_data, c (homxlee= "men_not_read"))
130
131
table (junin_data$homxlee)
132
133
134
#Cambio de la variable women_not_read: mujerxlee
135
136
attach(junin_data)
137
138
print(women_not_read)
139
140
junin_data = rename(junin_data, c (mujerxlee= "women_not_read"))
141
142
table (junin_data$mujerxlee)
143
144
145
#Cambio de la variable total_not_read: totalxlee
146
147
attach(junin_data)
148
149
print(total_not_read)
150
151
junin_data = rename(junin_data, c (totalxlee= "total_not_read"))
152
153
table (junin_data$totalxlee)
154
155
156
157
#------------------------------------------------------------------------------#
158
# #
159
# PREGUNTA 5 #
160
# #
161
#------------------------------------------------------------------------------#
162
163
#Detecci�n de valores duplicados en la columna comunidad y distrito
164
165
any(duplicated(Comunidad))
166
any(duplicated(District))
167
#En ambos casos, notamos que es cierto que existen valores duplicados.
168
169
170
#Podemos saber que la cantidad de missing values para Comunidad y Distrito:
171
sum(is.na(Comunidad))
172
sum(is.na(District))
173
174
# Valores �nicos de Comunidad:
175
unique(Comunidad)
176
177
# Valores �nicos de District:
178
unique(District)
179
180
181
182
#------------------------------------------------------------------------------#
183
# #
184
# PREGUNTA 6 #
185
# #
186
#------------------------------------------------------------------------------#
187
188
#Creamos la nuevas variables
189
190
junin_data['pmujxlee'] = junin_data['mujerxlee'] / junin_data['totalxlee'] * 100
191
192
junin_data['phomxlee'] = junin_data['homxlee'] / junin_data['totalxlee'] * 100
193
194
junin_data['total_pobla'] = junin_data['peruvian_men'] + junin_data['peruvian_women'] + junin_data['foreign_men'] + junin_data['foreign_women']
195
196
junin_data['pnativos'] = junin_data['natives'] / junin_data['total_pobla'] * 100
197
198
199
junin_data2 <- junin_data[,c('pmujxlee','phomxlee','total_pobla','pnativos')]
200
201
202
#Columna del porcentaje de mujeres que no escriben ni leen
203
204
attach(junin_data2)
205
206
View( junin_data2[1:197,c('pmujxlee')] )
207
208
209
#Columna del porcentaje de varones que no escriben ni leen
210
211
attach(junin_data2)
212
213
View( junin_data2[1:197,c('phomxlee')] )
214
215
#Columna del porcentaje de nativos respectos al total de la población
216
217
attach(junin_data2)
218
219
View( junin_data2[,c('nativos')] )
220
221
222
#------------------------------------------------------------------------------#
223
# #
224
# PREGUNTA 7 #
225
# #
226
#------------------------------------------------------------------------------#
227
228
#Subsetting columns
229
230
# Nos quedamos con los datos de los distritos de Ciudad del Cerro, Jauja, Acolla
231
#San Gerónimo, Tarma, Oroya y Concepci�n
232
233
junin_data3 <- junin_data[which(junin_data$District == 'CIUDAD DEL CERRO' | junin_data$District == 'JAUJA' | junin_data$District == 'ACOLLA' | junin_data$District == 'SAN GERÓNIMO' | junin_data$District == 'TARMA' | junin_data$District == 'OROYA' | junin_data$District == 'CONCEPCIÓN'), ]
234
View(junin_data3)
235
236
#comunidades que cuentan con nativos y mestizos
237
238
junin_data4 <- junin_data3[which(junin_data3$natives > 0 & junin_data3$mestizos > 0), ]
239
View(junin_data4)
240
241
#crear una nueva base de datos
242
243
junin_data5 <- junin_data4[,c('District','Comunidad')]
244
View(junin_data5)
245
246
#Guardamos la base de datos en formato csv en la carpeta data
247
248
write.csv(base, '../data/Base_cleaned_4.xlsx')
249
250
251