Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_1.R
2714 views
1
########################################### GRUPO 1 ############################################
2
3
##################################### Miembros del grupo ######################################
4
5
# 20163197, Enrique Alfonso Pazos
6
# 20191894, Ilenia Ttito
7
# 20151595, Rodrigo Ramos
8
# 20193469, Luis Egusquiza
9
# 20163377, Jean Ni�o de Guzm�n
10
11
##Se cargan las librer�as necesarias para limpieza de datos y leer archivos de Excel.
12
library(tidyr)
13
library(dplyr)
14
library(readxl)
15
library(reshape)
16
17
##se extrae el usuario para posteriormente pegarlo en el nuevo directorio de la base de datos y pueda correr a cualquier persona con acceso al repositorio del curso.
18
user <- Sys.getenv("USERNAME")
19
20
##Se setea un directorio para que se cargue la base de datos desde el repositorio del curso y se utilice el usuario de la PC en donde se corra el c�digo.
21
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data") )
22
23
##Se indica que se extraiga la base de datos "Region_Junin"
24
junin_data <- read_excel("../data/Region_Junin.xlsx")
25
26
##Se juntan las columnas del dataframe para poder trabajar con cada una independientemente.
27
attach(junin_data)
28
29
### PREGUNTA 1:
30
31
#Mostrar los nombres de las 42 variables del Dataframe
32
names(junin_data)
33
34
### PREGUNTA 2:
35
36
#Con este comando se pueden mostrar las variables del dataframe con su respectivo tipo de dato.
37
lapply(junin_data, class)
38
str(lapply)
39
40
#Y con este comando se muestra el resumen estad�stico de los datos de cada variable
41
summary(junin_data)
42
43
### PREGUNTA 3
44
45
#Va colocar TRUE en los missing values
46
is.na(junin_data)
47
48
#N�mero de missing values de la base de datos
49
sum(is.na(junin_data))
50
51
#N�mero de casos completos
52
sum(complete.cases(junin_data))
53
54
#Crear una nueva base de datos que omita los missing values
55
data<- na.omit(junin_data)
56
57
#Corroboramos que ya no hay missing values
58
sum(is.na(data))
59
60
### PREGUNTA 4
61
62
#Para conocer los nombres de las columnas de la tabla
63
names(data)
64
65
#Como son muchas columnas, utilizamos reshape para no contar la posici�n de la columna que deseamos cambiar
66
require(reshape)
67
68
#Renombramos los nombres de las variables solicitadas
69
data <- rename(data, c(Place="comunidad", men_not_read="homxlee", women_not_read="mujerxlee", total_not_read="totalxlee"))
70
71
#Corroboramos que los nombres hayan sido modificados
72
names(data)
73
74
### PREGUNTA 5
75
76
#Mostramos los identificadores de todas las observaciones
77
unique(...1)
78
79
#Se muestra los valores �nicos de las 2 variables solicitadas
80
81
# Valores �nicos de la var. 'comunidad'
82
# Referenciamos a la �ltima base de datos modificada: 'data'
83
84
unique(data$comunidad)
85
86
# Valores �nicos de la var. 'District'
87
# Referenciamos a la �ltima base de datos modificada: 'data'
88
89
unique(data$District)
90
91
### PREGUNTA 6
92
93
#Crear porcentajes solicitados, usando las variables del dataframe
94
porct_mujxlee<-(data$mujerxlee)/(data$totalxlee)
95
porct_hmxlee<-(data$homxlee)/(data$totalxlee)
96
total_pob<-(data$peruvian_men)+(data$peruvian_women)+(data$foreign_men)+(data$foreign_women)
97
porct_nativos<-(data$natives)/total_pob
98
99
# A�adimos las nuevas variabes a la base de datos
100
data<-cbind(data,porct_mujxlee, porct_hmxlee,porct_nativos)
101
data
102
103
### PREGUNTA 7
104
105
#Filtro solamente de acuerdo a esos valores
106
107
# a:
108
pregunta_7_a <- data[data$District %in% c("CIUDAD DEL CERRO","JAUJA",
109
"ACOLLA", "SAN GERÓunique(dataNIMO", "TARMA",
110
"OROYA", "CONCEPCIÓN"),]
111
112
#b, Solo quedarme con aquellas observaciones, cuyas variables mestizo y nativos toma un valor estrictamente mayor a 0.
113
114
pregunta_7_b <- pregunta_7_a %>% filter( (natives > 0) & ( mestizos > 0) )
115
116
#c, SOlo quedarme con las columnas distrito y comunidad
117
118
pregunta_7_c <- pregunta_7_b[,c('District','comunidad')]
119
120
#d, Guardar la base de datos:
121
122
library("writexl")
123
write_xlsx(pregunta_7_c, '../data/Base_cleaned_WG1.xlsx')
124
125
126
127