CoCalc -- Grupo 6_Tarea 2

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo 6_Tarea 2_R.R
⁴⁶⁸⁴ views
1
' Se cargan los paquetes y luego ya los utilizaremos automaticamente'
2

3
library(dplyr) # librería de limpieza de datos
4
library(tidyr) # librería de limpieza de datos
5
library(readxl) # libreria para subir archivos excel, csv
6

7
library("readxl")
8

9
junin_data = read_excel("C:/Users/HP/Documents/GitHub/1ECO35_2022_2/data/Region_Junin.xlsx")
10
#-—----------------------------------------------------------------------------
11

12
### PREGUNTA 1 ###
13
# Hallando información sobre cada variable
14

15
# Mediante comando head se obtiene las categorias existentes de toda la data
16
head(junin_data)
17

18
#Mediante comando str podemos obtener los detalles característicos de cada variable existente
19
str(junin_data)
20
#-—------------------------------------------------------------------------
21

22
### PREGUNTA 2 ###
23
# Conociendo el tipo de variables y sus principales estadísticos
24

25
# Utilizando el comando lapply que va a iterar la información desde una lista, 
26
# y mostrando como resultado otra lista
27
lapply(junin_data, class)
28
str(lapply)
29

30
# Utilizando el comando sapply porque va aiterar la informacion de forma que
31
# nos muestre como resultado un vector. 
32
sapply(junin_data, class)
33

34
# Ahora, calculamos los estadísticos de las variables
35
summary(junin_data, class)
36

37
# Luego de ello, se puede evidenciar que existe para Region, Distrito, 
38
# Lugar, edad por intervalos para mujeres y varones, residencia, mestizaje, etc
39
#----------------------------------------------------------------------
40

41
### PREGUNTA 3 ###
42
# Verificando si las columnas tienen missing values
43
any(is.na(junin_data))
44

45
# Cuando se corre el codigo el resultado es TRUE, es decir existe al menos
46
# un valor perdido
47

48
# Por eso, ahora se pide al programa conocer cuántos valores perdidos hay en total
49
sum(is.na(junin_data))
50

51
# Cuando se corre el codigo, el resultado es 66 valores perdidos. 
52
#-----------------------------------------------------
53
### PREGUNTA 4 ###
54

55
# Primero observamos cuáles son los nombres de la tabla de datos Junin
56
names (junin_data)
57
View(junin_data)
58
# Se observa que en total hay 42 categorías de nombres en la tabla
59

60
# A continuacion nos piden renombrar 4 categorias
61
nuevo_junin = rename(junin_data, Comunidad = Place, homxlee = men_not_read, mujerxlee = women_not_read, totalxlee = total_not_read)
62
View(nuevo_junin)
63
# Asi finalmente se han renombrado cada una de las columnas de Place, men_not_read
64
# women_not_read y total_not_read --> por nombres como Comunidad, homxlee,
65
# mujerxlee y totalxlee
66

67
#-----------------------------------------------------------------------------------
68
### PREGUNTA 5 ###
69

70
# para poder abrir la base de datos a analizar
71
View(nuevo_junin)  
72

73
# filtrar columnas y filas específicas de las variables comunidad y distrito
74
View(nuevo_junin[c(1:144),c(3,4)])
75
#-------------------------------------------------------------------------------
76
### PREGUNTA 6 ###
77

78
#Tendremos que dividir las personas que no leen / total, esto para hallar el porcentaje de cada una.
79
#De esta manera, creamos los 3 requisitos. 
80
# DONDE:
81
#men_not_read -> homxlee
82
#women_not_read -> mujerxlee
83
#total_not_read -> totalxlee
84

85
#Esto corre en MacBook
86
nuevo_junin <- porcentaje_mujerxlee=nuevo_junin$$mujerxlee/nuevo_junin$$totalxlee
87

88
nuevo_junin <- porcentaje_homxlee=nuevo_junin$$homxlee/nuevo_junin$$totalxlee
89

90
nuevo_junin <- porcentaje_nativos=nuevo_junin$$natives/(nuevo_junin$$peruvian_men+nuevo_junin$$peruvian_women+nuevo_junin$foreign_men+nuevo_junin$foreign_women) 
91

92
#Con lo efectuado, podremos visualizar el porcentaje de cada uno.
93

94
View(nuevo_junin) # Con esto, notamos que hay elementos que superan el 100% (1.0). Identificamos un problema en la data, debido a que no deberían ser capaces de superar el total.
95

96
#### PREGUNTA 7 ###
97

98
dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblacion','District','comunidad')] 
99
View(dataframe2)
100

101
#a.Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n
102
junin_final = iris [Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n]
103

104
#b.Luego quedarse con las comunidades que cuentan con nativos y mestizos.
105
junin_final = iris$Comunidad [nativos, mestizos]
106

107
#c.Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.
108
junin_final = iris[district, Comunidad]
109

110
#d.Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(n�mero de grupo)
111
write.csv2(base '../data/Base_cleaned_WG(6).csv')
112

113

114

115
Product

Resources

Company