Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo 6_Tarea 2_R.R
2714 views
1
' Se cargan los paquetes y luego ya los utilizaremos automaticamente'
2
3
library(dplyr) # librería de limpieza de datos
4
library(tidyr) # librería de limpieza de datos
5
library(readxl) # libreria para subir archivos excel, csv
6
7
library("readxl")
8
9
junin_data = read_excel("C:/Users/HP/Documents/GitHub/1ECO35_2022_2/data/Region_Junin.xlsx")
10
#-—----------------------------------------------------------------------------
11
12
### PREGUNTA 1 ###
13
# Hallando información sobre cada variable
14
15
# Mediante comando head se obtiene las categorias existentes de toda la data
16
head(junin_data)
17
18
#Mediante comando str podemos obtener los detalles característicos de cada variable existente
19
str(junin_data)
20
#-—------------------------------------------------------------------------
21
22
### PREGUNTA 2 ###
23
# Conociendo el tipo de variables y sus principales estadísticos
24
25
# Utilizando el comando lapply que va a iterar la información desde una lista,
26
# y mostrando como resultado otra lista
27
lapply(junin_data, class)
28
str(lapply)
29
30
# Utilizando el comando sapply porque va aiterar la informacion de forma que
31
# nos muestre como resultado un vector.
32
sapply(junin_data, class)
33
34
# Ahora, calculamos los estadísticos de las variables
35
summary(junin_data, class)
36
37
# Luego de ello, se puede evidenciar que existe para Region, Distrito,
38
# Lugar, edad por intervalos para mujeres y varones, residencia, mestizaje, etc
39
#----------------------------------------------------------------------
40
41
### PREGUNTA 3 ###
42
# Verificando si las columnas tienen missing values
43
any(is.na(junin_data))
44
45
# Cuando se corre el codigo el resultado es TRUE, es decir existe al menos
46
# un valor perdido
47
48
# Por eso, ahora se pide al programa conocer cuántos valores perdidos hay en total
49
sum(is.na(junin_data))
50
51
# Cuando se corre el codigo, el resultado es 66 valores perdidos.
52
#-----------------------------------------------------
53
### PREGUNTA 4 ###
54
55
# Primero observamos cuáles son los nombres de la tabla de datos Junin
56
names (junin_data)
57
View(junin_data)
58
# Se observa que en total hay 42 categorías de nombres en la tabla
59
60
# A continuacion nos piden renombrar 4 categorias
61
nuevo_junin = rename(junin_data, Comunidad = Place, homxlee = men_not_read, mujerxlee = women_not_read, totalxlee = total_not_read)
62
View(nuevo_junin)
63
# Asi finalmente se han renombrado cada una de las columnas de Place, men_not_read
64
# women_not_read y total_not_read --> por nombres como Comunidad, homxlee,
65
# mujerxlee y totalxlee
66
67
#-----------------------------------------------------------------------------------
68
### PREGUNTA 5 ###
69
70
# para poder abrir la base de datos a analizar
71
View(nuevo_junin)
72
73
# filtrar columnas y filas específicas de las variables comunidad y distrito
74
View(nuevo_junin[c(1:144),c(3,4)])
75
#-------------------------------------------------------------------------------
76
### PREGUNTA 6 ###
77
78
#Tendremos que dividir las personas que no leen / total, esto para hallar el porcentaje de cada una.
79
#De esta manera, creamos los 3 requisitos.
80
# DONDE:
81
#men_not_read -> homxlee
82
#women_not_read -> mujerxlee
83
#total_not_read -> totalxlee
84
85
#Esto corre en MacBook
86
nuevo_junin <- porcentaje_mujerxlee=nuevo_junin$$mujerxlee/nuevo_junin$$totalxlee
87
88
nuevo_junin <- porcentaje_homxlee=nuevo_junin$$homxlee/nuevo_junin$$totalxlee
89
90
nuevo_junin <- porcentaje_nativos=nuevo_junin$$natives/(nuevo_junin$$peruvian_men+nuevo_junin$$peruvian_women+nuevo_junin$foreign_men+nuevo_junin$foreign_women)
91
92
#Con lo efectuado, podremos visualizar el porcentaje de cada uno.
93
94
View(nuevo_junin) # Con esto, notamos que hay elementos que superan el 100% (1.0). Identificamos un problema en la data, debido a que no deberían ser capaces de superar el total.
95
96
#### PREGUNTA 7 ###
97
98
dataframe2 <- data_frame[,c('mujeres que no escriben ni leen','varones que no escriben ni leen','Total de la poblacion','District','comunidad')]
99
View(dataframe2)
100
101
#a.Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n
102
junin_final = iris [Ciudad del Cerro, Jauja, Acolla, San Gernimo, Tarma, Oroya y Concepcin]
103
104
#b.Luego quedarse con las comunidades que cuentan con nativos y mestizos.
105
junin_final = iris$Comunidad [nativos, mestizos]
106
107
#c.Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.
108
junin_final = iris[district, Comunidad]
109
110
#d.Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(n�mero de grupo)
111
write.csv2(base '../data/Base_cleaned_WG(6).csv')
112
113
114
115