Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_10_r.R
2714 views
1
#Base de datos
2
3
library("readxl")
4
Region_Junin <- read_excel("../data/Region_Junin.xlsx", col_names = T)
5
6
#Pregunta 1: Obtener el nombre de todas las variables
7
8
attach(Region_Junin)
9
str(Region_Junin)
10
names(Region_Junin)
11
12
#Pregunta 2: Mostrar el tipo de variables (type) así como presentar los principales estadísticos.
13
14
lapply(Region_Junin, class) #list
15
sapply(Region_Junin, class) #vector, Datrame
16
summary(Region_Junin) # estadisticas desciptivas de las variables
17
18
#Pregunta 3: Verifique si las columnas presentan valores faltantes
19
20
any(is.na(Region_Junin)) # al menos una observación es Missing
21
sum(is.na(Region_Junin)) #hay 66 missing
22
23
#Pregunta 4: Cambie el nombre de las siguientes variables
24
25
install.packages("tidyverse")
26
library(tidyverse)
27
28
Region_Junin <- Region_Junin %>%
29
select(Place, men_not_read, women_not_read, total_not_read) %>%
30
rename(comunidad = Place, homxlee = men_not_read, mujerxlee = women_not_read, totalxlee = total_not_read)
31
View(Region_Junin)
32
33
#Pregunta 5: Muestre los valores únicos de las siguientes variables ( comunidad , District)
34
35
attach(Region_Junin)
36
unique(comunidad) # De forma individual
37
unique(District) # De forma individual
38
unique(comunidad, District) # de manera conjunta
39
40
# Pregunta 6: Crear columnas con las siguiente información: el % de mujeres del que no escriben
41
#ni leen (mujerxlee/totalxlee) % de varones que no escriben ni leen (homxlee/totalxlee) y % de
42
#nativos respecto al total de la población. Para el total de la población sumar (peruvian_men +
43
#peruvian_women + foreign_men + foreign_women)
44
45
# creación de la variable % de mujeres que no escriben ni leen
46
Region_Junin['% de mujeres del que no escriben ni leen'] = Region_Junin['mujerxlee']*100 / Region_Junin['totalxlee']
47
48
# creación de la variable % de varones que no escriben ni leen
49
Region_Junin['% de varones que no escriben ni leen'] = Region_Junin['homxlee']*100 / Region_Junin['totalxlee']
50
51
# Total de la población
52
Region_Junin <- read_excel("../data/Region_Junin.xlsx", col_names = T)
53
attach(Region_Junin)
54
Region_Junin['total de la población'] = Region_Junin['peruvian_men']+ Region_Junin['peruvian_women']+Region_Junin['foreign_men']+Region_Junin['foreign_women']
55
56
# Pregunta 7: Crear una base de datos con la siguiente información:
57
58
# a. Quedarse con la información de los distritos de Ciudad del Cerro, Jauja, Acolla, San Gerónimo, Tarma, Oroya y Concepción
59
60
attach(Region_Junin)
61
data_frame <-Region_Junin[District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "SAN JERÓNIMO", "TARMA", "OROYA", "CONCEPCIÓN"),]
62
63
#b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.
64
65
data_frame <- Region_Junin[Region_Junin$comunidad %in% c("nativos","mestizos"),]
66
67
#c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.
68
69
Region_Junin <- Region_Junin %>%
70
select(comunidad, District,% de mujeres que no escriben ni leen, % de varones que no escriben ni leen, `total de la población`) %>%
71
72
#d. Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(numero de grupo)
73
74
75
76
77
78
79