CoCalc -- Grupo_7

GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG2/Grupo_7_r.R
⁴⁶⁸⁶ views
1
library(dplyr)  # librer�a de limpieza de datos
2
library(tidyr)  # librer�a de limpieza de datos
3
library(readxl) # librer�a para subir archivos excel, csv
4

5
## Adaptamos el directorio
6
user <- Sys.getenv("USERNAME")  # username
7
print(user)
8
setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/Lab3") ) # set directorio
9
junin_data <- read_excel("../data/Region_Junin.xlsx")
10

11

12
###############################
13
### Exploring a DataFrame  ####
14
###############################
15

16

17
#-----------------------------------------------------------------------
18
# 1. Obtener el nombre de todas las variables. 
19

20
names(junin_data)
21

22
#-----------------------------------------------------------------------
23
# 2. Mostrar el tipo de variables (type) as� como presentar los principales estad�sticos.
24

25
str(junin_data)     # Se observa que todas las variables son num�ricas a excepci�n de Region, Distric y Place que son character
26

27

28
#-----------------------------------------------------------------------
29
# 3. Verifique si las columnas presentan missing values.
30

31
unique(junin_data)     # muestra los valores �nicos por cada columna
32

33
sum(is.na(junin_data)) # total de missing values en el dataframe
34

35
junin_data2 <- junin_data %>% drop_na()  # creando nueva base sin missing values
36

37

38
#-----------------------------------------------------------------------
39
# 4. Cambie el nombre de las siguientes variables:
40

41
junin_data2 <- junin_data2 %>% rename(comunidad = Place,
42
                                      homxlee = men_not_read,
43
                                      mujerxlee = women_not_read,
44
                                      totalxlee = total_not_read)  # nombre nuevo =  nombre antiguo
45

46

47
#----------------------------------------------------------------------------
48
# 5. Valores �nicos de las siguientes variables ( comunidad , District)
49

50
# mostrar valores únicos de ambas variables
51

52
unique(junin_data2$comunidad)
53
unique(junin_data2$District)
54

55

56

57
#----------------------------------------------------------------------------
58

59
# 6. Crear columnas con la siguiente informaci�n
60

61
# Unimos las columnas de una vez al dataframe total
62

63
junin_data2$mujer_noescribenilee <- junin_data2$mujerxlee / junin_data2$totalxlee
64
junin_data2$hombre_noescribenilee <- junin_data2$homxlee  / junin_data2$totalxlee
65
junin_data2$nativos_total  <- junin_data2$natives / (junin_data2$peruvian_men + junin_data2$peruvian_women + junin_data2$foreign_men + junin_data2$foreign_women)
66

67

68

69
#-----------------------------------------------------------------------
70
# 7. Cambie el nombre de las siguientes variables:
71

72
# a. Quedarse con la informaci�n de los distritos de Ciudad del Cerro, Jauja, Acolla, San Ger�nimo, Tarma, Oroya y Concepci�n
73

74
unique(junin_data2$District)   # para obtener los verdaderos nombres de los distritos
75

76
junin_data3 <- junin_data2 %>% filter( District %in% c("CIUDAD DEL CERRO", "JAUJA", "ACOLLA", "SAN GER�NIMO", "TARMA", "OROYA", "CONCEPCI�N"))
77

78
# b. Luego quedarse con las comunidades que cuentan con nativos y mestizos.
79

80
names(junin_data3)   # para ver el nombre de las variables
81
                     # vemos que los nombres son "whites" y "natives"
82

83
junin_data3 <- junin_data3 %>% filter( natives > 0  &  mestizos > 0 )
84

85
# c. Solo quedarse con las variables trabajadas en el punto 6), nombre de distrito y comunidad.
86

87
junin_data3 <- junin_data3[ , c('mujer_noescribenilee', 'hombre_noescribenilee', 'nativos_total', 'District', 'comunidad')]
88

89
# d. Guardar la base de datos en formato csv en la carpeta data. (Use el siguiente nombre Base_cleaned_WG(numero de grupo)
90

91
write.csv(junin_data3, '../data/Base_cleaned_WG7.csv')
92

93

94

95
Product

Resources

Company