Path: blob/main/Trabajo_grupal/WG7/Grupo_4_r.R
2714 views
%>% ############################################################################1# #2# TAREA 7 - GRUPO 4 #3# #4################################################################################56# Flavia Oré - 201912157# Seidy Ascencios - 201916228# Luana Morales - 201912409# Marcela Quintero - 20191445101112#------------------------------------------------------------------------------#13# #14# PREGUNTA 1 #15# #16#------------------------------------------------------------------------------#1718#Recursos necesarios para la pregunta19pacman::p_load(haven,dplyr, stringr, fastDummies,srvyr )2021library(readxl)22library(stringr)23library(haven)24library(dplyr)25library(tidyverse)26library (reshape)2728#Seteamos el directorio2930user <- Sys.getenv("USERNAME")3132setwd( paste0("C:/Users/",user,"/Documents/GitHub/1ECO35_2022_2/data/crime_data") )3334data_administrativa <- read_excel("data_administrativa.xlsx")3536sapply(data_administrativa, typeof)3738apply(data_administrativa , 2, function(x) sum(is.na(x)))3940#Covertimos el nombre de las variables en minusculas4142colnames(data_administrativa) <- tolower(colnames(data_administrativa))434445#------------------------------------------------------------------------------#46# #47# PREGUNTA 2 #48# #49#------------------------------------------------------------------------------#5051#Limpiamos la columna nombre5253data_administrativa$nombre<- apply(data_administrativa['nombre'],541 ,55function(x) str_replace(x,"[^a-zA-Z\\s]+",''))5657#------------------------------------------------------------------------------#58# #59# PREGUNTA 3 #60# #61#------------------------------------------------------------------------------#6263#Limpiamos la fecha de nacimiento de aquellos elementos que la ensucien6465data_administrativa$born_date<- apply(data_administrativa['born_date'],661 ,67function(x) str_replace(x,"(00:00)|(!)|(#)|(%)",''))6869#Creamos la nueva variable en formato fecha7071data_administrativa$fecha_nacimiento <-as.Date(data_administrativa$born_date,format='%d/%m/%Y')7273#------------------------------------------------------------------------------#74# #75# PREGUNTA 4 #76# #77#------------------------------------------------------------------------------#7879# Limpiamos la columna age80data_administrativa$age <- apply(data_administrativa['age'],811 ,82function(x) gsub("[^0-9]", '', x))8384#------------------------------------------------------------------------------#85# #86# PREGUNTA 5 #87# #88#------------------------------------------------------------------------------#8990#Creamos dummies según el rango del sentenciado en la organización criminal9192#dum1: toma el valor de 1 si el sentenciado fue líder de la banda criminal93#dum2: toma el valor de 1 si el sentenciado fue cabecilla local94#dum3: toma el valor de 1 si el sentenciado fue cabecilla regional95#dum4: toma el valor de 1 si el sentenciado fue sicario96#dum5: toma el valor de 1 si el sentenciado realizó extorsión97#dum6: toma el valor de 1 si el sentenciado fue miembro regular98#dum7: toma el valor de 1 si el sentenciado fue novato o principiante99100#Limpiamos la variable novate y extorsion101102data_administrativa$rank<- apply(data_administrativa['rank'],1031 ,104function(x) str_replace(x,"(novto)|(noato)|(principiante)",'novato'))105106data_administrativa$rank<- apply(data_administrativa['rank'],1071 ,108function(x) str_replace(x,"(extorcionador)",'extorsion'))109#Creamos las variables dummies110111data_administrativa$dum1 <- ifelse(data_administrativa$rank == 'lider de la banda criminal', 1, 0)112data_administrativa$dum2 <- ifelse(data_administrativa$rank == 'cabecilla local', 1, 0)113data_administrativa$dum3 <- ifelse(data_administrativa$rank == 'cabecilla regional', 1, 0)114data_administrativa$dum4 <- ifelse(data_administrativa$rank == 'sicario', 1, 0)115data_administrativa$dum5 <- ifelse(data_administrativa$rank == 'extorsion', 1, 0)116data_administrativa$dum6 <- ifelse(data_administrativa$rank == 'miembro', 1, 0)117data_administrativa$dum7 <- ifelse(data_administrativa$rank == 'novato', 1, 0)118119#------------------------------------------------------------------------------#120# #121# PREGUNTA 7 #122# #123#------------------------------------------------------------------------------#124125#Extraemos el usuario del número de correos126127data_admi$correo_abogado <- apply(data_administrativa['correo_abogado'],1281 ,129function(x) str_extract(x,"[\\w+)\\@\\.*]"))130#------------------------------------------------------------------------------#131# #132# PREGUNTA 8 #133# #134#------------------------------------------------------------------------------#135136#Creamos una columna con información del dni137data_administrativa$dni <- apply(data_administrativa['dni'],1381 ,139function(x) str_replace(x,"(dni es)", ''))140#------------------------------------------------------------------------------#141# #142# PREGUNTA 9 #143# #144#------------------------------------------------------------------------------#145146# Creamos las siguientes variables147148#crimen: debe contener información del delito cometido149#n_hijos: cantidad de hijos del criminal150#edad_inicio : edad de inicio en actividades criminales151152#Creamos la variable crimen153154data_administrativa$crimen <- data_administrativa$observaciones |> str_extract("(?<= por )[^\\d\\:]+")155156data_administrativa$crimen <- apply(data_administrativa['crimen'],1571 ,158function(x) str_replace(x,"(tiene)|(dice tener)|(inio de actividades ilegales) |(,)", ''))159160#Creamos la variable número de hijos del criminal161162data_administrativa$n_hijos <- data_administrativa$observaciones |> str_extract("(?<=tiene )[\\d+\\:]+")163164#Creamos la variable inicio en actividades criminales165166data_administrativa$edad_inicio <- data_administrativa$observaciones |> str_extract("[\\d+\\:]+(?= años)")167168169