Path: blob/main/Trabajo_grupal/WG7/Grupo5_W7_py.py
2714 views
# -*- coding: utf-8 -*-1"""2Created on Sat Nov 5 03:27:12 202234@author: Fernando Guerrero5"""67import pandas as pd8import numpy as np9import re # for regular expressions (REGEX)10import os # for directorio11import swifter # for parallel procesing12import unidecode # to drop tildes13from datetime import datetime # library for time1415user=os.getlogin() #username16os.chdir(f"D:/Users/{user}/Documents/GitHub/1ECO35_2022_2/data/crime_data")17data = pd.read_excel("data_administrativa.xlsx")18data1920#%% Punto 121#Convertimos el nombre de las variables a miníscula22data.columns = map(str.lower, data.columns)2324#%% Punto 225data['nombre'] = data['nombre'].apply(lambda x: re.sub('[^a-zA-Z\s]','',x))26#%% Punto 3 (Identificamos correctamente la fecha)27data.born_date = data.born_date.str.replace ("[^0-9]\W+","")28data['born_date'] = pd.to_datetime(data['born_date']).dt.date29#%% Punto 43031data['age1'] = data['age'].apply(lambda x: re.sub('\D','',str(x)))3233data['borndate2'] = data['born_date'].apply(lambda x: re.sub('(:00:00)|(!%&)|(00/00/00)','',x))34#%% Punto 535df = pd.DataFrame({'rank': ['líder de la banda criminal', 'cabecilla local', 'cabecilla regional', 'sicario', 'extorsión', 'regular', 'novato'],36})37pd.get_dummies(df)38#%% Punto 739data['correo_abogado'] = data['correo_abogado'].apply(lambda x: re.sub('@.+','',x))40#%% Punto 841data['dni'] = data['dni'].apply(lambda x: re.sub('\dni es','',x))424344