Book a Demo!
CoCalc Logo Icon
StoreFeaturesDocsShareSupportNewsAboutPoliciesSign UpSign In
robertopucp
GitHub Repository: robertopucp/1eco35_2022_2
Path: blob/main/Trabajo_grupal/WG7/Grupo5_W7_py.py
2714 views
1
# -*- coding: utf-8 -*-
2
"""
3
Created on Sat Nov 5 03:27:12 2022
4
5
@author: Fernando Guerrero
6
"""
7
8
import pandas as pd
9
import numpy as np
10
import re # for regular expressions (REGEX)
11
import os # for directorio
12
import swifter # for parallel procesing
13
import unidecode # to drop tildes
14
from datetime import datetime # library for time
15
16
user=os.getlogin() #username
17
os.chdir(f"D:/Users/{user}/Documents/GitHub/1ECO35_2022_2/data/crime_data")
18
data = pd.read_excel("data_administrativa.xlsx")
19
data
20
21
#%% Punto 1
22
#Convertimos el nombre de las variables a miníscula
23
data.columns = map(str.lower, data.columns)
24
25
#%% Punto 2
26
data['nombre'] = data['nombre'].apply(lambda x: re.sub('[^a-zA-Z\s]','',x))
27
#%% Punto 3 (Identificamos correctamente la fecha)
28
data.born_date = data.born_date.str.replace ("[^0-9]\W+","")
29
data['born_date'] = pd.to_datetime(data['born_date']).dt.date
30
#%% Punto 4
31
32
data['age1'] = data['age'].apply(lambda x: re.sub('\D','',str(x)))
33
34
data['borndate2'] = data['born_date'].apply(lambda x: re.sub('(:00:00)|(!%&)|(00/00/00)','',x))
35
#%% Punto 5
36
df = pd.DataFrame({'rank': ['líder de la banda criminal', 'cabecilla local', 'cabecilla regional', 'sicario', 'extorsión', 'regular', 'novato'],
37
})
38
pd.get_dummies(df)
39
#%% Punto 7
40
data['correo_abogado'] = data['correo_abogado'].apply(lambda x: re.sub('@.+','',x))
41
#%% Punto 8
42
data['dni'] = data['dni'].apply(lambda x: re.sub('\dni es','',x))
43
44