Path: blob/main/Trabajo_grupal/WG8/Grupo_3_py_Ejercicio4.py
2714 views
#!/usr/bin/env python1# coding: utf-823# ### Pregunta 4: En un gráfico, muestre el diagrama de cajas (box - plot) del logaritmo del salario por hora de las personas con el mayor nivel educativo (ad) según genero. Nótese que el gráfico debe contener dos box-plot uno para los hombres y otro para las mujeres.45# In[5]:678#Importamos las librerías que vamos a utilizar:910import pandas as pd1112import pyreadr1314import math1516import matplotlib.pyplot as plt1718import numpy as np1920import seaborn as sns212223# In[6]:242526# De esta manera abrimos una base de datos que esta en formato R en Python:2728result = pyreadr.read_r("/Users/diegoyeliseo/Desktop/Archivo R Tarea 8/wage2015_subsample_inference.Rdata")293031print(result.keys())3233# Para poder mostrar la base de datos:3435data = result["data"]3637print(data)383940# In[7]:414243result.keys()4445# Estamos diciendo que result1 va a ser igual a mi base de datos inicial:4647result1 = result['data']4849result1 = result1[["wage", "lwage", "sex" ,50"exp1", "exp2" ,"exp3" ,"exp4", "shs",51"hsg", "scl", "clg" , "ad"]]525354# In[8]:555657result2 = result1[result1['ad'] == 1]5859fig, ax = plt.subplots(figsize=(10,6)) # Este código se usa para elegir el tamaño de la caja.6061box = sns.boxplot(x='sex', y='lwage', data = result2 ,palette='rainbow')6263plt.xlabel('Sexo de la persona') # Código para que el eje x reciba el nombre de Sexo de la persona6465plt.ylabel('Log del salario por hora') # Código para que el eje y reciba el nombre de Logaritmo del salario por hora6667(box.set_xticklabels(["Hombre", "Mujer"])) # Código que nos permite poner nombre a las etiquetas del eje x. En este caso, las etiquetas son hombre y mujer.6869# Del plot box anterior, podemos notar que la mediana para los hombres está en aproximadamente 3.5. El máximo ingreso (en logaritmos) estaría cerca a las 5 unidades y existe presencia de 2 outliners por encima de dicha cantidad. Asimismo, el ingreso mínimo estaría en 2 unidades pero con presencia de varios outliners que llegan cerca a la unidad. Por otro lado, en el caso de las mujeres, la mediana se acerca más a las 3 unidades mientras que el salario máximo esta por las 4.5 unidades con presencia de outliners; el salario mínimo esta por encima del de los hombres.Encontramos simetría en los datos.7071