Path: blob/master/site/es-419/probability/examples/Multilevel_Modeling_Primer.ipynb
25118 views
Copyright 2019 The TensorFlow Probability Authors.
Licensed under the Apache License, Version 2.0 (the "License");
Introducción al modelado multinivel en TensorFlow Probability
Este ejemplo se adaptó del bloc de notas de ejemplo de PyMC3 Introducción a los métodos bayesianos para el modelado multinivel
Dependencias y requisitos previos
1 Introducción
En este Colab, ajustaremos modelos lineales jerárquicos (HLM) de varios grados de complejidad mediante el uso del popular conjunto de datos Radón. Haremos uso de las primitivas de TFP y su conjunto de herramientas del método de Monte Carlo basado en cadenas de Markov.
Para ajustar mejor los datos, nuestro objetivo es hacer uso de la estructura jerárquica natural presente en el conjunto de datos. Comenzamos con enfoques convencionales: modelos completamente agrupados y no agrupados. Continuamos con modelos multinivel: exploramos modelos de agrupamiento parcial, predictores a nivel de grupo y efectos contextuales.
Para obtener un bloc de notas relacionado que también ajuste HLM con ayuda de TFP en el conjunto de datos de radón, consulte Regresión lineal de efectos mixtos en {TF Probability, R, Stan}.
Si tiene alguna pregunta sobre este material, no dude en comunicarse (o unirse) a la lista de correo de TensorFlow Probability. Estaremos encantados de ayudarle.
2 Descripción general del modelado multinivel
Introducción a los métodos bayesianos para el modelado multinivel
El modelado jerárquico o multinivel es una generalización del modelado de regresión.
Los modelos multinivel son modelos de regresión en los que los parámetros que constituyen el modelo reciben distribuciones de probabilidad. Esto implica que se permite que los parámetros del modelo varíen según el grupo. Las unidades de observación suelen estar agrupadas de forma natural. El agrupamiento induce dependencia entre observaciones, a pesar del muestreo aleatorio de clústeres y del muestreo aleatorio dentro de los clústeres.
Un modelo jerárquico es un modelo multinivel particular donde los parámetros se anidan unos dentro de otros. Algunas estructuras multinivel no son jerárquicas.
Por ejemplo, "país" y "año" no están anidados, pero pueden representar clústeres de parámetros separados, pero superpuestos. Fundamentaremos este tema con un ejemplo de epidemiología medioambiental.
Ejemplo: contaminación por radón (Gelman y Hill 2006)
El radón es un gas radiactivo que entra en los hogares a través de puntos de contacto con el suelo. Es un carcinógeno que constituye la principal causa de cáncer de pulmón en los no fumadores. Los niveles de radón varían mucho de un hogar a otro.
La EPA realizó un estudio de los niveles de radón en 80 000 casas. Dos predictores importantes son: 1. Medición en el sótano o en el primer piso (radón más alto en los sótanos) 2. Nivel de uranio del condado (correlación positiva con los niveles de radón)
Nos centraremos en el modelado de los niveles de radón en Minnesota. La jerarquía en este ejemplo son los hogares dentro de cada condado.
3 Manipulación de datos
En esta sección, obtenemos el conjunto de datosradon
y realizamos un preprocesamiento mínimo.
Distribución de los niveles de radón (escala logarítmica):
4 Enfoques convencionales
Las dos alternativas convencionales para modelar la exposición al radón representan los dos extremos del equilibrio entre sesgo y varianza:
Agrupamiento completo:
Trate a todos los condados por igual y calcule un único nivel de radón.
Sin agrupamiento:
Modelización del radón en cada condado de forma independiente.
Los errores pueden representar errores de medición, variaciones temporales dentro de las casas o variaciones entre casas.
A continuación, usamos el algoritmo hamiltoniano de Monte Carlo para ajustar el modelo de agrupamiento completo.
Trace las estimaciones puntuales de la pendiente y la intersección para el modelo de agrupamiento completo.
A continuación, estimamos los niveles de radón para cada condado en el modelo no agrupado.
Estos son los valores esperados del condado no agrupados para la intersección junto con intervalos de credibilidad del 95 % para cada cadena. También informamos el valor de R-hat para la estimación de cada condado.
Podemos trazar las estimaciones ordenadas para identificar condados con altos niveles de radón:
A continuación, se presentan comparaciones visuales entre las estimaciones agrupadas y las que no están agrupadas para un subconjunto de condados que representan una variedad de tamaños de muestra.
Ninguno de estos modelos resulta satisfactorio:
Si tratamos de identificar condados con alto contenido de radón, el agrupamiento no es útil.
No confiamos en estimaciones extremas no agrupadas producidas por modelos que usan pocas observaciones.
5 Modelos multinivel y jerárquicos
Cuando agrupamos nuestros datos, perdemos la información de que diferentes puntos de datos provienen de diferentes condados. Esto significa que cada observación del nivel de radon
se toma de la misma distribución de probabilidad. Un modelo de este tipo no logra aprender ninguna variación en la unidad de muestreo que sea inherente dentro de un grupo (por ejemplo, un condado). Solo tiene en cuenta la varianza muestral.
Al analizar datos no agrupados, implicamos que se muestrean de forma independiente a partir de modelos individuales. En el extremo opuesto del caso agrupado, este enfoque afirma que las diferencias entre las unidades de muestreo son demasiado grandes para combinarlas:
En un modelo jerárquico, los parámetros se ven como una muestra de una distribución poblacional de parámetros. Por lo tanto, se considera que no son ni totalmente diferentes ni exactamente iguales. Esto se conoce como agrupamiento parcial.
5.1 Agrupamiento parcial
El modelo de agrupamiento parcial más simple para el conjunto de datos sobre radón doméstico es aquel que simplemente estima los niveles de radón, sin ningún predictor ni a nivel de grupo ni de individuo. Un ejemplo de predictor a nivel individual es si el punto de datos proviene del sótano o del primer piso. Un predictor a nivel de grupo puede ser el nivel medio de uranio en todo el condado.
Un modelo de agrupamiento parcial representa un compromiso entre los extremos agrupados y no agrupados, aproximadamente una media ponderada (según el tamaño de la muestra) de las estimaciones no agrupadas y agrupadas de los condados.
Supongamos que es el nivel estimado de log-radon en el condado . Es solo una intersección; ignoramos las pendientes por ahora. es el número de observaciones del condado . y son la varianza dentro del parámetro y la varianza muestral, respectivamente. Entonces, un modelo de agrupamiento parcial podría plantear lo siguiente:
A la hora de usar el agrupamiento parcial, esperamos lo siguiente:
Las estimaciones de los condados con tamaños de muestra más pequeños se reducirán hacia el promedio estatal.
Las estimaciones de los condados con tamaños de muestra más grandes se acercarán más a las estimaciones de los condados no agrupados.
Observe la diferencia entre las estimaciones no agrupadas y las parcialmente agrupadas, sobre todo en tamaños de muestra más pequeños. Los primeros son más extremos e imprecisos.
5.2 Intersecciones variables
Consideremos ahora un modelo más complejo que permite que las intersecciones varíen de un condado a otro, según un efecto aleatorio.
La pendiente , que permite variar la observación según el lugar de medición (sótano o primer piso), sigue siendo un efecto fijo que comparten diferentes condados.
Al igual que con el modelo sin agrupamiento, establecimos una intersección separada para cada condado, pero en lugar de ajustar modelos de regresión de mínimos cuadrados separados para cada condado, el modelado multinivel comparte puntos fuertes entre los condados, lo que permite una inferencia más razonable en condados con pocos datos.
La estimación del coeficiente de suelo es aproximadamente -0.69, lo que puede interpretarse como que las casas sin sótanos tienen aproximadamente la mitad () de los niveles de radón de aquellas con sótanos, una vez tenidos en cuenta los condados.
5.3 Pendientes variables
Alternativamente, podemos plantear un modelo que permita que los condados varíen en función de la influencia de la ubicación de la medición (sótano o primer piso) en la lectura del radón. En este caso, la intersección se comparte entre los condados.
5.4 Intersecciones y pendientes variables
El modelo más general permite que tanto la intersección como la pendiente varíen en función del condado:
6 Incorporación de predictores a nivel de grupo
Uno de los principales puntos fuertes de los modelos multinivel es la capacidad de manejar predictores en múltiples niveles y de forma simultánea. Si consideramos el modelo de intersecciones variables anterior:
\sigma_{\alpha}^2)$$ Por lo tanto, ahora estamos incorporando un predictor a nivel de casa (piso o sótano), así como un predictor a nivel de condado (uranio).
Tenga en cuenta que el modelo tiene ambas variables indicadoras para cada condado, más una covariable a nivel de condado. En la regresión clásica, esto daría como resultado colinealidad. Esto se evita en un modelo multinivel mediante el agrupamiento parcial de las intersecciones con el valor esperado del modelo lineal a nivel de grupo.
Los predictores a nivel de grupo también sirven para reducir la variación a nivel de grupo . Una implicación importante de esto es que la estimación a nivel de grupo induce un agrupamiento más sólido.
Los errores estándar en las intersecciones son más estrechos que los del modelo de agrupamiento parcial sin una covariable a nivel de condado.
6.2 Correlaciones entre niveles
En algunos casos, tener predictores en múltiples niveles puede revelar una correlación entre las variables a nivel individual y los residuos de grupo. Podemos explicar esto incluyendo el promedio de los predictores individuales como covariable en el modelo para la intersección grupal.
Entonces, a partir de esto, podríamos inferir que los condados con mayores proporciones de casas sin sótanos tienden a tener niveles de base más altos de radón. Quizás esto esté relacionado con el tipo de suelo, que a su vez podría influir en el tipo de estructuras que se construyen.
6.3 Predicción
Gelman (2006) usó pruebas de validación cruzada para comprobar el error de predicción de los modelos no agrupados, agrupados y parcialmente agrupados.
Errores de predicción de validación cruzada cuadrática media:
no agrupado = 0.86
agrupado = 0.84
multinivel = 0.79
Hay dos tipos de predicción que se pueden hacer a partir de un modelo multinivel:
Un nuevo individuo dentro de un grupo existente.
Un nuevo individuo dentro de un nuevo grupo.
Por ejemplo, si quisiéramos hacer una predicción para una casa nueva sin sótano en el condado de St. Louis, solo tenemos que tomar una muestra del modelo de radón con la intersección adecuada.
Es decir,
7 Conclusiones
Beneficios de los modelos multinivel:
Contabilización de la estructura jerárquica natural de los datos de observación.
Estimación de coeficientes para grupos (infrarrepresentados).
Incorporación de información a nivel individual y grupal al momento de estimar coeficientes a nivel grupal.
Aceptación de la variación entre los coeficientes a nivel individual entre grupos.
Referencias
Gelman, A., & Hill, J. (2006). Data Analysis Using Regression and Multilevel/Hierarchical Models (1st ed.). Cambridge University Press.
Gelman, A. (2006). Multilevel (Hierarchical) modeling: what it can and cannot do. Technometrics, 48(3), 432–435.