Modelo Poisson
Genera el código R (glm Poisson) o Stata (poisson) para estimar un modelo de regresión Poisson sobre datos de conteo.
¿Cuándo se usa el modelo Poisson?
Se usa cuando la variable dependiente es un conteo: número entero no negativo (0, 1, 2, 3...) como número de visitas al médico, hijos por familia, patentes solicitadas o accidentes laborales. Una regresión lineal sobre estos datos puede producir predicciones negativas y errores no normales; la regresión Poisson asume directamente esa estructura.
El supuesto clave
Poisson asume que la media y la varianza son iguales: E[Y|X] = Var[Y|X]. Esto rara vez se cumple en datos reales, donde lo habitual es la sobredispersión (varianza mayor que media). El código incluye un cálculo de dispersión para comprobarlo; si el ratio supera ~1.5, considera la Binomial Negativa.
Cómo interpretar los coeficientes
El modelo se especifica con un enlace logarítmico, por lo que exp(βⱼ) es el ratio de tasas de incidencia (IRR): el factor multiplicativo por el que cambia la tasa esperada de Y al aumentar una unidad el regresor j. Un IRR de 1.20 significa "un 20% más de eventos por unidad adicional del regresor".
La sintaxis generada, explicada
En R, se usa glm(y ~ x, family = poisson(link = "log")) y summary() muestra los resultados. En Stata, el comando es poisson y x; con vce(robust) los errores se vuelven robustos (recomendado en presencia de sobredispersión moderada). Los efectos marginales con margins, dydx(*) dan el cambio esperado en Y por unidad de regresor.
Errores frecuentes
- Usar Poisson con sobredispersión fuerte. Los errores estándar quedan demasiado bajos; cambia a Binomial Negativa.
- Datos con muchos ceros. Modelos zero-inflated (ZIP, ZINB) son más adecuados en esos casos.
- Confundir IRR con cambios absolutos. Son cambios proporcionales en la tasa esperada.
Preguntas frecuentes
¿Poisson o Binomial Negativa? Si la varianza supera claramente a la media (sobredispersión), Binomial Negativa.
¿Qué es el IRR? El factor por el que se multiplica la tasa esperada de Y por cada unidad adicional del regresor.
¿Y con muchos ceros? Considera modelos zero-inflated o hurdle, no cubiertos aquí.