¿Cuándo usar regresión Poisson?

Cuando la variable dependiente es un conteo (entero no negativo) como número de visitas o eventos.

¿Cuál es el supuesto principal del modelo Poisson?

Que la media condicional y la varianza condicional sean iguales. Si la varianza es mayor, hay sobredispersión y conviene Binomial Negativa.

Ratios de tasas de incidencia: la exponencial de los coeficientes, indican el cambio proporcional en la tasa esperada por unidad adicional del regresor.

Modelo Poisson

Genera el código R (glm Poisson) o Stata (poisson) para estimar un modelo de regresión Poisson sobre datos de conteo.

Variable dependiente

Variables independientes

Fichero de datos

Incluir constante Corregir heterocedasticidad (errores robustos) Mostrar efectos marginales

¿Cuándo se usa el modelo Poisson?

Se usa cuando la variable dependiente es un conteo: número entero no negativo (0, 1, 2, 3...) como número de visitas al médico, hijos por familia, patentes solicitadas o accidentes laborales. Una regresión lineal sobre estos datos puede producir predicciones negativas y errores no normales; la regresión Poisson asume directamente esa estructura.

El supuesto clave

Poisson asume que la media y la varianza son iguales: E[Y|X] = Var[Y|X]. Esto rara vez se cumple en datos reales, donde lo habitual es la sobredispersión (varianza mayor que media). El código incluye un cálculo de dispersión para comprobarlo; si el ratio supera ~1.5, considera la Binomial Negativa.

Cómo interpretar los coeficientes

El modelo se especifica con un enlace logarítmico, por lo que exp(βⱼ) es el ratio de tasas de incidencia (IRR): el factor multiplicativo por el que cambia la tasa esperada de Y al aumentar una unidad el regresor j. Un IRR de 1.20 significa "un 20% más de eventos por unidad adicional del regresor".

La sintaxis generada, explicada

En R, se usa glm(y ~ x, family = poisson(link = "log")) y summary() muestra los resultados. En Stata, el comando es poisson y x; con vce(robust) los errores se vuelven robustos (recomendado en presencia de sobredispersión moderada). Los efectos marginales con margins, dydx(*) dan el cambio esperado en Y por unidad de regresor.

Errores frecuentes

Usar Poisson con sobredispersión fuerte. Los errores estándar quedan demasiado bajos; cambia a Binomial Negativa.
Datos con muchos ceros. Modelos zero-inflated (ZIP, ZINB) son más adecuados en esos casos.
Confundir IRR con cambios absolutos. Son cambios proporcionales en la tasa esperada.

Preguntas frecuentes

¿Poisson o Binomial Negativa? Si la varianza supera claramente a la media (sobredispersión), Binomial Negativa.

¿Qué es el IRR? El factor por el que se multiplica la tasa esperada de Y por cada unidad adicional del regresor.

¿Y con muchos ceros? Considera modelos zero-inflated o hurdle, no cubiertos aquí.