¿Para qué sirve el modelo Heckman?

Para corregir el sesgo de selección muestral cuando la variable dependiente solo se observa en una submuestra no aleatoria.

¿Qué variables debe incluir la ecuación de selección?

Variables que expliquen la decisión de observar la dependiente, e idealmente al menos una que no aparezca en la ecuación de interés.

¿En qué se diferencia del Tobit?

Tobit asume ceros por censura; Heckman, ceros por no observación derivada de un proceso de selección.

Modelo Heckman (selección muestral)

Genera el código R (sampleSelection::heckit) o Stata (heckman) para corregir el sesgo de selección muestral con el método de Heckman.

Variable dependiente

Variables independientes

Fichero de datos Ecuación de selección (regresores, separados por +)

¿Para qué sirve el Heckman?

El modelo de Heckman corrige el sesgo de selección muestral: cuando observamos la variable dependiente solo para una submuestra no aleatoria, las estimaciones por MCO sobre esa submuestra son sesgadas. El ejemplo clásico es el salario: solo lo observamos para quienes trabajan, y trabajar no es una decisión aleatoria.

Cómo funciona: dos ecuaciones

El modelo combina dos ecuaciones:

Una ecuación de selección (típicamente un Probit) que explica si el individuo entra en la muestra observada.
Una ecuación de interés (regresión lineal) sobre la variable dependiente, condicionada a que se observe.

El truco está en incluir en la ecuación de interés el ratio inverso de Mills calculado de la de selección. Ese término absorbe el sesgo.

El requisito de identificación

Para una identificación correcta, la ecuación de selección debería incluir al menos un regresor que no esté en la ecuación de interés (una "exclusión"). Sin esa exclusión, la identificación descansa solo en la no linealidad y el modelo es frágil. Piensa cuidadosamente qué variables encajan únicamente en la ecuación de selección.

La sintaxis generada, explicada

En R, heckit() del paquete sampleSelection recibe dos fórmulas: selection y outcome. En Stata, heckman estima por máxima verosimilitud usando la opción select() con la ecuación de selección. El código asume que tienes una variable seleccion (1 si se observa la dependiente, 0 si no); adáptala a tu dataset.

Errores frecuentes

No incluir variables exclusivas de selección. El modelo queda mal identificado.
Confundir Heckman con Tobit. Tobit asume censura; Heckman, no observación.
Muestra de selección muy pequeña. Sin suficiente variación en la decisión de selección, el modelo no funciona bien.

Preguntas frecuentes

¿Cuándo aplicarlo? Cuando la dependiente se observa solo para una submuestra no aleatoria.

¿Qué variables van en la selección? Las que afectan a la decisión de observar; idealmente, alguna que no esté en la ecuación de interés.

¿Por qué dos etapas? La primera estima la probabilidad de selección; la segunda corrige por ella.