Modelo Heckman (selección muestral)
Genera el código R (sampleSelection::heckit) o Stata (heckman) para corregir el sesgo de selección muestral con el método de Heckman.
¿Para qué sirve el Heckman?
El modelo de Heckman corrige el sesgo de selección muestral: cuando observamos la variable dependiente solo para una submuestra no aleatoria, las estimaciones por MCO sobre esa submuestra son sesgadas. El ejemplo clásico es el salario: solo lo observamos para quienes trabajan, y trabajar no es una decisión aleatoria.
Cómo funciona: dos ecuaciones
El modelo combina dos ecuaciones:
- Una ecuación de selección (típicamente un Probit) que explica si el individuo entra en la muestra observada.
- Una ecuación de interés (regresión lineal) sobre la variable dependiente, condicionada a que se observe.
El truco está en incluir en la ecuación de interés el ratio inverso de Mills calculado de la de selección. Ese término absorbe el sesgo.
El requisito de identificación
Para una identificación correcta, la ecuación de selección debería incluir al menos un regresor que no esté en la ecuación de interés (una "exclusión"). Sin esa exclusión, la identificación descansa solo en la no linealidad y el modelo es frágil. Piensa cuidadosamente qué variables encajan únicamente en la ecuación de selección.
La sintaxis generada, explicada
En R, heckit() del paquete sampleSelection recibe dos fórmulas: selection y outcome. En Stata, heckman estima por máxima verosimilitud usando la opción select() con la ecuación de selección. El código asume que tienes una variable seleccion (1 si se observa la dependiente, 0 si no); adáptala a tu dataset.
Errores frecuentes
- No incluir variables exclusivas de selección. El modelo queda mal identificado.
- Confundir Heckman con Tobit. Tobit asume censura; Heckman, no observación.
- Muestra de selección muy pequeña. Sin suficiente variación en la decisión de selección, el modelo no funciona bien.
Preguntas frecuentes
¿Cuándo aplicarlo? Cuando la dependiente se observa solo para una submuestra no aleatoria.
¿Qué variables van en la selección? Las que afectan a la decisión de observar; idealmente, alguna que no esté en la ecuación de interés.
¿Por qué dos etapas? La primera estima la probabilidad de selección; la segunda corrige por ella.