Econ·Script

Modelo Heckman (selección muestral)

Genera el código R (sampleSelection::heckit) o Stata (heckman) para corregir el sesgo de selección muestral con el método de Heckman.

Espacio publicitario
Variables independientes
Espacio publicitario

¿Para qué sirve el Heckman?

El modelo de Heckman corrige el sesgo de selección muestral: cuando observamos la variable dependiente solo para una submuestra no aleatoria, las estimaciones por MCO sobre esa submuestra son sesgadas. El ejemplo clásico es el salario: solo lo observamos para quienes trabajan, y trabajar no es una decisión aleatoria.

Cómo funciona: dos ecuaciones

El modelo combina dos ecuaciones:

El truco está en incluir en la ecuación de interés el ratio inverso de Mills calculado de la de selección. Ese término absorbe el sesgo.

El requisito de identificación

Para una identificación correcta, la ecuación de selección debería incluir al menos un regresor que no esté en la ecuación de interés (una "exclusión"). Sin esa exclusión, la identificación descansa solo en la no linealidad y el modelo es frágil. Piensa cuidadosamente qué variables encajan únicamente en la ecuación de selección.

La sintaxis generada, explicada

En R, heckit() del paquete sampleSelection recibe dos fórmulas: selection y outcome. En Stata, heckman estima por máxima verosimilitud usando la opción select() con la ecuación de selección. El código asume que tienes una variable seleccion (1 si se observa la dependiente, 0 si no); adáptala a tu dataset.

Errores frecuentes

Preguntas frecuentes

¿Cuándo aplicarlo? Cuando la dependiente se observa solo para una submuestra no aleatoria.

¿Qué variables van en la selección? Las que afectan a la decisión de observar; idealmente, alguna que no esté en la ecuación de interés.

¿Por qué dos etapas? La primera estima la probabilidad de selección; la segunda corrige por ella.