¿Debo usar Jarque-Bera o Shapiro-Wilk?

Shapiro-Wilk es preferible en muestras pequeñas; Jarque-Bera es muy habitual en econometría. Ambos contrastan la normalidad.

¿Es obligatoria la normalidad de los residuos?

Ayuda a que la inferencia sea exacta en muestras pequeñas. En muestras grandes pierde importancia por el Teorema Central del Límite.

Contraste de normalidad

Genera el código R o Stata para contrastar la normalidad de los residuos (Jarque-Bera y Shapiro-Wilk).

Variable dependiente

Variables independientes

Fichero de datos

Incluir constante

¿Por qué contrastar la normalidad de los residuos?

Los contrastes t y F de la regresión por MCO son exactos en muestras pequeñas solo si los errores siguen una distribución normal. Por eso, al validar un modelo, interesa comprobar si los residuos se alejan demasiado de la normalidad. En muestras grandes el Teorema Central del Límite suaviza este requisito, de modo que la normalidad es más crítica cuando se trabaja con pocos datos.

Conviene recordar que el contraste se aplica sobre los residuos del modelo, no sobre las variables originales. Una falta grave de normalidad puede ser, además, una pista de valores atípicos o de una forma funcional mal elegida.

Jarque-Bera y Shapiro-Wilk

El contraste de Jarque-Bera se basa en la asimetría y la curtosis de los residuos: bajo normalidad, la asimetría debería ser cercana a 0 y la curtosis a 3. El contraste de Shapiro-Wilk es especialmente potente en muestras pequeñas. En ambos, la hipótesis nula es que los residuos son normales, así que un p-valor bajo (por debajo de 0,05) lleva a rechazar la normalidad.

La sintaxis generada, explicada

En R, tras estimar el modelo con lm(), se extraen los residuos con residuals(); jarque.bera.test() (del paquete tseries) y shapiro.test() (de base R) hacen el resto. En Stata, tras regress se guardan los residuos con predict residuos, residuals y se aplican sktest (test de asimetría y curtosis, en la línea de Jarque-Bera) y swilk (Shapiro-Wilk).

Qué hacer si los residuos no son normales

Algunas opciones: transformar la variable dependiente (por ejemplo con logaritmos), revisar y tratar los valores atípicos, reconsiderar la forma funcional, o apoyarse en que con muestras suficientemente grandes la inferencia sigue siendo aproximadamente válida.

Errores frecuentes

Contrastar las variables en vez de los residuos. El supuesto es sobre el error del modelo.
Olvidar guardar los residuos en Stata. Hay que ejecutar predict antes de los tests.
Sobreinterpretar en muestras grandes. Con muchos datos casi cualquier desviación resulta significativa, aunque sea irrelevante en la práctica.

Preguntas frecuentes

¿Jarque-Bera o Shapiro-Wilk? Shapiro-Wilk es preferible en muestras pequeñas; Jarque-Bera es muy común en econometría.

¿Es obligatoria la normalidad? Para inferencia exacta en muestras pequeñas, sí ayuda; en muestras grandes pierde importancia.

¿Sobre qué se aplican estos tests? Sobre los residuos del modelo estimado, no sobre las variables sin más.