Anda di halaman 1dari 12

9 Sobreajuste (Overfitting)

El sobreajuste es un problema usual en el análisis estadístico y en particular en la econometría.


Resulta realmente extraña la escasa cobertura que se tiene de este fenómeno en los textos
tradicionales de econometría debido a la trascendencia que puede tener. El sobreajuste es un
problema con el que se debe convivir en todas las áreas de la estadística, no siendo exclusivo
de la macroeconometría. Veamos un ejemplo para ir entendiendo este fenómeno.

9.1 Un Ejemplo
Consideremos el siguiente Proceso Generador de Datos (DGP por sus siglas en inglés: Data
Generating Process)
Yt+1 = α + ρYt + εt+1 (4)
con {εt }t=∞
t=−∞ ruido blanco y 0 < ρ < 1. Es decir este proceso es un simple AR(1) estacionario.
Supongamos además que

V(εt ) ≡ σ 2 = 1
ρ = 0.5
α = 0.5

Notemos que
V(Yt+1 ) = V(α) + ρ2 V(Yt ) + V(εt+1 )
Como el proceso es estacionario tendremos que

V(Yt+1 ) = V(Yt )

De donde se desprende que


V(εt+1 ) σ2 1 1
V(Yt+1 ) = 2
= 2
= =
1−ρ 1−ρ 1 − 0.25 0.75
De esto se deduce que
0.25
ρ2 V(Yt ) =
0.75
luego, el porcentaje de varianza explicada por ρYt corresponde a
0.25
0.75
V ar Explicada = 1 = 25%
0.75

Si hiciéramos una regresión entre Yt+1 y Yt incluyendo además un término constante, prob-
ablemente esperaríamos encontrar un coeficiente de determinación R2 cercano a este valor.
Adicionalmente esperaríamos encontrar estimaciones de la constante y del parámetro autor-
regresivo cercanos a 0.5, que son sus verdaderos valores.

En lo que sigue mostraremos los resultados de una regresión lineal entre Yt+1 y Yt in-
cluyendo además un término constante, utilizando 50 datos para Yt artificialmente generados
en un computador a partir de un ruido blanco {εt }t=∞
t=−∞ independiente y gaussiano.

73
Regresión Alternativa 1
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 02:32
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)

Variable Coefficient Std. Error t-Statistic Prob.

C 0.619629 0.158862 3.900428 0.0003


Y1(-1) 0.499772 0.079465 6.289203 0.0000

R-squared 0.257014 Mean dependent var 1.189340


Adjusted R-squared 0.241206 S.D. dependent var 1.363523
S.E. of regression 1.187748 Akaike info criterion 3.221956
Sum squared resid 66.30508 Schwarz criterion 3.299173
Log likelihood -76.93792 Hannan-Quinn criter. 3.251252
F-statistic 16.25825 Durbin-Watson stat 1.851916
Prob(F-statistic) 0.000201 Wald F-statistic 39.55407
Prob(Wald F-statistic) 0.000000

Podemos apreciar que nuestras conjeturas parecen confirmadas (con cierto grado de error
atribuíble a muestra pequeña) con la regresión anterior. Tanto el coeficiente de determinación
como los parámetros estimados se parecen bastante a los valores reales o poblacionales del
proceso en (4).

Utilizando el computador procederemos a generar 50 observaciones provenientes de los


siguientes procesos generadores de datos:

X1t+1 = 0.5X1t + u1t+1 (5)


X2t+1 = 0.5X2t + u2t+1 (6)
X3t+1 = 0.5X3t + u3t+1 (7)
(8)
X10t+1 = 0.5X10t + u10t+1 (9)

con {uit }t=∞


t=−∞ ruidos blanco independientes y gaussianos de varianza unitaria, que son
además independientes entre sí, para todo i = 1, 2, ..., 10.

En otras palabras, estas 10 variables Xit son independientes entre sí e independientes de


Yt . Consideremos ahora las siguientes regresiones:

74
Regresión Alternativa 2
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:20
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)

Variable Coefficient Std. Error t-Statistic Prob.

C 0.714900 0.192939 3.705323 0.0006


Y1L 0.368398 0.092848 3.967763 0.0003
X3 -0.268993 0.118538 -2.269255 0.0280

R-squared 0.303240 Mean dependent var 1.189340


Adjusted R-squared 0.272946 S.D. dependent var 1.363523
S.E. of regression 1.162641 Akaike info criterion 3.198536
Sum squared resid 62.17979 Schwarz criterion 3.314361
Log likelihood -75.36413 Hannan-Quinn criter. 3.242480
F-statistic 10.00994 Durbin-Watson stat 1.770429
Prob(F-statistic) 0.000246 Wald F-statistic 29.08253
Prob(Wald F-statistic) 0.000000

Regresión Alternativa 3
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:19
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)

Variable Coefficient Std. Error t-Statistic Prob.

C 0.869275 0.228918 3.797323 0.0004


Y1L 0.366164 0.090772 4.033887 0.0002
X9(-1) 0.503372 0.154189 3.264641 0.0021
X3 -0.172046 0.098292 -1.750356 0.0869

R-squared 0.441248 Mean dependent var 1.189340


Adjusted R-squared 0.403998 S.D. dependent var 1.363523
S.E. of regression 1.052655 Akaike info criterion 3.018616
Sum squared resid 49.86375 Schwarz criterion 3.173051
Log likelihood -69.95610 Hannan-Quinn criter. 3.077209
F-statistic 11.84556 Durbin-Watson stat 1.670557
Prob(F-statistic) 0.000008 Wald F-statistic 13.28882
Prob(Wald F-statistic) 0.000002

75
Regresión Alternativa 4
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:01
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)

Variable Coefficient Std. Error t-Statistic Prob.

C 0.822303 0.231641 3.549897 0.0009


Y1L 0.446521 0.104311 4.280668 0.0001
X9(-1) 0.540618 0.148535 3.639663 0.0007

R-squared 0.423127 Mean dependent var 1.189340


Adjusted R-squared 0.398045 S.D. dependent var 1.363523
S.E. of regression 1.057899 Akaike info criterion 3.009718
Sum squared resid 51.48096 Schwarz criterion 3.125544
Log likelihood -70.73809 Hannan-Quinn criter. 3.053662
F-statistic 16.87010 Durbin-Watson stat 1.750006
Prob(F-statistic) 0.000003 Wald F-statistic 21.35249
Prob(Wald F-statistic) 0.000000

Interesantemente, en estas tres regresiones aparecen dos variables, X3 y el primer rezago


de X9 como estadísticamente significativas. Vemos también un coeficiente de determinación
más alto que en la regresión verdadera y algunos otros indicadores que presentan valores
adecuados.

Como veremos más adelante, una estrategia común a la hora de seleccionar un modelo
ganador, o un modelo que mejor represente el proceso verdadero, es considerar conjuntamente
la significancia estadística de los parámetros, la similitud de los residuos a un ruido blanco,
y algún criterio de información como el Akaike o el criterio de Schwarz. Básicamente estos
criterios funcionan de la siguiente manera. El mejor modelo es el que:

1. Tiene a todos sus coeficientes estadísticamente significativos a algún nivel de confianza


predefinido.

2. Los residuos del modelo se comportan como ruido blanco (Durbin-Watson en torno a
2).

3. El modelo minimiza el criterio de información escogido.

En algunos casos los investigadores optan por el modelo que alcance el menor Akaike
simplemente. Entre las diversas razones que puedan existir para enfocarse en un solo criterio,
se encuentra el hecho de que no siempre es posible encontrar un modelo que satisfaga los
tres criterios anteriores, y consecuentemente hay que utilizar una perspectiva más amplia y
flexible.

Volvamos a analizar nuestras 4 regresiones. De acuerdo a la significancia estadística de


ellas, todas parecen adecuadas utilizando un nivel de confianza del 90%. Si aumentamos
el nivel de confianza al 95% descartaríamos la regresión 3, pero las otras restantes serían
perfectos candidatos. Con respecto a la autocorrelación de los residuos, la regresión 3 es

76
también la que presenta el estadístico Dubin-Watson más alejado de 2. Interesantemente,
la regresión 1 es la que presenta el Durbin-Watson más cercano a 2. Finalmente utilizando
cualquiera de nuestros criterios de información, escogeríamos la regresión 4. Así, no sería
raro utilizar la regresión 4 como la que mejor representa al modelo verdadero. Ella satisface
los típicos requerimientos: mínimo criterio de información, todos los coeficientes significativos
al 1%!!!!! y presenta un DW cercano a 2.

Como sabemos, el modelo verdadero no contiene a la variable X9 rezagada, por lo que


algo ha fallado en nuestra estrategia de decisión. Notemos además que el coeficiente de
determinación de la regresión 4 es 0.42, mucho mayor que el 0.25 correspondiente al modelo
verdadero. Este hallazgo erróneo (false discovery) traspasó todos nuestros criterios estadísti-
cos. Fue imposible detectarlo, y está asociado a un ajuste excesivamente bueno de los datos.
Es esta la razón por la cual a este fenómeno se le llama sobreajuste.

Es muy importante destacar que en el ejemplo que hemos analizado no hay truco alguno,
ni fue necesario generar muchas otras variables explicativas para llegar a encontrar un modelo
erróneo. De hecho, el ejemplo anterior está completamente libre de problemas asociados a
excesiva persistencia o a problemas de colinearidad puesto que los regresores son ortogonales.
El mensaje es que el false discovery es un hecho bastante frecuente que ocurre tanto en
regresiones de corte transversal, panel o series de tiempo. Afortunadamente, en este último
caso hay una estrategia frecuentemente utilizada para intentar minimizarlo.

9.2 Definición de Sobreajuste


El Sobreajuste es un problema que surge en estadística al momento de intentar identificar
un modelo que contiene un término de error aleatorio. Al tratar de describir con demasiada
precisión un fenómeno en una muestra limitada de datos, se puede producir como efecto no
deseado, un ajuste del comportamiento muestral de los errores aleatorios, que por definición
son impredecibles o inexplicables puesto que son simplemente errores aleatorios.

En términos simples, en economía usualmente utilizamos modelos lineales de la siguiente


forma:
Y = xT β + e
el sobreajuste se presenta cuando en una determinada muestra, un conjunto de variables z
es capaz de explicar parte de la varianza de los errores aleatorios e. En ese caso podríamos
terminar ajustando un modelo como el siguiente:
. + zT γ
Y = xT β .+u
.

en que una porción adicional de la varianza de Y pareciera, erróneamente, ser posible de


explicar. Como consecuencia, los coeficientes de determinación son más altos de los que
corresponderían al modelo verdadero.

Este fenómeno es meramente causado por mala suerte. En este sentido es importante
entender que una búsqueda incesante de regresores o especificaciones orientadas a tener un

77
mejor ajuste de los datos muestrales, es una práctica que tiende a incrementar la probabili-
dad de sobreajuste, puesto que en la medida que el número de especificaciones alternativas
aumenta, mayor chance existe de que alguna modele bien el comportamiento muestral de los
errores aleatorios. La práctica de incesantes búsquedas de especificaciones se denomina en
inglés Data Mining, y en este caso se habla de Data Mining Induced Overfitting.

Notemos que la búsqueda de especificaciones es hasta cierto punto inevitable. A la hora


de construir un modelo estadístico para un determinado fenómeno el investigador siempre
explorará varias alternativas distintas. No obstante, es importante tener en consideración
que mientras más especificaciones se prueben más probable es incurrir en un sobreajuste.

Notemos que todo el análisis realizado en nuestro ejemplo cae dentro de lo que se denom-
ina como análisis dentro de muestra de un modelo (in sample en inglés).

Las evaluaciones dentro de muestra son las más usuales en econometría. Si uno quiere
testear si un determinado conjunto de variables expresados en el siguiente vector Xt tiene
capacidad para describir la varianza de una serie Yt+1 , se puede expresar un modelo como el
siguiente
Yt+1 = XtT β + e1t+1
para evaluar con un tradicional test “F”la hipótesis nula conjunta
H0 : β = 0
Si el objetivo es comparar modelos, entonces tradicionalmente se comparan estadísticos basa-
dos o relacionados con el error cuadrático medio o con la función de verosimilitud.

En todo caso, la base de la evaluación dentro de muestra se refiere a la manera en


que se estiman los parámetros desconocidos de los modelos y a la manera en que se evalúa el
modelo propiamente tal. El análisis dentro de muestra contempla la utilización de todos
los datos disponibles para la estimación de β, de la varianza de los shocks y para evaluar el
modelo con un criterio como el AIC o BIC.

No obstante la simpleza de la evaluación de la capacidad predictiva de los modelos dentro


de muestra, esta metodología es fuertemente criticada en la literatura por dos razones.
Primero, la práctica usual econométrica dentro de muestra enfrenta los peligros de un
sobreajuste (overfitting) inducido por un proceso de búsqueda incesante de significancia
estadística sobre una misma muestra. Este problema se suele denominar data mining-induced
overfitting. Ver por ejemplo Clark (2004). Como resultado de esta práctica el econometrista
puede terminar identificando un modelo econométrico que sólo tenga validez para la muestra
específica bajo análisis, pero que sea una pobre aproximación al verdadero data generating
process. En segundo lugar, en el caso de tener un modelo de predicción, un ejercicio dentro
de muestra no simula correctamente la realidad de un ejercicio predictivo en tiempo real,
donde la muestra utilizada para la estimación del modelo es distinta a la utilizada para su
evaluación predictiva.

Frente a estas críticas la literatura de series de tiempo usualmente responde con ejerci-
cios de predictibilidad fuera de muestra, que si bien subsanan parcialmente las críticas

78
anteriores, presentan como debilidad la necesidad de dividir las muestras en dos ventanas
complementarias llamadas de predicción y estimación. Inoue y Kilian (2003) argumentan
que el hecho de dividir la muestra disponible en estas dos ventanas reduce la potencia de los
test utilizados en relación a los ejercicios dentro de muestra, pues la estimación se realiza
con un número menor de observaciones.

9.3 Análisis Fuera de Muestra


El análisis fuera de muestra se basa en el estudio de los errores de pronóstico de un
determinado modelo. Para fijar ideas consideremos el siguiente modelo lineal:

Yt+1 = XtT β + e1t+1

Este es un modelo de predicción en el sentido que las variables explicativas utilizadas se


conocen en el instante t y se utilizan para predecir la variable Y en el instante t + 1.

Los análisis fuera de muestra en general se realizan por dos razones fundamentales: En
primer lugar se utilizan para evaluar la capacidad predictiva del modelo, es decir para tener
una métrica que nos diga lo bien o mal que predicen los regresores Xt a la variable Yt+1 .
Cuando este es el objetivo, habitualmente el investigador está interesado en comparar la
calidad predictiva de dos modelos como los siguientes:

M1 : Yt+1 = XtT β + e1t+1


M2 : Yt+1 = ZtT γ + e2t+1

En este caso el econometrista estará interesado en evaluar alguna afirmación sobre los errores
de predicción e1t+1 y e2t+1 . Denotaremos por ft+1 a alguna relación de interés entre los errores
de predicción de ambos modelos de manera que nuestro objeto de estudio sea determinar si
el primer momento de ft+1 es nulo, esto es:

H0 : Eft+1 = 0

Algunos ejemplos de funciones f relevantes son

ft+1 = e1t+1 − e2t+1


ft+1 = |e1t+1 | − |e2t+1 |
ft+1 = (e1t+1 )2 − (e2t+1 )2

Claramente este último caso es uno de los más populares pues determina que la com-
paración relevante es la del Error Cuadrático Medio de los errores de las proyecciones, que
es una medida de distancia de las proyecciones al verdadero valor de la serie.

En segundo lugar el econometrista puede estar simplemente interesado es testear fuera


de muestra la siguiente hipótesis nula conjunta

H0 : β = 0

79
Obviamente esta hipótesis se puede testear dentro de muestra con un test F o un test
t, en caso que al investigador le interese la significancia estadística de tan solo uno de los
regresores. No obstante, también existen tests fuera de muestra (out of sample) que permiten
evaluar la misma hipótesis nula, pero con la esperanza de estar menos expuesto al problema
de sobreajuste.

Para describir la metodología de evaluación de modelos o predicciones fuera de muestra,


seguiremos la notación y el análisis de West (1996) y una seguidilla de papers basados en él.
Por simplicidad seguiremos suponiendo que el modelo a evaluar es

M1 : Yt+1 = XtT β + e1t+1

Nos centraremos en predicciones un paso hacia adelante (one step ahead forecasts).
Supondremos que tenemos disponibles T + 1 observaciones. Las últimas P observaciones son
usadas para comparar las predicciones con observaciones reales. Las primeras R = T + 1 − P
observaciones son usadas para la estimación inicial de los parámetros. β.t denota un esti-
mador genérico de β construido con información disponible hasta el instante t. Los ejercicios
fuera de muestra tienen la particularidad de poder ir actualizando las estimaciones de los
parámetros desconocidos una vez que más información acerca del proceso es observada. Hay
tres esquemas básicos de actualización de parámetros comunmente utilizados: el fijo (fixed),
el recursivo (recursive o expanding) y el rodante (rolling). El esquema de fijo construye β.t
solo una vez usando las primeras R observaciones. En otras palabras aqui no se actualiza
la estimación de β cuando más información es añadida. El esquema rodante actualiza β.t
siempre estimándolo con las últimas R observaciones disponibles. De esta manera, si una
observación adicional es incluida en la estimación, la observación más antigua es dejada de
lado y no considerada en la estimación. Finalmente el esquema recursivo también actualiza
su estimación β.t , pero esta vez usando toda la información disponible hasta el instante t. En
otras palabras, en el esquema recursivo la porción de la muestra utilizada para estimación
crece con t.

Cada uno de estos esquemas tiene ventajas y desventajas. Usar el esquema fijo es útil si
uno no quiere introducir volatilidad en los parámetros. Mal que mal el modelo a estimar es

Yt+1 = XtT β + e1t+1

y no
Yt+1 = XtT β t + e1t+1
El esquema rodante es útil pues descarta información poco relevante para el proceso si es
que ha habido cambios estructurales, sin embargo puede perder información valiosa cuando
no hay presencia de quiebres. El esquema recursivo a la vez está sujeto a las críticas de
utilizar tal vez demasiada información que puede ya no ser relevante.

Si el objetivo es evaluar significancia de los parámetros, la hipótesis nula es

H0 : β = 0

80
pero ahora no tenemos un test “F” tradicional. Ya veremos una alternativa para testear la
hipótesis anterior fuera de muestra.

Si el objetivo es en cambio comparar la habilidad predictiva de dos modelos, la metodología


usual está basada en lo que se denomina un test del tipo Diebold y Mariano (1995) o tam-
bién conocido como Diebold, Mariano y West (DMW) que básicamente construye errores de
predicción fuera de muestra como sigue:
Yt+1 − XtT β.t = e.1t+1
Una vez construidos los errores de predicción fuera de muestra para cada modelo se
construye un estimador de la función f como sigue:
f.t+1 = e.1t+1 − e.2t+1
f.t+1 = |.e1t+1 | − |.
e2t+1 |
f.t+1 = (. 2
e1t+1 ) − (. e2t+1 )2
f.t+1 = L(. e1t+1 ) − L(. e2t+1 )

y se realiza inferencia sobre f a partir de f.. Detalles sobre el cálculo de un estadístico DMW
lo veremos en la próxima subsección.

9.4 Inferencia Fuera de Muestra


9.4.1 Paradigma de Diebold, Mariano y West

Recordemos que estamos interesados en el siguiente objeto:


Eft
Definamos
1 +
f∗ = ft
P
entonces, bajo ciertos supuestos razonables tenemos el siguiente resultado
√   A
P f ∗ − Ef  N (0, V∗ )
+


V = E(ft − Eft )(ft−j − Eft−j )
j=−∞

Tradicionalmente se llama a V∗ la varianza de “largo plazo” de ft . Consideremos V /∗ un



estimador consistente y positivo de V . Podemos construir un t-statistic para la hipótesis
nula
H0 : Eft = 0
como sigue: )
1
ft A
12  N (0, 1)
P
DM W : 
/∗
V /P

81
o bien
)
√ ft A
DM W : P 5  N (0, 1)
V/∗
En general, salvo casos particulares, será conveniente estimar V∗ con estimación HAC (het-
eroskedasticity and autocorrelation consistent covariance matrix estimator). Esto es en gen-
eral pues muchas veces uno quiere evaluar predicciones a más de un paso hacia adelante,
por lo que serán errores con autocorrelación serial. Incluso si uno solo estima predicciones
un paso hacia adelante, pero usa pérdida cuadrática y sospecha de la existencia de hetero-
cedasticidad, entonces también será conveniente usar estimación HAC de acuerdo a Newey
y West (1987, 1994), Andrews (1991) o cualquier otro método HAC.

Un método simple para implementar el test de DMW consiste en correr una regresión
entre f. y una constante usando estimación HAC para la varianza de esta constante estimada.
El t-statistic asociado a esta constante no es más que el estadístico propuesto por Diebold y
Mariano (1995).

9.4.2 Significancia Estadística Fuera de Muestra


En esta sección se considera el contexto econométrico resumido en las siguientes expresiones

M1 : Yt+1 = ZtT γ + e1t+1 (10)


M2 : Yt+1 = ZtT γ + XtT β + e2t+1 (11)

La hipótesis nula que se desea testear es

H0 : β = 0

Versus la siguiente alternativa


HA : β = 0
La idea es encontrar un estadístico basado en errores fuera de muestra de ambos modelos, y
que nos permita testear la hipótesis nula.

El error cuadrático medio (ECM) de ambos modelos se puede escribir como sigue:

ECM2 : E(Yt+1 − ZtT γ − XtT β)2 = E(e22t+1 )


ECM1 : E(Yt+1 − ZtT γ)2 = E(e21t+1 )

Se observa que si la hipótesis nula es verdadera, entonces los ECM de ambos modelos son
iguales, y aún más, las perturbaciones e1t+1 y e2t+1 son idénticas y el diferencial de pertur-
baciones al cuadrado es idénticamente igual a cero. Esto sugiere que la construcción de tests
estadísticos basados en diferenciales de ECM puede ser compleja.

Clark y West en dos papers publicados en Journal of Econometrics (2006 y 2007) propo-
nen tests muy simples de usar y que mostramos en las siguientes líneas.

82
9.4.3 MSPE-Adjusted (ECM-Ajustado)
El test MSPE-Adjusted test fue propuesto por Clark y West (2006). Ellos derivaron este
test a partir de comparaciones usuales de MSPE entre los siguientes dos modelos:

M1 : Yt+1 = e1t+1 (12)


M2 : Yt+1 = XtT β + e2t+1 (13)

Clark and West argumentan que el test de Diebold y Mariano no funciona bien en este
contexto cuando se comparan los Errores Cuadrático Medio de ambos modelos. Para ver
esto, notemos que a nivel muestral la diferencia en MSPE entre los dos modelos considerados
se puede escribir como sigue:


ΔM SP E = M SP E 1 − M SP E 2
1 )T 1 )T
T . 2
= (yt+1 )2 − (yt+1 − Xt+1 β t)
P t=R P t=R
2 )T
T . 1 ) T
= yt+1 Xt+1 βt − (X T β. )2
P t=R P t=R t+1 t

Notemos que bajo la hipótesis nula se cumple que β = 0 luego, yt+1 = et+1 . Esto implica que

2 )T
T . 2 )T
T .
yt+1 Xt+1 βt = et+1 Xt+1 βt ≈ 0
P t=R P t=R

por lo que


ΔM SP E = M SP E 1 − M SP E 2
1 )T 1 )T
T . 2
= (yt+1 )2 − (yt+1 − Xt+1 β t)
P t=R P t=R
1 )T
≈ − (X T β. )2 < 0
P t=R t+1 t

Clark y West observan que este término introduce un sesgo en las comparaciones de error
cuadrático medio que no desaparece en la medida que P tiende a ∞. Ellos proponen construir
un test basado en el término que efectivamente es aproximadamente cero bajo la hipótesis
nula:
2 ) T
T .
yt+1 Xt+1 βt
P t=R
El estadístico que proponen es el siguiente

2
)
T
T .
P
yt+1 Xt+1 βt
M SP E − Adjusted : P 1/2 6 t=R
T .
4V. (yt+1 Xt+1 β t)

83
que se distribuye asintóticamente de acuerdo a una normal estándar.

En el caso más general en el que los modelos bajo comparación son los siguientes

M1 : Yt+1 = ZtT γ + e1t+1


M2 : Yt+1 = ZtT γ + XtT β + e2t+1

y la hipótesis nula que se desea testear es

H0 : β = 0

versus la siguiente alternativa


HA : β = 0
Clark y West proponen construir un t-statistic basado en el siguiente término:

2 )T
e.1t+1 (.
e1t+1 − e.2t+1 )
P t=R

Este test puede ser fácilmente implementado al definir la variable

f.t = 2. e1t+1 − e.2t+1 )


e1t+1 (.

y generar una regresión entre f.t y una constante. El estadístico t asociado a esa constante
corresponde al test de Clark y West en este ambiente más general. Siempre se recomienda
la utilización de estimación HAC y el uso de valores críticos normales, aunque en este caso
particular Clark y West señalan que la normalidad asintótica no necesariamente se cumple,
pero representa una buena aproximación de la verdadera distribución límite.

Clark y West enfatizan que bajo la hipótesis alternativa se espera que sus t-statistics
sean positivos, por lo que siempre recomiendan la utilización de tests a una sola cola.

84

Anda mungkin juga menyukai