9.1 Un Ejemplo
Consideremos el siguiente Proceso Generador de Datos (DGP por sus siglas en inglés: Data
Generating Process)
Yt+1 = α + ρYt + εt+1 (4)
con {εt }t=∞
t=−∞ ruido blanco y 0 < ρ < 1. Es decir este proceso es un simple AR(1) estacionario.
Supongamos además que
V(εt ) ≡ σ 2 = 1
ρ = 0.5
α = 0.5
Notemos que
V(Yt+1 ) = V(α) + ρ2 V(Yt ) + V(εt+1 )
Como el proceso es estacionario tendremos que
V(Yt+1 ) = V(Yt )
Si hiciéramos una regresión entre Yt+1 y Yt incluyendo además un término constante, prob-
ablemente esperaríamos encontrar un coeficiente de determinación R2 cercano a este valor.
Adicionalmente esperaríamos encontrar estimaciones de la constante y del parámetro autor-
regresivo cercanos a 0.5, que son sus verdaderos valores.
En lo que sigue mostraremos los resultados de una regresión lineal entre Yt+1 y Yt in-
cluyendo además un término constante, utilizando 50 datos para Yt artificialmente generados
en un computador a partir de un ruido blanco {εt }t=∞
t=−∞ independiente y gaussiano.
73
Regresión Alternativa 1
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 02:32
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)
Podemos apreciar que nuestras conjeturas parecen confirmadas (con cierto grado de error
atribuíble a muestra pequeña) con la regresión anterior. Tanto el coeficiente de determinación
como los parámetros estimados se parecen bastante a los valores reales o poblacionales del
proceso en (4).
74
Regresión Alternativa 2
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:20
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)
Regresión Alternativa 3
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:19
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)
75
Regresión Alternativa 4
Dependent Variable: Y1
Method: Least Squares
Date: 09/03/14 Time: 03:01
Sample (adjusted): 2 50
Included observations: 49 after adjustments
HAC standard errors & covariance (Bartlett kernel, Newey-West fixed
bandwidth = 4.0000)
Como veremos más adelante, una estrategia común a la hora de seleccionar un modelo
ganador, o un modelo que mejor represente el proceso verdadero, es considerar conjuntamente
la significancia estadística de los parámetros, la similitud de los residuos a un ruido blanco,
y algún criterio de información como el Akaike o el criterio de Schwarz. Básicamente estos
criterios funcionan de la siguiente manera. El mejor modelo es el que:
2. Los residuos del modelo se comportan como ruido blanco (Durbin-Watson en torno a
2).
En algunos casos los investigadores optan por el modelo que alcance el menor Akaike
simplemente. Entre las diversas razones que puedan existir para enfocarse en un solo criterio,
se encuentra el hecho de que no siempre es posible encontrar un modelo que satisfaga los
tres criterios anteriores, y consecuentemente hay que utilizar una perspectiva más amplia y
flexible.
76
también la que presenta el estadístico Dubin-Watson más alejado de 2. Interesantemente,
la regresión 1 es la que presenta el Durbin-Watson más cercano a 2. Finalmente utilizando
cualquiera de nuestros criterios de información, escogeríamos la regresión 4. Así, no sería
raro utilizar la regresión 4 como la que mejor representa al modelo verdadero. Ella satisface
los típicos requerimientos: mínimo criterio de información, todos los coeficientes significativos
al 1%!!!!! y presenta un DW cercano a 2.
Es muy importante destacar que en el ejemplo que hemos analizado no hay truco alguno,
ni fue necesario generar muchas otras variables explicativas para llegar a encontrar un modelo
erróneo. De hecho, el ejemplo anterior está completamente libre de problemas asociados a
excesiva persistencia o a problemas de colinearidad puesto que los regresores son ortogonales.
El mensaje es que el false discovery es un hecho bastante frecuente que ocurre tanto en
regresiones de corte transversal, panel o series de tiempo. Afortunadamente, en este último
caso hay una estrategia frecuentemente utilizada para intentar minimizarlo.
Este fenómeno es meramente causado por mala suerte. En este sentido es importante
entender que una búsqueda incesante de regresores o especificaciones orientadas a tener un
77
mejor ajuste de los datos muestrales, es una práctica que tiende a incrementar la probabili-
dad de sobreajuste, puesto que en la medida que el número de especificaciones alternativas
aumenta, mayor chance existe de que alguna modele bien el comportamiento muestral de los
errores aleatorios. La práctica de incesantes búsquedas de especificaciones se denomina en
inglés Data Mining, y en este caso se habla de Data Mining Induced Overfitting.
Notemos que todo el análisis realizado en nuestro ejemplo cae dentro de lo que se denom-
ina como análisis dentro de muestra de un modelo (in sample en inglés).
Las evaluaciones dentro de muestra son las más usuales en econometría. Si uno quiere
testear si un determinado conjunto de variables expresados en el siguiente vector Xt tiene
capacidad para describir la varianza de una serie Yt+1 , se puede expresar un modelo como el
siguiente
Yt+1 = XtT β + e1t+1
para evaluar con un tradicional test “F”la hipótesis nula conjunta
H0 : β = 0
Si el objetivo es comparar modelos, entonces tradicionalmente se comparan estadísticos basa-
dos o relacionados con el error cuadrático medio o con la función de verosimilitud.
Frente a estas críticas la literatura de series de tiempo usualmente responde con ejerci-
cios de predictibilidad fuera de muestra, que si bien subsanan parcialmente las críticas
78
anteriores, presentan como debilidad la necesidad de dividir las muestras en dos ventanas
complementarias llamadas de predicción y estimación. Inoue y Kilian (2003) argumentan
que el hecho de dividir la muestra disponible en estas dos ventanas reduce la potencia de los
test utilizados en relación a los ejercicios dentro de muestra, pues la estimación se realiza
con un número menor de observaciones.
Los análisis fuera de muestra en general se realizan por dos razones fundamentales: En
primer lugar se utilizan para evaluar la capacidad predictiva del modelo, es decir para tener
una métrica que nos diga lo bien o mal que predicen los regresores Xt a la variable Yt+1 .
Cuando este es el objetivo, habitualmente el investigador está interesado en comparar la
calidad predictiva de dos modelos como los siguientes:
En este caso el econometrista estará interesado en evaluar alguna afirmación sobre los errores
de predicción e1t+1 y e2t+1 . Denotaremos por ft+1 a alguna relación de interés entre los errores
de predicción de ambos modelos de manera que nuestro objeto de estudio sea determinar si
el primer momento de ft+1 es nulo, esto es:
H0 : Eft+1 = 0
Claramente este último caso es uno de los más populares pues determina que la com-
paración relevante es la del Error Cuadrático Medio de los errores de las proyecciones, que
es una medida de distancia de las proyecciones al verdadero valor de la serie.
H0 : β = 0
79
Obviamente esta hipótesis se puede testear dentro de muestra con un test F o un test
t, en caso que al investigador le interese la significancia estadística de tan solo uno de los
regresores. No obstante, también existen tests fuera de muestra (out of sample) que permiten
evaluar la misma hipótesis nula, pero con la esperanza de estar menos expuesto al problema
de sobreajuste.
Nos centraremos en predicciones un paso hacia adelante (one step ahead forecasts).
Supondremos que tenemos disponibles T + 1 observaciones. Las últimas P observaciones son
usadas para comparar las predicciones con observaciones reales. Las primeras R = T + 1 − P
observaciones son usadas para la estimación inicial de los parámetros. β.t denota un esti-
mador genérico de β construido con información disponible hasta el instante t. Los ejercicios
fuera de muestra tienen la particularidad de poder ir actualizando las estimaciones de los
parámetros desconocidos una vez que más información acerca del proceso es observada. Hay
tres esquemas básicos de actualización de parámetros comunmente utilizados: el fijo (fixed),
el recursivo (recursive o expanding) y el rodante (rolling). El esquema de fijo construye β.t
solo una vez usando las primeras R observaciones. En otras palabras aqui no se actualiza
la estimación de β cuando más información es añadida. El esquema rodante actualiza β.t
siempre estimándolo con las últimas R observaciones disponibles. De esta manera, si una
observación adicional es incluida en la estimación, la observación más antigua es dejada de
lado y no considerada en la estimación. Finalmente el esquema recursivo también actualiza
su estimación β.t , pero esta vez usando toda la información disponible hasta el instante t. En
otras palabras, en el esquema recursivo la porción de la muestra utilizada para estimación
crece con t.
Cada uno de estos esquemas tiene ventajas y desventajas. Usar el esquema fijo es útil si
uno no quiere introducir volatilidad en los parámetros. Mal que mal el modelo a estimar es
y no
Yt+1 = XtT β t + e1t+1
El esquema rodante es útil pues descarta información poco relevante para el proceso si es
que ha habido cambios estructurales, sin embargo puede perder información valiosa cuando
no hay presencia de quiebres. El esquema recursivo a la vez está sujeto a las críticas de
utilizar tal vez demasiada información que puede ya no ser relevante.
H0 : β = 0
80
pero ahora no tenemos un test “F” tradicional. Ya veremos una alternativa para testear la
hipótesis anterior fuera de muestra.
y se realiza inferencia sobre f a partir de f.. Detalles sobre el cálculo de un estadístico DMW
lo veremos en la próxima subsección.
81
o bien
)
√ ft A
DM W : P 5 N (0, 1)
V/∗
En general, salvo casos particulares, será conveniente estimar V∗ con estimación HAC (het-
eroskedasticity and autocorrelation consistent covariance matrix estimator). Esto es en gen-
eral pues muchas veces uno quiere evaluar predicciones a más de un paso hacia adelante,
por lo que serán errores con autocorrelación serial. Incluso si uno solo estima predicciones
un paso hacia adelante, pero usa pérdida cuadrática y sospecha de la existencia de hetero-
cedasticidad, entonces también será conveniente usar estimación HAC de acuerdo a Newey
y West (1987, 1994), Andrews (1991) o cualquier otro método HAC.
Un método simple para implementar el test de DMW consiste en correr una regresión
entre f. y una constante usando estimación HAC para la varianza de esta constante estimada.
El t-statistic asociado a esta constante no es más que el estadístico propuesto por Diebold y
Mariano (1995).
H0 : β = 0
El error cuadrático medio (ECM) de ambos modelos se puede escribir como sigue:
Se observa que si la hipótesis nula es verdadera, entonces los ECM de ambos modelos son
iguales, y aún más, las perturbaciones e1t+1 y e2t+1 son idénticas y el diferencial de pertur-
baciones al cuadrado es idénticamente igual a cero. Esto sugiere que la construcción de tests
estadísticos basados en diferenciales de ECM puede ser compleja.
Clark y West en dos papers publicados en Journal of Econometrics (2006 y 2007) propo-
nen tests muy simples de usar y que mostramos en las siguientes líneas.
82
9.4.3 MSPE-Adjusted (ECM-Ajustado)
El test MSPE-Adjusted test fue propuesto por Clark y West (2006). Ellos derivaron este
test a partir de comparaciones usuales de MSPE entre los siguientes dos modelos:
Clark and West argumentan que el test de Diebold y Mariano no funciona bien en este
contexto cuando se comparan los Errores Cuadrático Medio de ambos modelos. Para ver
esto, notemos que a nivel muestral la diferencia en MSPE entre los dos modelos considerados
se puede escribir como sigue:
ΔM SP E = M SP E 1 − M SP E 2
1 )T 1 )T
T . 2
= (yt+1 )2 − (yt+1 − Xt+1 β t)
P t=R P t=R
2 )T
T . 1 ) T
= yt+1 Xt+1 βt − (X T β. )2
P t=R P t=R t+1 t
Notemos que bajo la hipótesis nula se cumple que β = 0 luego, yt+1 = et+1 . Esto implica que
2 )T
T . 2 )T
T .
yt+1 Xt+1 βt = et+1 Xt+1 βt ≈ 0
P t=R P t=R
por lo que
ΔM SP E = M SP E 1 − M SP E 2
1 )T 1 )T
T . 2
= (yt+1 )2 − (yt+1 − Xt+1 β t)
P t=R P t=R
1 )T
≈ − (X T β. )2 < 0
P t=R t+1 t
Clark y West observan que este término introduce un sesgo en las comparaciones de error
cuadrático medio que no desaparece en la medida que P tiende a ∞. Ellos proponen construir
un test basado en el término que efectivamente es aproximadamente cero bajo la hipótesis
nula:
2 ) T
T .
yt+1 Xt+1 βt
P t=R
El estadístico que proponen es el siguiente
2
)
T
T .
P
yt+1 Xt+1 βt
M SP E − Adjusted : P 1/2 6 t=R
T .
4V. (yt+1 Xt+1 β t)
83
que se distribuye asintóticamente de acuerdo a una normal estándar.
En el caso más general en el que los modelos bajo comparación son los siguientes
H0 : β = 0
2 )T
e.1t+1 (.
e1t+1 − e.2t+1 )
P t=R
y generar una regresión entre f.t y una constante. El estadístico t asociado a esa constante
corresponde al test de Clark y West en este ambiente más general. Siempre se recomienda
la utilización de estimación HAC y el uso de valores críticos normales, aunque en este caso
particular Clark y West señalan que la normalidad asintótica no necesariamente se cumple,
pero representa una buena aproximación de la verdadera distribución límite.
Clark y West enfatizan que bajo la hipótesis alternativa se espera que sus t-statistics
sean positivos, por lo que siempre recomiendan la utilización de tests a una sola cola.
84