Uploaded by Gonzalo Moya

Autocorrelación y heterocedasticidad en series de tiempo-Woolridge

advertisement
Correlación serial y heterocedasticidad en series de tiempo
Los modelos de rezagos distribuidos finitos y los modelos estáticos con
frecuencia tienen errores serialmente correlacionados incluso si no hay
una especificación incorrecta subyacente al modelo.
Propiedades de MCO con errores correlacionados serialmente
Insesgamiento y consistencia
El estimador de MCO es insesgado bajo los primeros tres supuestos de
Gauss-Markov para series de tiempo. El teorema de insesgamiento no da
por sentado nada respecto a la correlación serial en los errores. Siempre y
cuando las variables explicativas sean estrictamente exógenas, las β^ j
son insesgadas, sin importar el grado de correlación serial en los errores.
Al relajar el supuesto de exogeneidad estricta a E(ut|xt)=0 se verifica
que, cuando los datos son débilmente dependientes, las β^ j siguen
siendo consistentes (aunque no necesariamente insesgadas). Esto no
depende de ningún supuesto sobre la correlación serial en los errores.
Eficiencia e inferencia
Cuando los errores están correlacionados serialmente, los estimadores
de MCO ya no son MELI. Los errores estándar usuales de MCO y los
estadísticos de prueba no son válidos, incluso asintóticamente.
Si suponemos que ut es AR(1): ut=ρut-1+et, t=1,2, …,n; et~(0,σe2) y
|ρ|<1 (condición de estabilidad).
Consideramos la varianza del estimador de β1 en el modelo de regresión
simple yt=β0+β1xt+ut, para simplificar suponemos que x̄=0 . Por lo tanto,
n
∑ x t ut
se puede escribir β^ 1= β 1 + t =1n
∑x
t =1
. Al calcular Var ( β^ 1∣X) , se debe
2
t
n
representar la correlación serial en las ut: Var ( β^ 1)=
=
n
n−1 n−t
t =1
t =1 j=1
n
2 2
t
t=1
Var (∑ x t ut )
t =1
n
( ∑ x2t )
2
t =1
∑ x 2t Var (ut )+2 ∑ ∑ x t x t + j E(ut ut + j )
(∑ x )
n−1 n−t
2
2
= nσ + 2 nσ ∑ ∑ ρ j x t x t + j
∑ x 2t ∑ x 2t t=1 j=1
t =1
2
j
t=1
2
donde σ =Var(ut) y E(utut+j)=Cov(ut, ut+j)=ρ σ . Se verifica que
σ2
n
∑ x 2t
t =1
es la varianza de β^ 1 cuando ρ=0, que es la varianza usual de MCO bajo
los supuestos de Gauss-Markov. Si se ignora la correlación serial y se
estima la varianza en la forma usual, el estimador de la varianza, por lo
general, será sesgado cuando ρ≠0 ya que ignora el segundo término en la
ecuación. Si ρ>0 y xt,xt+j se relacionan de forma positiva en el tiempo, el
n−1 n−t
término
∑ ∑ ρ j x t xt + j
t =1 j=1
varianza de MCO
es positivo, y por ello la fórmula usual de la
σ2
subestima la varianza verdadera del estimador
n
∑x
t =1
2
t
de MCO. Si ρ es grande o xt tiene un grado alto de correlación serial
positiva (caso común), el sesgo del estimador usual de la varianza de
MCO puede ser sustancial. En tal caso, se considerará que el estimador
MCO de la pendiente es más preciso de lo que en realidad es.
Dado que el error estándar de β^ 1 es una estimación de la desviación
estándar de β^ 1 , no es válido utilizar el error estándar usual de MCO en
presencia de correlación serial. Por lo tanto, los estadísticos t ya no
pueden utilizarse para probar hipótesis simples. Los estadísticos t usuales
a menudo serán muy grandes cuando ρ>0. Tampoco son válidos los
estadísticos F y ML para probar hipótesis múltiples.
Bondad de ajuste
Siempre y cuando los datos sean estacionarios y débilmente
dependientes, R2 y R̄2 siguen siendo válidas.
σ 2u
2
La definición R =1− 2 sigue siendo apropiada en el contexto de la
σy
regresión de series de tiempo con datos estacionarios débilmente
dependientes: las varianzas tanto de los errores como de la variable
dependiente no cambian con el tiempo. Por la ley de los números
grandes, tanto, R2 como R̄2 estiman de manera consistente la R2
poblacional.
Debido a que nunca hay un estimador insesgado de la R2 poblacional,
no tiene sentido hablar sobre sesgos en R 2 provocados por la correlación
serial. En realidad, todo lo que se puede decir es que nuestras medidas
de bondad de ajuste siguen siendo estimadores consistentes del
parámetro poblacional.
Este argumento no es válido si {yt} es un proceso I(1) ya que Var(yt)
crece con t; la bondad de ajuste no tiene mucho sentido en este caso.
Las tendencias en la media de yt, o la estacionalidad, pueden y deben
tomarse en cuenta al calcular R2. Otras desviaciones de la
estacionariedad no generan dificultad en la interpretación de R 2 y R̄2 .
Correlación serial en presencia de variables dependientes rezagadas
Es falso que, en general, los estimadores de MCO son inconsistentes en
presencia de variables dependientes rezagadas y de errores
correlacionados serialmente (sólo sucede bajo ciertas condiciones).
Sea el valor esperado de yt dado yt-1 lineal: E(yt|yt-1)=β0+β1yt-1, en donde
se supone estabilidad, |β1|<1. Siempre se puede escribir esto con un
término de error como yt=β0+β1yt-1+ut, E(ut|yt-1)=0. Por construcción, este
modelo satisface el supuesto clave de la media condicional cero para la
consistencia de MCO y, por ende, los estimadores de MCO β^ 0 y β^ 1
son consistentes. Sin supuestos adicionales, los errores {ut} pueden estar
correlacionados serialmente. La correlación serial en los errores hará que
los estadísticos usuales de MCO no sean válidos para fines de pruebas,
pero no afectará la consistencia.
Ahora bien, MCO son inconsistentes si los errores se correlacionan
serialmente y los regresores contienen una variable dependiente
rezagada cuando el modelo se escribe en forma de error, pero se supone
que {ut} sigue un modelo AR(1) estable, en donde
E(et|ut-1,ut-2,…)=E(et|yt-1,yt-2,…)=0. Por la suposición de que et no está
correlacionada con yt-1 sucede que Cov(yt-1,ut)=ρCov(yt-1,ut-1), lo cual no es
cero a menos que ρ=0. Esto hace que los estimadores de MCO de β0 y β1
de la regresión de yt sobre yt-1 sean inconsistentes.
Al combinar las ecuaciones yt=β0+β1yt-1+ut y ut=ρut-1+et, se ve que yt en
realidad sigue un modelo AR(2). Escribimos ut-1=yt-1-β0-β1yt-2 y sustituimos
esto en ut=ρut-1+et. Por lo tanto, podemos reescribir el modelo como
yt=β0+β1yt-1+ρ(yt-1-β0-β1yt-2)+et=β0(1-ρ)+(β1+ρ)yt-1-ρβ1yt-2+et=
=α0+α1yt-1+α2yt-2+et, donde α0=β0(1-ρ); α1=(β1+ρ); α2=-ρβ1. Dado que
E(et|ut-1,ut-2,…)=E(et|yt-1,yt-2,…)=0, se deduce que E(yt|yt-1,yt-2,…)= E(yt|yt-1,yt2)= α0+α1yt-1+α2yt-2. Esto significa que el valor esperado de y t, dadas todas
las y, anteriores, depende de dos rezagos de y. Esta es la ecuación que
interesa utilizar para cualquier propósito práctico.
Bajo condiciones de estabilidad adecuadas para un modelo AR(2), la
estimación por MCO de la ecuación genera estimadores consistentes y
asintóticamente normales de αj.
A menudo, la correlación serial en los errores de un modelo dinámico
señala que la función dinámica de la regresión no se ha especificado por
completo.
Métodos de prueba de la correlación serial
Cuando los regresores son estrictamente exógenos, el error ut no se
correlaciona con los regresores en todos los periodos, y de esta manera
se descartan, entre otras cosas, los modelos con variables dependientes
rezagadas.
Prueba t de correlación serial AR(1) con regresores estrictamente exógenos
La hipótesis nula es que no hay correlación serial. Primero se deriva una
prueba para muestras grandes de acuerdo con el supuesto de que las
variables explicativas son estrictamente exógenas: el valor esperado de
ut, dada toda la historia de las variables independientes, es cero. Además,
en ut=ρut-1+et se debe suponer E(et|ut-1,ut-2,…)=0 y Var(et|ut-1)=Var(et)=σe2.
Estos son los supuestos estándar del modelo AR(1) (se siguen cuando
{et} es una secuencia i.i.d.) y permiten aplicar los resultados de muestras
grandes a la regresión dinámica. La hipótesis nula es que el supuesto de
Gauss-Markov adecuado es verdadero. En el modelo AR(1), la hipótesis
nula de que los errores no se correlacionan de forma serial es H 0: ρ=0.
Si se observara la ut entonces, bajo los supuestos realizados, se
aplicarían los resultados de normalidad asintótica del teorema al modelo
de regresión dinámica ut=ρut-1+et, t=2,…,n. (De acuerdo con H0, {ut} es
débilmente dependiente). Se puede estimar de la regresión de ut sobre
ut-1, para toda t=2,…,n, sin un intercepto y utilizar el estadístico t usual
para ρ^ . Pero esto no funciona ya que no se observan los errores ut. No
obstante, se puede reemplazar ut con el residual de MCO
correspondiente, u^t . Los residuos u^t dependen de los estimadores
MCO β^ 0 , β^ 1 , ..., β^ k , por el supuesto de exogeneidad estricta, la
distribución de muestra grande del estadístico t no se ve afectada por el
uso de los residuales de MCO en lugar de los errores.
*Prueba de correlación serial AR(1) con regresores estrictamente
exógenos:
-Regresar por MCO yt sobre x1t, …, xkt y obtener los residuales de MCO,
u^t , para toda t=1,2,…,n.
-Regresar u^t sobre ut^−1 , para toda t=2,…,n; para obtener el
coeficiente ρ^ de ut^−1 y su estadístico t, t ρ^ .
-Se usa t ρ^ para probar H0: ρ=0 contra H1: ρ≠0 en la forma común.
Cualquier correlación serial que provoque que los errores adyacentes se
correlacionen puede detectarse mediante esta prueba. Por otra parte, no
detecta correlación serial donde los errores adyacentes no están
correlacionados, Corr(ut,ut-1)=0 (ej: ut y ut-2 pueden estar correlacionados).
Al usar el estadístico t usual, se debe suponer que los errores satisfacen
el supuesto de homocedasticidad adecuado. Para hacer la prueba robusta
a la heterocedasticidad en et, se usa simplemente el estadístico t robusto
a la heterocedasticidad.
Prueba de Durbin-Watson bajo los supuestos clásicos
Otra prueba para la correlación serial AR(1) es la de Durbin-Watson. El
n
∑ (u^t −^ut −1)2
estadístico DW es: DW = t =2
n
∑ u^
t =1
. Desarrollando el cuadrado y
2
t
reemplazando por el estimador de ρ: DW ≈2(1−ρ^ ) . Esta relación no es
exacta porque ρ^ tiene
n
∑ u^ 2t −1
en su denominador. Incluso con
t=2
tamaños de muestra moderados, la aproximación es muy cercana. Por lo
tanto, las pruebas basadas en DW y la prueba t basada en ρ^ son
conceptualmente iguales.
Durbin y Watson obtienen la distribución de DW (condicional en X), lo
que requiere todo el conjunto de supuestos del MLC, incluida la
normalidad de los términos de error. Esta distribución depende de los
valores de las variables independientes, del tamaño de la muestra, del
número de regresores y de si la regresión contiene un intercepto.
Por lo general, la prueba de DW se calcula para la alternativa H 1: ρ>0. A
partir de la aproximación, ρ^ =0 implica que DW≈2, y ρ^ >0 implica que
DW<2. Para rechazar H0 a favor de H1: ρ>0, se busca un valor de DW que
sea considerablemente menor que dos. Se debe comparar DW con dos
conjuntos de valores críticos. Estos son dU (el superior) y dL (el inferior).
Si DW<dL, entonces se rechaza H0 en favor de H1; si DW>dU, no se
rechaza H0. Cuando dL<DW<dU, la prueba no es concluyente.
Que pueda tabularse una distribución de muestreo exacta para DW es la
única ventaja que DW tiene sobre la prueba t. Las desventajas del
estadístico DW son que los valores críticos tabulados son exactamente
válidos sólo bajo el conjunto completo de supuestos del MLC y que éstos
pueden conducir a una amplia región no concluyente. El estadístico t es
fácil de calcular y asintóticamente válido sin errores normalmente
distribuidos. El estadístico t también es válido en presencia de
heterocedasticidad que depende de las x jt. Además, es fácil hacerlo
robusto a cualquier forma de heterocedasticidad.
Prueba de correlación serial AR(1) sin regresores estrictamente exógenos
Cuando las variables explicativas no son estrictamente exógenas, de
manera que una o más xjt están correlacionadas con ut-1, ni la prueba t de
ni el estadístico DW son válidos, incluso en muestras grandes.
El caso principal de regresores sin exogeneidad estricta ocurre cuando
el modelo contiene una variable dependiente rezagada: y t-1 y ut-1 están
correlacionadas. Hay dos alternativas para el estadístico DW cuando el
modelo contiene una variable dependiente rezagada y los otros
regresores son no aleatorios (o estrictamente exógenos).
La primera alternativa es el estadístico h de Durbin, con el inconveniente
práctico de que no siempre se puede calcular.
*Prueba de correlación serial con regresores generales:
-Regresar por MCO yt sobre x1t, …, xkt y obtener los residuales de MCO,
u^t , para toda t=1,2,…,n.
-Regresar u^t sobre x1t,x2t,…,xkt, u^ t −1 , para toda t=2,…,n; para obtener
el coeficiente ρ^ de u^ t −1 y su estadístico t, t ρ^ .
-Usar t ρ^ para probar H0: ρ=0 contra H1: ρ≠0 (o contra una alternativa
de una cola).
Se regresan los residuales de MCO sobre todas las variables
independientes, incluidos un intercepto y el residual rezagado. El
estadístico t del residual rezagado es una prueba válida de H0 para el
modelo AR(1) [cuando se añade Var(u t|xt,ut-1)=σ2 bajo H0]. Cualquier
número de variables dependientes rezagadas podrían aparecer entre las
xjt, y también se pueden permitir otras variables explicativas sin
exogeneidad estricta.
La inclusión de x1t,…,xkt explícitamente permite que cada xjt esté
correlacionada con ut-1, y esto asegura que t ρ^ tenga una distribución t
aproximada para muestras grandes. Debido a que
u^t = y t− β^ 0− β^ 1 x 1 t−...−β^ k x kt , el estadístico t de u^ t −1 es el mismo si yt
se usa en lugar de u^t como variable dependiente en la regresión.
El test t se vuelve robusto a la heterocedasticidad de forma desconocida
usando simplemente el estadístico t robusto a la heterocedasticidad para
u^ t −1 .
Prueba de correlación serial de orden superior
Si por ejemplo se desea probar H0: ρ1=0, ρ2=0 en el modelo AR(2),
ut=ρ1ut-1+ρ2ut-2+et; se estima el modelo por medio de MCO y se obtienen
los residuales de MCO, u^t . Luego, se lleva a cabo la regresión de u^t
sobre x1t,x2t,…,xkt, u^ t −1 y u^ t −2 , para toda t=3,…,n, con el propósito de
obtener la prueba F de significancia conjunta para u^ t −1 y u^ t −2 . Si estos
dos rezagos son conjuntamente significativos a un nivel muy pequeño
entonces se rechaza H0 y se llega a la conclusión de que los errores se
correlacionan serialmente.
Se puede probar la correlación serial del modelo autoregresivo de orden
q: ut=ρ1ut-1+ρ2ut-2+…+ρqut-q+et. La hipótesis nula es H0: ρ1=0, ρ2=0,…, ρq=0.
Prueba de correlación serial AR(q):
-Regresar por MCO yt sobre x1t,…,xkt y obtener los residuales de MCO,
u^t , para toda t=1,2,…,n.
-Regresar u^t sobre x1t,x2t,…,xkt, u^ t −1 , u^ t −2 ,…, u^ t −q , para toda
t=(q+1),…,n.
-Calcular la prueba F de significancia conjunta de u^ t −1 , u^ t −2 ,…,
u^ t −q . Si se supone que las xjt son estrictamente exógenas, de modo que
cada xjt no se correlaciona con ut-1,ut-2,…,ut-q, entonces las xjt pueden
omitirse de lal útlima regresión. Incluir de las xjt en la regresión hace que
la prueba sea válida con o sin el supuesto de exogeneidad estricta.
La prueba requiere el supuesto de homocedasticidad
Var(ut|xt,ut-1,…,ut-q)=σ2. Una alternativa para calcular la prueba F es usar la
forma del multiplicador de Lagrange (ML) del estadístico, el cual es
LM =( n−q) R2u^ , donde R2u^ es la R2 usual de la regresión de u^t . Bajo
H0, ML ~ª χq2. Esta es la prueba de Breusch-Godfrey para correlación
serial AR(q). El estadístico ML también exige homocedasticidad, pero
puede volverse robusto a la heterocedasticidad.
Con datos no desestacionalizados, se pueden probar formas
estacionales de correlación serial. Por ejemplo, con datos trimestrales se
podría postular el modelo autorregresivo u t=ρ4ut-4+et. Se procede de igual
modo que con un AR(1), reemplazando u^ t −1 por u^ t −4 donde
corresponda. Si los datos son mensuales y no desestacionalizados, tiene
sentido probar la correlación entre ut y ut-12.
Corrección de correlación serial con regresores estrictamente exógenos
Obtención del MELI en el modelo AR(1)
En adelante, se tienen como ciertos los supuestos de Gauss-Markov 1 a
4, pero se relaja el supuesto 5. Se supone que los errores siguen el
modelo AR(1): ut=ρut-1+et, para toda t=1,2,…; el supuesto 3 implica que ut
tiene media cero condicional en X. Se da por sentado el condicionamiento
sobre X con el fin de simplificar la notación.
σ 2e
La varianza de ut es Var(ut)=
. Sea el modelo: yt=β0+β1xt+ut
(1− ρ 2)
para toda t=1,2,…,n. Como el problema de esta ecuación es la correlación
serial en ut, se la transforma para eliminar la correlación serial. Para t≥2,
se escribe yt-1=β0+β1xt-1+ut-1 ; yt=β0+β1xt+ut. Si se multiplica la primera
ecuación por ρ y se la resta de la segunda ecuación, se obtiene
yt-ρyt-1=(1-ρ)β0+β1(xt-ρxt-1)+et, t≥2, usando et=ut-ρut-1. Se puede escribir
esto como y t '=(1− ρ ) β 0 + β 1 x t '+ et , t≥2, esta es la ecuación en cuasi
diferencias. (Si ρ=1, es la ecuación en primeras diferencias, pero se está
suponiendo que |ρ|<1). Los términos de error en la ecuación no están
correlacionados serialmente; esta ecuación satisface todos los supuestos
de Gauss-Markov. Si se conoce , se puede estimar β0 y β1 al hacer la
regresión de yt’ en xt’, siempre y cuando se divida el intercepto estimado
entre (1-ρ).
Los estimadores de MCO de la ecuación no son MELI porque no utilizan
el primer periodo. Esto puede arreglarse al escribir la ecuación para t=1
como y1=β0+β1x1+u1. Como cada et no está correlacionado con u1, se
puede añadir esta ecuación a la ecuación de yt’ sobre xt’ y aún tener
errores no correlacionados serialmente. Sin embargo, se tiene que
σ 2e
2
Var (u1 )=
> σ e =Var ( et ) . Por ende, se debe multiplicar la ecuación
2
(1− ρ )
por (1-ρ2)1/2 para obtener errores con la misma varianza:
(1-ρ2)1/2y1=(1-ρ2)1/2β0+β1(1-ρ2)1/2x1+(1-ρ2)1/2u1 o y1’=(1-ρ2)1/2β0+β1x1’+u1’,
donde u1’=(1-ρ2)1/2u1, y1’=(1-ρ2)1/2y1, y así sucesivamente. El error en esta
ecuación tiene varianza Var( u1’)=(1-ρ2)Var(u1)=σe2, de modo que se
pueden usar las ecuaciones para yt’ e y1’ en una regresión de MCO. Esto
da los estimadores MELI de β0 y β1 bajo los supuestos 1 a 4 y el modelo
AR(1) para ut. Este es otro ejemplo de un estimador de MCG.
Al añadir más regresores, para t≥2, se usa la ecuación
yt’=(1-ρ)β0+β1x1t’+…+βkxkt’+et, donde xjt’=xjt-ρxj,t-1. Para t=1, se tiene
y1’=(1-ρ2)1/2y1, xj1’=(1-ρ2)1/2xj1, y el intercepto es (1-ρ2)1/2β0. A menos que
ρ=0, el estimador MCG, es decir MCO sobre los datos transformados, por
lo general será diferente del estimador MCO original. El estimador MCG
resulta ser MELI, y dado que los errores en la ecuación transformada no
están correlacionados serialmente y son homocedásticos, los estadísticos
t y F de la ecuación transformada son válidos (cuando menos
asintóticamente, y exactamente si los errores et están normalmente
distribuidos).
Estimación por MCG factibles con errores AR(1)
El problema de estimar por MCG es que ρ rara vez se conoce en la
práctica. Sin embargo, se puede obtener un estimador consistente al
regresar los residuales de MCO sobre sus contrapartes rezagadas. Luego
se usa esta estimación, ρ^ , en lugar de ρ para obtener las variables
cuasi diferenciadas. Luego, se estima por MCO la ecuación
yt’=β0x0t’+β1x1t’+...+βkxkt’+errort, donde x 0 t=(1− ρ^ ) para t≥2, y
2 1 /2
. Se obtiene así el estimador de MCG factibles (MCGF)
x 01=(1− ρ^ )
de las βj. El término ¨error¨ contiene et y también los términos que
involucran el error de estimación en ρ^ . El error de estimación en ρ^ no
afecta la distribución asintótica de los estimadores de MCGF.
*Estimación por MCG factibles del modelo AR(1):
-Regresar por MCO yt sobre x1t,…,xkt y obtener los residuales de MCO,
u^t , t=1,2,…,n.
-Regresar u^t sobre u^ t −1 y obtener ρ^ .
-Aplicar MCO a yt’=β0x0t’+β1x1t’+...+βkxkt’+errort para estimar β0,β1,…,βk.
Los errores estándar usuales, los estadísticos t y los estadísticos F son
asintóticamente válidos.
Al usar ρ^ en lugar de ρ, el estimador de MCG factibles no es
insesgado, aunque es consistente cuando los datos son débilmente
dependientes. Además, incluso si en y t’=(1-ρ)β0+β1x1t’+…+βkxkt’+et; et está
distribuido normalmente, los estadísticos t y F sólo tienen una distribución
t y F aproximada, debido al error de estimación en ρ^ . Se debe tener
cuidado con los tamaños de muestra pequeños. Como el estimador de
MCGF no es insesgado, no es MELI. Sin embargo, es asintóticamente
más eficiente que el estimador de MCO cuando el modelo AR(1) para la
correlación serial es válido (y las variables explicativas son estrictamente
exógenas). Esto siempre que las series de tiempo sean débilmente
dependientes.
La estimación Cochrane-Orcutt (C-O) omite la primera observación y
utiliza ρ^ de la regresión de u^t sobre u^ t −1 , mientras que la estimación
Prais-Winsten (P-W) corrige la primera observación usando (1-ρ2)1/2.
En la práctica, tanto el método de C-O como el de P-W se utilizan en un
esquema iterativo. Una vez que se halla el estimador de MCGF usando
ρ^ , se puede calcular un nuevo conjunto de residuales, obtener un
nuevo estimador de ρ, etc. Se puede repetir el proceso completo muchas
veces, hasta que la estimación de cambie muy poco respecto a la
iteración anterior. En teoría, las propiedades de muestra grande del
estimador iterado son las mismas que las del estimador que aplica sólo la
primera iteración.
Comparación de MCO y MCGF
En algunas aplicaciones de los métodos C-O o P-W, las estimaciones
por MCGF difieren mucho, en la práctica, de las estimaciones por MCO.
Sea el modelo de regresión yt=β0+β1xt+ut , donde los procesos de series
de tiempo son estacionarios. Ahora, suponiendo que la ley de los grandes
números es válida, la consistencia de MCO para β1 se mantiene si
Cov(xt,ut)=0. Los estimadores de MCGF son consistentes de acuerdo con
el supuesto de exogeneidad estricta, que es más restrictivo que la
ecuación anterior. De hecho, el supuesto más débil que debe mantenerse
para que los estimadores de MCGF sean consistentes, además de
Cov(xt,ut)=0, es que la suma de xt-1 y xt+1 no se correlacione con ut:
Cov[(xt-1+xt+1),ut]=0. La consistencia de MCGF exige que ut no se
correlacione con xt-1, xt, ni xt+1.
Con ρ conocido, el estimador de MCG utiliza x t-ρxt-1 como el regresor de
una ecuación donde ut-ρut-1 es el error. Por teorema se sabe que la
condición fundamental para la consistencia de MCO es que el error y el
regresor no estén correlacionados. Se necesita que E[(xt-ρxt-1)(ut-ρut-1)]=0.
Si se expande la esperanza, se obtiene E[(xt-ρxt-1)(ut-ρut-1)]=
=E(xtut)-ρE(xt-1ut)-ρE(xtut-1)+ρ2E(xt-1ut-1)=-ρ[E(xt-1ut)+E(xtut-1)] debido a que
E(xtut)=E(xt-1ut-1)=0 por el supuesto Cov(xt,ut)=0. Bajo la estacionariedad,
E(xtut-1)=E(xt+1ut). Por consiguiente, E(xt-1ut)+E(xtut-1)=E[(xt-1+xt+1)ut], y esto
es Cov[(xt-1+xt+1),ut] debido a que E(ut)=0. Luego, Cov(xt,ut)=0 y
Cov[(xt-1+xt+1),ut]=0 son necesarias para que MCG sean consistentes para
β1 .
MCO y MCGF podrían dar estimaciones significativamente distintas si
Cov[(xt-1+xt+1),ut]=0 no se satisface. En este caso, se prefieren MCO [aún
son consistentes bajo Cov(xt,ut)=0] a MCGF (que son inconsistentes). Si x
tiene un efecto rezagado sobre y, o xt+1 reacciona a los cambios en ut,
MCGF pueden generar resultados engañosos.
Como MCO y MCGF son procedimientos de estimación diferentes, no es
de esperar que den los mismos resultados. Si proporcionan estimaciones
similares de las βj, entonces son preferibles los MCGF si hay evidencia de
correlación serial, ya que el estimador es más eficiente y los estadísticos
de prueba de MCGF son al menos válidos asintóticamente.
Resulta difícil determinar si las diferencias prácticas en las estimaciones
por MCO y MCGF son estadísticamente significativas.
Corrección de la correlación serial de orden superior
Es posible corregir órdenes superiores de correlación serial.
Sea la correlación serial AR(2): ut=ρ1ut-1+ρ2ut-2+et, donde {et} es ujn error
de ruido blanco. Las condiciones de estabilidad son ρ2>-1, ρ2-ρ1<1,
ρ1+ρ2<1. Si se cumplen las condiciones de estabilidad, se puede obtener
la transformación que elimina la correlación serial. En el modelo de
regresión simple, para t>2: yt-ρ1yt-1+ρ2yt-2=β0(1-ρ1-ρ2)+β1(xt-ρ1xt-1-ρ2xt-2)+et o
yt’=β0(1-ρ1-ρ2)+β1xt’+et, t=3,4,…,n. Como pocas veces se conocen ρ1 y ρ2,
hay que estimarlas. Como es costumbre, se utilizan los residuales de
MCO, u^t : se obtienen ρ^ 1 y ρ^ 2 de la regresión de u^t sobre ut^−1 ,
ut^−2 , t=3,…,n. Luego, se emplean ρ^ 1 y ρ^ 2 en lugar de ρ1 y ρ2 para
obtener las variables transformadas. Esto da una versión del estimador de
MCG factibles. Si se tienen múltiples variables explicativas, entonces cada
una se transforma por x jt '=x jt − ρ^ 1 x j ,t −1− ρ^ 2 x j ,t −2 , cuando t>2.
Para tratar las primeras dos observaciones, la variable dependiente y
cada variable independiente (incluido el intercepto) deberían
(1+ ρ 2)[(1− ρ 2 )2− ρ 21 ] 1 /2
} z 1 //
transformarse por z 1 ' ={
(1− ρ 2)
ρ 1 (1− ρ 21)1 /2
2 1 /2
z 2 ' =(1−ρ 2 ) z 2−[
] z 1 , donde z1 y z2 denotan, ya sea una
(1− ρ 2)
variable dependiente o una independiente en t=1 y t=2, respectivamente.
Éstas eliminan la correlación serial entre las primeras dos observaciones y
hacen que las varianzas de su error sean iguales a σe2.
Diferenciación y correlación serial
Si se parte del modelo de regresión simple: yt=β0+β1xt+ut, t=1,2,…;
donde ut sigue el proceso AR(1). Los procedimientos usuales de
inferencia de MCO pueden ser muy engañosos cuando las variables y t y xt
son I(1). En el caso extremo en que los errores {u t} siguen una random
walk, la ecuación no tiene sentido porque, entre otras cosas, la varianza
de ut crece con t. Es más lógico diferenciar la ecuación: Δy t=β1Δxt+Δut,
t=2,…,n. Si ut sigue una random walk, entonces et=Δut tiene media cero,
varianza constante y no se correlaciona serialmente. Suponiendo que et y
Δxt no se correlacionan, se puede estimar la ecuación en primeras
diferencias por MCO. Incluso si ut no sigue una random walk pero ρ es
positiva y grande, es útil tomar la primera diferencia, ya que esto eliminará
la mayor parte de la correlación serial. Se puede tener más confianza en
los errores estándar de MCO y en los estadísticos t de esta ecuación
transformada. Así otro beneficio de la diferenciación es la eliminación de
la correlación serial
Inferencia robusta a la correlación serial después de MCO
Cuando las variables explicativas no son estrictamente exógenas,
MCGF ni siquiera es consistente, mucho menos eficiente. En la mayoría
de las aplicaciones de MCGF, se supone que los errores siguen un
modelo AR(1). Quizá sea mejor calcular los errores estándar para las
estimaciones de MCO que sean robustos ante formas más generales de
correlación serial.
Heterocedasticidad en regresiones de series de tiempo
La presencia de heterocedasticidad en las series de tiempo, mientras no
ocasiona sesgo ni inconsistencia en las β^ j , invalida los errores estándar
usuales y los estadísticos t y F, al igual que en el caso de corte
transversal.
Como los estadísticos usuales de MCO son válidos asintóticamente de
acuerdo con los supuestos 1 a 5, es interesante ver lo que sucede cuando
el supuesto 4 de homocedasticidad no se cumple.
Estadísticos robustos a la heterocedasticidad
Se pueden ajustar los errores estándar usuales de MCO y los
estadísticos t y F al considerar la presencia de heterocedasticidad de
forma desconocida, del mismo modo que se realizaba para datos de corte
transveral.
Pruebas de heterocedasticidad
Las pruebas que se usan para datos de corte transversal se aplican de
forma directa, pero con unas cuantas salvedades. En primer lugar, los
errores ut no deben correlacionarse serialmente; cualquier correlación
serial por lo general invalida las pruebas de heterocedasticidad. Tiene
sentido probar primero la correlación serial, con ayuda de una prueba
robusta a la heterocedasticidad, si se sospecha de la existencia de ésta.
Una vez que se han realizado las acciones pertinentes para corregir la
correlación serial, se pone a prueba la heterocedasticidad.
Considerando la ecuación utilizada para la prueba de heterocedasticidad
de Breusch-Pagan: ut2=δ0+δ1x1t+…+δkxkt+vt, donde H0: δ1=δ2=…=δk=0.
Para que sea válido el estadístico F, con u^ 2t reemplazando a ut2 como
variable dependiente, se debe suponer que los errores {v t} son en sí
homocedásticos (como en el caso de corte transversal) y que no están
serialmente correlacionados. Esto se da por sentado de manera implícita
al calcular todas las pruebas estándar de heterocedasticidad, incluida la
la prueba de White. El supuesto de que las {vt} no están serialmente
correlacionadas excluye ciertas formas de heterocedasticidad dinámica.
Si se encuentra heterocedasticidad en ut (y las ut no se correlacionan
serialmente), entonces se pueden utilizar los estadísticos de prueba
robustos a la heterocedasticidad. Una alternativa es emplear mínimos
cuadrados ponderados. La mecánica de MCP para el caso de series de
tiempo es igual que en el caso de corte transversal.
Heterocedasticidad condicional autorregresiva
Si xt contiene una variable dependiente rezagada, entonces la
heterocedasticidad dada en ut2=δ0+δ1x1t+…+δkxkt+vt es dinámica. Pero las
formas dinámicas de heterocedasticidad aparecen incluso en modelos
que no son dinámicos en la ecuación de regresión.
Sea un modelo de regresión estática simple: yt=β0+β1zt+ut, suponemos
que los supuestos de Gauss-Markov son válidos. Esto quiere decir que los
estimadores de MCO son MELI. El supuesto de homocedasticidad
establece que Var(ut|Z) es constante, donde Z denota los n resultados de
zt. Aun cuando la varianza de ut dada Z es constante, la
heterocedasticidad puede surgir de otras formas.
Engle propuso considerar la varianza condicional de ut, dados los
errores pasados (el condicionamiento sobre Z se deja implícito). Sugirió el
modelo de heterocedasticidad condicional autorregresiva (ARCH). El
modelo ARCH de primer orden es E(u t2|ut-1,ut-2,…)=E(ut2|ut-1)=α0+α1ut-12,
donde queda implícito el condicionamiento sobre Z. Esta ecuación
representa la varianza condicional de u t dada la ut anterior sólo si
E(ut|ut-1,ut-2,…)=0, lo cual significa que los errores no están
correlacionados serialmente. Como las varianzas condicionales deben ser
positivas, este modelo sólo tiene sentido si α0>0 y α1≥0; si α1=0, no hay
dinámica en la ecuación de la varianza.
Se puede escribir la ecuación como ut2=α0+α1ut-12+vt, donde el valor
esperado de vt (dadas ut-1,ut-2,…) es cero por definición. (Sin embargo, las
vt no son independientes de las ut pasadas debido a la restricción v t≥-α0α1ut-12). La ecuación parece un modelo autorregresivo en u t2 (de ahí el
nombre ARCH). La condición de estabilidad para esta ecuación es α1<1,
como en el modelo AR(1) usual. Cuando α1>0, los errores cuadrados
contienen correlación serial (positiva) aun cuando las mismas u t no la
tengan.
Las implicaciones para MCO, ya que se supuso que los supuestos de
Gauss-Markov son válidos, los estimadores de MCO son MELI. Además,
aun si ut no estuviera distribuida normalmente, se sabe que los
estadísticos de prueba usuales de MCO son válidos asintóticamente bajo
los supuestos 1 a 5, los que se satisfacen en los modelos estáticos y de
rezagos distribuidos con errores ARCH.
Aunque MCO aún tienen propiedades deseables bajo ARCH, es
necesario ocuparse de esto porque es posible obtener estimadores
consistentes (aunque no insesgados) de las βj que son asintóticamente
más eficientes que los estimadores de MCO. Un procedimiento de MCP,
basado en la estimación de ut2=α0+α1ut-12+vt, resolverá el problema. Un
procedimiento de MV bajo el supuesto de que los errores u t tienen una
distribución normal condicional también sirve. Puesto que la varianza a
menudo se utiliza para medir la volatilidad y esta es un elemento clave en
las teorías de fijación de precios de los activos, los modelos ARCH se han
vuelto importantes en las finanzas empíricas.
Los modelos ARCH se aplican también cuando hay dinámica en la
media condicional. Si se tiene la variable dependiente yt, una variable
exógena contemporánea zt y E(yt|zt,yt-1,zt-1,yt-2,…)=β0+β1zt+β2yt-1+β3zt-1, de
manera que a lo sumo un rezago de y y de z aparecen en la regresión
dinámica. El enfoque tradicional es suponer que Var(y t|zt,yt-1,zt-1,yt-2,…) es
constante. Pero esta varianza podría seguir un modelo ARCH:
Var(yt|zt,yt-1,zt-1,yt-2,…)=Var(yt|zt,yt-1,zt-1,yt-2,…)=α0+α1ut-12, donde
ut=yt-E(yt|zt,yt-1,zt-1,yt-2,…). La presencia de ARCH no afecta la consistencia
de MCO y los errores estándar robustos a la heterocedasticidad y los
estadísticos de prueba son válidos (son válidos para cualquier forma de
heterocedasticidad y ARCH es sólo una forma particular de
heterocedasticidad).
Heterocedasticidad y correlación serial en modelos de regresión
Nada anula la posibilidad de que tanto la heterocedasticidad como la
correlación serial estén presentes en un modelo de regresión.
La mayoría de las ocasiones, la correlación de series de tiempo se
considera el problema más importante, debido a que por lo general tiene
un mayor impacto en los errores estándar y en la eficiencia de los
estimadores del que tiene la heterocedasticidad.
Si en una prueba se detecta correlación serial, se puede emplear la
transformación de Cochrane-Orcutt (o Prais-Winsten) y, en la ecuación
transformada, usar errores estándar y estadísticos de prueba robustos a
la heterocedasticidad.
Otra opción es que se pueden modelar la heterocedasticidad y la
correlación serial y corregir ambas mediante un procedimiento combinado
de mínimos cuadrados ponderados y AR(1). Sea el modelo
yt=β0+β1x1t+…+βkxkt+ut ; ut =√ ht v t vt=ρvt-1+et, |ρ|<1, donde las variables
explicativas X son independientes de et para toda t, y ht es una función de
xjt. El proceso {et} tiene media cero, varianza constante σe2 y no está
correlacionado serialmente. Por tanto, {v t} satisface un proceso AR(1)
estable. El error ut es heterocedástico, además de contener correlación
u
σ 2e
serial: Var(ut|xt)=σv2ht, donde σv2=
. Pero v t = t es
2
(1− ρ )
√h t
homocedástica y sigue un modelo AR(1) estable. De modo que la
yt
x1t
x kt
1
ecuación transformada
=β 0 (
)+ β 1 (
)+...+ β k (
)+ v tiene
√ ht
√h t
√h t
√ ht t
errores AR(1). Si se tiene un tipo particular de heterocedasticidad en
mente (se conoce ht), se puede estimar esta ecuación usando los
métodos estándar de CO o PW.
En la mayoría de los casos, primero se tiene que estimar h t.
MCG factibles con heterocedasticidad y correlación serial AR(1):
-Estimar la ecuación original por MCO y guardar los residuales, u^t .
-Regresar log ( u^ 2t ) sobre x1t,…,xkt (o sobre y^ t , ^y 2t ) y obtener los
valores ajustados, por ejemplo, g^ t .
-Estimar ht: h^t =exp( g^ t) .
-Estimar la ecuación transformada
h^t−1/ 2 y t =h^t−1/ 2 β 0 + β 1 h^t−1/ 2 x 1t +...+ β k h^ t−1 /2 x kt + error t por los métodos
estándar de Cochrane-Orcutt o Prais-Winsten.
Los estimadores de MCG factibles obtenidos del procedimiento son
asintóticamente eficientes, siempre y cuando los supuestos del modelo se
cumplan. Todos los errores estándar y los estadísticos de prueba de la
estimación CO o PW son asintóticamente válidos. Si se permite que la
función de varianza se especifique incorrectamente, o la posibilidad de
que alguna correlación serial no siga un modelo AR(1), entonces se puede
aplicar la cuasi diferenciación a la última ecuación, estimando la ecuación
resultante por MCO, y luego obtener los errores estándar de Newey-West.
Al hacer esto, se estaría utilizando un procedimiento que podría ser
asintóticamente eficiente al mismo tiempo que garantizara que nuestra
inferencia sea válida (asintóticamente) si se ha especificado
incorrectamente nuestro modelo, ya sea de heterocedasticidad o de
correlación serial.
Download