Correlación serial y heterocedasticidad en series de tiempo Los modelos de rezagos distribuidos finitos y los modelos estáticos con frecuencia tienen errores serialmente correlacionados incluso si no hay una especificación incorrecta subyacente al modelo. Propiedades de MCO con errores correlacionados serialmente Insesgamiento y consistencia El estimador de MCO es insesgado bajo los primeros tres supuestos de Gauss-Markov para series de tiempo. El teorema de insesgamiento no da por sentado nada respecto a la correlación serial en los errores. Siempre y cuando las variables explicativas sean estrictamente exógenas, las β^ j son insesgadas, sin importar el grado de correlación serial en los errores. Al relajar el supuesto de exogeneidad estricta a E(ut|xt)=0 se verifica que, cuando los datos son débilmente dependientes, las β^ j siguen siendo consistentes (aunque no necesariamente insesgadas). Esto no depende de ningún supuesto sobre la correlación serial en los errores. Eficiencia e inferencia Cuando los errores están correlacionados serialmente, los estimadores de MCO ya no son MELI. Los errores estándar usuales de MCO y los estadísticos de prueba no son válidos, incluso asintóticamente. Si suponemos que ut es AR(1): ut=ρut-1+et, t=1,2, …,n; et~(0,σe2) y |ρ|<1 (condición de estabilidad). Consideramos la varianza del estimador de β1 en el modelo de regresión simple yt=β0+β1xt+ut, para simplificar suponemos que x̄=0 . Por lo tanto, n ∑ x t ut se puede escribir β^ 1= β 1 + t =1n ∑x t =1 . Al calcular Var ( β^ 1∣X) , se debe 2 t n representar la correlación serial en las ut: Var ( β^ 1)= = n n−1 n−t t =1 t =1 j=1 n 2 2 t t=1 Var (∑ x t ut ) t =1 n ( ∑ x2t ) 2 t =1 ∑ x 2t Var (ut )+2 ∑ ∑ x t x t + j E(ut ut + j ) (∑ x ) n−1 n−t 2 2 = nσ + 2 nσ ∑ ∑ ρ j x t x t + j ∑ x 2t ∑ x 2t t=1 j=1 t =1 2 j t=1 2 donde σ =Var(ut) y E(utut+j)=Cov(ut, ut+j)=ρ σ . Se verifica que σ2 n ∑ x 2t t =1 es la varianza de β^ 1 cuando ρ=0, que es la varianza usual de MCO bajo los supuestos de Gauss-Markov. Si se ignora la correlación serial y se estima la varianza en la forma usual, el estimador de la varianza, por lo general, será sesgado cuando ρ≠0 ya que ignora el segundo término en la ecuación. Si ρ>0 y xt,xt+j se relacionan de forma positiva en el tiempo, el n−1 n−t término ∑ ∑ ρ j x t xt + j t =1 j=1 varianza de MCO es positivo, y por ello la fórmula usual de la σ2 subestima la varianza verdadera del estimador n ∑x t =1 2 t de MCO. Si ρ es grande o xt tiene un grado alto de correlación serial positiva (caso común), el sesgo del estimador usual de la varianza de MCO puede ser sustancial. En tal caso, se considerará que el estimador MCO de la pendiente es más preciso de lo que en realidad es. Dado que el error estándar de β^ 1 es una estimación de la desviación estándar de β^ 1 , no es válido utilizar el error estándar usual de MCO en presencia de correlación serial. Por lo tanto, los estadísticos t ya no pueden utilizarse para probar hipótesis simples. Los estadísticos t usuales a menudo serán muy grandes cuando ρ>0. Tampoco son válidos los estadísticos F y ML para probar hipótesis múltiples. Bondad de ajuste Siempre y cuando los datos sean estacionarios y débilmente dependientes, R2 y R̄2 siguen siendo válidas. σ 2u 2 La definición R =1− 2 sigue siendo apropiada en el contexto de la σy regresión de series de tiempo con datos estacionarios débilmente dependientes: las varianzas tanto de los errores como de la variable dependiente no cambian con el tiempo. Por la ley de los números grandes, tanto, R2 como R̄2 estiman de manera consistente la R2 poblacional. Debido a que nunca hay un estimador insesgado de la R2 poblacional, no tiene sentido hablar sobre sesgos en R 2 provocados por la correlación serial. En realidad, todo lo que se puede decir es que nuestras medidas de bondad de ajuste siguen siendo estimadores consistentes del parámetro poblacional. Este argumento no es válido si {yt} es un proceso I(1) ya que Var(yt) crece con t; la bondad de ajuste no tiene mucho sentido en este caso. Las tendencias en la media de yt, o la estacionalidad, pueden y deben tomarse en cuenta al calcular R2. Otras desviaciones de la estacionariedad no generan dificultad en la interpretación de R 2 y R̄2 . Correlación serial en presencia de variables dependientes rezagadas Es falso que, en general, los estimadores de MCO son inconsistentes en presencia de variables dependientes rezagadas y de errores correlacionados serialmente (sólo sucede bajo ciertas condiciones). Sea el valor esperado de yt dado yt-1 lineal: E(yt|yt-1)=β0+β1yt-1, en donde se supone estabilidad, |β1|<1. Siempre se puede escribir esto con un término de error como yt=β0+β1yt-1+ut, E(ut|yt-1)=0. Por construcción, este modelo satisface el supuesto clave de la media condicional cero para la consistencia de MCO y, por ende, los estimadores de MCO β^ 0 y β^ 1 son consistentes. Sin supuestos adicionales, los errores {ut} pueden estar correlacionados serialmente. La correlación serial en los errores hará que los estadísticos usuales de MCO no sean válidos para fines de pruebas, pero no afectará la consistencia. Ahora bien, MCO son inconsistentes si los errores se correlacionan serialmente y los regresores contienen una variable dependiente rezagada cuando el modelo se escribe en forma de error, pero se supone que {ut} sigue un modelo AR(1) estable, en donde E(et|ut-1,ut-2,…)=E(et|yt-1,yt-2,…)=0. Por la suposición de que et no está correlacionada con yt-1 sucede que Cov(yt-1,ut)=ρCov(yt-1,ut-1), lo cual no es cero a menos que ρ=0. Esto hace que los estimadores de MCO de β0 y β1 de la regresión de yt sobre yt-1 sean inconsistentes. Al combinar las ecuaciones yt=β0+β1yt-1+ut y ut=ρut-1+et, se ve que yt en realidad sigue un modelo AR(2). Escribimos ut-1=yt-1-β0-β1yt-2 y sustituimos esto en ut=ρut-1+et. Por lo tanto, podemos reescribir el modelo como yt=β0+β1yt-1+ρ(yt-1-β0-β1yt-2)+et=β0(1-ρ)+(β1+ρ)yt-1-ρβ1yt-2+et= =α0+α1yt-1+α2yt-2+et, donde α0=β0(1-ρ); α1=(β1+ρ); α2=-ρβ1. Dado que E(et|ut-1,ut-2,…)=E(et|yt-1,yt-2,…)=0, se deduce que E(yt|yt-1,yt-2,…)= E(yt|yt-1,yt2)= α0+α1yt-1+α2yt-2. Esto significa que el valor esperado de y t, dadas todas las y, anteriores, depende de dos rezagos de y. Esta es la ecuación que interesa utilizar para cualquier propósito práctico. Bajo condiciones de estabilidad adecuadas para un modelo AR(2), la estimación por MCO de la ecuación genera estimadores consistentes y asintóticamente normales de αj. A menudo, la correlación serial en los errores de un modelo dinámico señala que la función dinámica de la regresión no se ha especificado por completo. Métodos de prueba de la correlación serial Cuando los regresores son estrictamente exógenos, el error ut no se correlaciona con los regresores en todos los periodos, y de esta manera se descartan, entre otras cosas, los modelos con variables dependientes rezagadas. Prueba t de correlación serial AR(1) con regresores estrictamente exógenos La hipótesis nula es que no hay correlación serial. Primero se deriva una prueba para muestras grandes de acuerdo con el supuesto de que las variables explicativas son estrictamente exógenas: el valor esperado de ut, dada toda la historia de las variables independientes, es cero. Además, en ut=ρut-1+et se debe suponer E(et|ut-1,ut-2,…)=0 y Var(et|ut-1)=Var(et)=σe2. Estos son los supuestos estándar del modelo AR(1) (se siguen cuando {et} es una secuencia i.i.d.) y permiten aplicar los resultados de muestras grandes a la regresión dinámica. La hipótesis nula es que el supuesto de Gauss-Markov adecuado es verdadero. En el modelo AR(1), la hipótesis nula de que los errores no se correlacionan de forma serial es H 0: ρ=0. Si se observara la ut entonces, bajo los supuestos realizados, se aplicarían los resultados de normalidad asintótica del teorema al modelo de regresión dinámica ut=ρut-1+et, t=2,…,n. (De acuerdo con H0, {ut} es débilmente dependiente). Se puede estimar de la regresión de ut sobre ut-1, para toda t=2,…,n, sin un intercepto y utilizar el estadístico t usual para ρ^ . Pero esto no funciona ya que no se observan los errores ut. No obstante, se puede reemplazar ut con el residual de MCO correspondiente, u^t . Los residuos u^t dependen de los estimadores MCO β^ 0 , β^ 1 , ..., β^ k , por el supuesto de exogeneidad estricta, la distribución de muestra grande del estadístico t no se ve afectada por el uso de los residuales de MCO en lugar de los errores. *Prueba de correlación serial AR(1) con regresores estrictamente exógenos: -Regresar por MCO yt sobre x1t, …, xkt y obtener los residuales de MCO, u^t , para toda t=1,2,…,n. -Regresar u^t sobre ut^−1 , para toda t=2,…,n; para obtener el coeficiente ρ^ de ut^−1 y su estadístico t, t ρ^ . -Se usa t ρ^ para probar H0: ρ=0 contra H1: ρ≠0 en la forma común. Cualquier correlación serial que provoque que los errores adyacentes se correlacionen puede detectarse mediante esta prueba. Por otra parte, no detecta correlación serial donde los errores adyacentes no están correlacionados, Corr(ut,ut-1)=0 (ej: ut y ut-2 pueden estar correlacionados). Al usar el estadístico t usual, se debe suponer que los errores satisfacen el supuesto de homocedasticidad adecuado. Para hacer la prueba robusta a la heterocedasticidad en et, se usa simplemente el estadístico t robusto a la heterocedasticidad. Prueba de Durbin-Watson bajo los supuestos clásicos Otra prueba para la correlación serial AR(1) es la de Durbin-Watson. El n ∑ (u^t −^ut −1)2 estadístico DW es: DW = t =2 n ∑ u^ t =1 . Desarrollando el cuadrado y 2 t reemplazando por el estimador de ρ: DW ≈2(1−ρ^ ) . Esta relación no es exacta porque ρ^ tiene n ∑ u^ 2t −1 en su denominador. Incluso con t=2 tamaños de muestra moderados, la aproximación es muy cercana. Por lo tanto, las pruebas basadas en DW y la prueba t basada en ρ^ son conceptualmente iguales. Durbin y Watson obtienen la distribución de DW (condicional en X), lo que requiere todo el conjunto de supuestos del MLC, incluida la normalidad de los términos de error. Esta distribución depende de los valores de las variables independientes, del tamaño de la muestra, del número de regresores y de si la regresión contiene un intercepto. Por lo general, la prueba de DW se calcula para la alternativa H 1: ρ>0. A partir de la aproximación, ρ^ =0 implica que DW≈2, y ρ^ >0 implica que DW<2. Para rechazar H0 a favor de H1: ρ>0, se busca un valor de DW que sea considerablemente menor que dos. Se debe comparar DW con dos conjuntos de valores críticos. Estos son dU (el superior) y dL (el inferior). Si DW<dL, entonces se rechaza H0 en favor de H1; si DW>dU, no se rechaza H0. Cuando dL<DW<dU, la prueba no es concluyente. Que pueda tabularse una distribución de muestreo exacta para DW es la única ventaja que DW tiene sobre la prueba t. Las desventajas del estadístico DW son que los valores críticos tabulados son exactamente válidos sólo bajo el conjunto completo de supuestos del MLC y que éstos pueden conducir a una amplia región no concluyente. El estadístico t es fácil de calcular y asintóticamente válido sin errores normalmente distribuidos. El estadístico t también es válido en presencia de heterocedasticidad que depende de las x jt. Además, es fácil hacerlo robusto a cualquier forma de heterocedasticidad. Prueba de correlación serial AR(1) sin regresores estrictamente exógenos Cuando las variables explicativas no son estrictamente exógenas, de manera que una o más xjt están correlacionadas con ut-1, ni la prueba t de ni el estadístico DW son válidos, incluso en muestras grandes. El caso principal de regresores sin exogeneidad estricta ocurre cuando el modelo contiene una variable dependiente rezagada: y t-1 y ut-1 están correlacionadas. Hay dos alternativas para el estadístico DW cuando el modelo contiene una variable dependiente rezagada y los otros regresores son no aleatorios (o estrictamente exógenos). La primera alternativa es el estadístico h de Durbin, con el inconveniente práctico de que no siempre se puede calcular. *Prueba de correlación serial con regresores generales: -Regresar por MCO yt sobre x1t, …, xkt y obtener los residuales de MCO, u^t , para toda t=1,2,…,n. -Regresar u^t sobre x1t,x2t,…,xkt, u^ t −1 , para toda t=2,…,n; para obtener el coeficiente ρ^ de u^ t −1 y su estadístico t, t ρ^ . -Usar t ρ^ para probar H0: ρ=0 contra H1: ρ≠0 (o contra una alternativa de una cola). Se regresan los residuales de MCO sobre todas las variables independientes, incluidos un intercepto y el residual rezagado. El estadístico t del residual rezagado es una prueba válida de H0 para el modelo AR(1) [cuando se añade Var(u t|xt,ut-1)=σ2 bajo H0]. Cualquier número de variables dependientes rezagadas podrían aparecer entre las xjt, y también se pueden permitir otras variables explicativas sin exogeneidad estricta. La inclusión de x1t,…,xkt explícitamente permite que cada xjt esté correlacionada con ut-1, y esto asegura que t ρ^ tenga una distribución t aproximada para muestras grandes. Debido a que u^t = y t− β^ 0− β^ 1 x 1 t−...−β^ k x kt , el estadístico t de u^ t −1 es el mismo si yt se usa en lugar de u^t como variable dependiente en la regresión. El test t se vuelve robusto a la heterocedasticidad de forma desconocida usando simplemente el estadístico t robusto a la heterocedasticidad para u^ t −1 . Prueba de correlación serial de orden superior Si por ejemplo se desea probar H0: ρ1=0, ρ2=0 en el modelo AR(2), ut=ρ1ut-1+ρ2ut-2+et; se estima el modelo por medio de MCO y se obtienen los residuales de MCO, u^t . Luego, se lleva a cabo la regresión de u^t sobre x1t,x2t,…,xkt, u^ t −1 y u^ t −2 , para toda t=3,…,n, con el propósito de obtener la prueba F de significancia conjunta para u^ t −1 y u^ t −2 . Si estos dos rezagos son conjuntamente significativos a un nivel muy pequeño entonces se rechaza H0 y se llega a la conclusión de que los errores se correlacionan serialmente. Se puede probar la correlación serial del modelo autoregresivo de orden q: ut=ρ1ut-1+ρ2ut-2+…+ρqut-q+et. La hipótesis nula es H0: ρ1=0, ρ2=0,…, ρq=0. Prueba de correlación serial AR(q): -Regresar por MCO yt sobre x1t,…,xkt y obtener los residuales de MCO, u^t , para toda t=1,2,…,n. -Regresar u^t sobre x1t,x2t,…,xkt, u^ t −1 , u^ t −2 ,…, u^ t −q , para toda t=(q+1),…,n. -Calcular la prueba F de significancia conjunta de u^ t −1 , u^ t −2 ,…, u^ t −q . Si se supone que las xjt son estrictamente exógenas, de modo que cada xjt no se correlaciona con ut-1,ut-2,…,ut-q, entonces las xjt pueden omitirse de lal útlima regresión. Incluir de las xjt en la regresión hace que la prueba sea válida con o sin el supuesto de exogeneidad estricta. La prueba requiere el supuesto de homocedasticidad Var(ut|xt,ut-1,…,ut-q)=σ2. Una alternativa para calcular la prueba F es usar la forma del multiplicador de Lagrange (ML) del estadístico, el cual es LM =( n−q) R2u^ , donde R2u^ es la R2 usual de la regresión de u^t . Bajo H0, ML ~ª χq2. Esta es la prueba de Breusch-Godfrey para correlación serial AR(q). El estadístico ML también exige homocedasticidad, pero puede volverse robusto a la heterocedasticidad. Con datos no desestacionalizados, se pueden probar formas estacionales de correlación serial. Por ejemplo, con datos trimestrales se podría postular el modelo autorregresivo u t=ρ4ut-4+et. Se procede de igual modo que con un AR(1), reemplazando u^ t −1 por u^ t −4 donde corresponda. Si los datos son mensuales y no desestacionalizados, tiene sentido probar la correlación entre ut y ut-12. Corrección de correlación serial con regresores estrictamente exógenos Obtención del MELI en el modelo AR(1) En adelante, se tienen como ciertos los supuestos de Gauss-Markov 1 a 4, pero se relaja el supuesto 5. Se supone que los errores siguen el modelo AR(1): ut=ρut-1+et, para toda t=1,2,…; el supuesto 3 implica que ut tiene media cero condicional en X. Se da por sentado el condicionamiento sobre X con el fin de simplificar la notación. σ 2e La varianza de ut es Var(ut)= . Sea el modelo: yt=β0+β1xt+ut (1− ρ 2) para toda t=1,2,…,n. Como el problema de esta ecuación es la correlación serial en ut, se la transforma para eliminar la correlación serial. Para t≥2, se escribe yt-1=β0+β1xt-1+ut-1 ; yt=β0+β1xt+ut. Si se multiplica la primera ecuación por ρ y se la resta de la segunda ecuación, se obtiene yt-ρyt-1=(1-ρ)β0+β1(xt-ρxt-1)+et, t≥2, usando et=ut-ρut-1. Se puede escribir esto como y t '=(1− ρ ) β 0 + β 1 x t '+ et , t≥2, esta es la ecuación en cuasi diferencias. (Si ρ=1, es la ecuación en primeras diferencias, pero se está suponiendo que |ρ|<1). Los términos de error en la ecuación no están correlacionados serialmente; esta ecuación satisface todos los supuestos de Gauss-Markov. Si se conoce , se puede estimar β0 y β1 al hacer la regresión de yt’ en xt’, siempre y cuando se divida el intercepto estimado entre (1-ρ). Los estimadores de MCO de la ecuación no son MELI porque no utilizan el primer periodo. Esto puede arreglarse al escribir la ecuación para t=1 como y1=β0+β1x1+u1. Como cada et no está correlacionado con u1, se puede añadir esta ecuación a la ecuación de yt’ sobre xt’ y aún tener errores no correlacionados serialmente. Sin embargo, se tiene que σ 2e 2 Var (u1 )= > σ e =Var ( et ) . Por ende, se debe multiplicar la ecuación 2 (1− ρ ) por (1-ρ2)1/2 para obtener errores con la misma varianza: (1-ρ2)1/2y1=(1-ρ2)1/2β0+β1(1-ρ2)1/2x1+(1-ρ2)1/2u1 o y1’=(1-ρ2)1/2β0+β1x1’+u1’, donde u1’=(1-ρ2)1/2u1, y1’=(1-ρ2)1/2y1, y así sucesivamente. El error en esta ecuación tiene varianza Var( u1’)=(1-ρ2)Var(u1)=σe2, de modo que se pueden usar las ecuaciones para yt’ e y1’ en una regresión de MCO. Esto da los estimadores MELI de β0 y β1 bajo los supuestos 1 a 4 y el modelo AR(1) para ut. Este es otro ejemplo de un estimador de MCG. Al añadir más regresores, para t≥2, se usa la ecuación yt’=(1-ρ)β0+β1x1t’+…+βkxkt’+et, donde xjt’=xjt-ρxj,t-1. Para t=1, se tiene y1’=(1-ρ2)1/2y1, xj1’=(1-ρ2)1/2xj1, y el intercepto es (1-ρ2)1/2β0. A menos que ρ=0, el estimador MCG, es decir MCO sobre los datos transformados, por lo general será diferente del estimador MCO original. El estimador MCG resulta ser MELI, y dado que los errores en la ecuación transformada no están correlacionados serialmente y son homocedásticos, los estadísticos t y F de la ecuación transformada son válidos (cuando menos asintóticamente, y exactamente si los errores et están normalmente distribuidos). Estimación por MCG factibles con errores AR(1) El problema de estimar por MCG es que ρ rara vez se conoce en la práctica. Sin embargo, se puede obtener un estimador consistente al regresar los residuales de MCO sobre sus contrapartes rezagadas. Luego se usa esta estimación, ρ^ , en lugar de ρ para obtener las variables cuasi diferenciadas. Luego, se estima por MCO la ecuación yt’=β0x0t’+β1x1t’+...+βkxkt’+errort, donde x 0 t=(1− ρ^ ) para t≥2, y 2 1 /2 . Se obtiene así el estimador de MCG factibles (MCGF) x 01=(1− ρ^ ) de las βj. El término ¨error¨ contiene et y también los términos que involucran el error de estimación en ρ^ . El error de estimación en ρ^ no afecta la distribución asintótica de los estimadores de MCGF. *Estimación por MCG factibles del modelo AR(1): -Regresar por MCO yt sobre x1t,…,xkt y obtener los residuales de MCO, u^t , t=1,2,…,n. -Regresar u^t sobre u^ t −1 y obtener ρ^ . -Aplicar MCO a yt’=β0x0t’+β1x1t’+...+βkxkt’+errort para estimar β0,β1,…,βk. Los errores estándar usuales, los estadísticos t y los estadísticos F son asintóticamente válidos. Al usar ρ^ en lugar de ρ, el estimador de MCG factibles no es insesgado, aunque es consistente cuando los datos son débilmente dependientes. Además, incluso si en y t’=(1-ρ)β0+β1x1t’+…+βkxkt’+et; et está distribuido normalmente, los estadísticos t y F sólo tienen una distribución t y F aproximada, debido al error de estimación en ρ^ . Se debe tener cuidado con los tamaños de muestra pequeños. Como el estimador de MCGF no es insesgado, no es MELI. Sin embargo, es asintóticamente más eficiente que el estimador de MCO cuando el modelo AR(1) para la correlación serial es válido (y las variables explicativas son estrictamente exógenas). Esto siempre que las series de tiempo sean débilmente dependientes. La estimación Cochrane-Orcutt (C-O) omite la primera observación y utiliza ρ^ de la regresión de u^t sobre u^ t −1 , mientras que la estimación Prais-Winsten (P-W) corrige la primera observación usando (1-ρ2)1/2. En la práctica, tanto el método de C-O como el de P-W se utilizan en un esquema iterativo. Una vez que se halla el estimador de MCGF usando ρ^ , se puede calcular un nuevo conjunto de residuales, obtener un nuevo estimador de ρ, etc. Se puede repetir el proceso completo muchas veces, hasta que la estimación de cambie muy poco respecto a la iteración anterior. En teoría, las propiedades de muestra grande del estimador iterado son las mismas que las del estimador que aplica sólo la primera iteración. Comparación de MCO y MCGF En algunas aplicaciones de los métodos C-O o P-W, las estimaciones por MCGF difieren mucho, en la práctica, de las estimaciones por MCO. Sea el modelo de regresión yt=β0+β1xt+ut , donde los procesos de series de tiempo son estacionarios. Ahora, suponiendo que la ley de los grandes números es válida, la consistencia de MCO para β1 se mantiene si Cov(xt,ut)=0. Los estimadores de MCGF son consistentes de acuerdo con el supuesto de exogeneidad estricta, que es más restrictivo que la ecuación anterior. De hecho, el supuesto más débil que debe mantenerse para que los estimadores de MCGF sean consistentes, además de Cov(xt,ut)=0, es que la suma de xt-1 y xt+1 no se correlacione con ut: Cov[(xt-1+xt+1),ut]=0. La consistencia de MCGF exige que ut no se correlacione con xt-1, xt, ni xt+1. Con ρ conocido, el estimador de MCG utiliza x t-ρxt-1 como el regresor de una ecuación donde ut-ρut-1 es el error. Por teorema se sabe que la condición fundamental para la consistencia de MCO es que el error y el regresor no estén correlacionados. Se necesita que E[(xt-ρxt-1)(ut-ρut-1)]=0. Si se expande la esperanza, se obtiene E[(xt-ρxt-1)(ut-ρut-1)]= =E(xtut)-ρE(xt-1ut)-ρE(xtut-1)+ρ2E(xt-1ut-1)=-ρ[E(xt-1ut)+E(xtut-1)] debido a que E(xtut)=E(xt-1ut-1)=0 por el supuesto Cov(xt,ut)=0. Bajo la estacionariedad, E(xtut-1)=E(xt+1ut). Por consiguiente, E(xt-1ut)+E(xtut-1)=E[(xt-1+xt+1)ut], y esto es Cov[(xt-1+xt+1),ut] debido a que E(ut)=0. Luego, Cov(xt,ut)=0 y Cov[(xt-1+xt+1),ut]=0 son necesarias para que MCG sean consistentes para β1 . MCO y MCGF podrían dar estimaciones significativamente distintas si Cov[(xt-1+xt+1),ut]=0 no se satisface. En este caso, se prefieren MCO [aún son consistentes bajo Cov(xt,ut)=0] a MCGF (que son inconsistentes). Si x tiene un efecto rezagado sobre y, o xt+1 reacciona a los cambios en ut, MCGF pueden generar resultados engañosos. Como MCO y MCGF son procedimientos de estimación diferentes, no es de esperar que den los mismos resultados. Si proporcionan estimaciones similares de las βj, entonces son preferibles los MCGF si hay evidencia de correlación serial, ya que el estimador es más eficiente y los estadísticos de prueba de MCGF son al menos válidos asintóticamente. Resulta difícil determinar si las diferencias prácticas en las estimaciones por MCO y MCGF son estadísticamente significativas. Corrección de la correlación serial de orden superior Es posible corregir órdenes superiores de correlación serial. Sea la correlación serial AR(2): ut=ρ1ut-1+ρ2ut-2+et, donde {et} es ujn error de ruido blanco. Las condiciones de estabilidad son ρ2>-1, ρ2-ρ1<1, ρ1+ρ2<1. Si se cumplen las condiciones de estabilidad, se puede obtener la transformación que elimina la correlación serial. En el modelo de regresión simple, para t>2: yt-ρ1yt-1+ρ2yt-2=β0(1-ρ1-ρ2)+β1(xt-ρ1xt-1-ρ2xt-2)+et o yt’=β0(1-ρ1-ρ2)+β1xt’+et, t=3,4,…,n. Como pocas veces se conocen ρ1 y ρ2, hay que estimarlas. Como es costumbre, se utilizan los residuales de MCO, u^t : se obtienen ρ^ 1 y ρ^ 2 de la regresión de u^t sobre ut^−1 , ut^−2 , t=3,…,n. Luego, se emplean ρ^ 1 y ρ^ 2 en lugar de ρ1 y ρ2 para obtener las variables transformadas. Esto da una versión del estimador de MCG factibles. Si se tienen múltiples variables explicativas, entonces cada una se transforma por x jt '=x jt − ρ^ 1 x j ,t −1− ρ^ 2 x j ,t −2 , cuando t>2. Para tratar las primeras dos observaciones, la variable dependiente y cada variable independiente (incluido el intercepto) deberían (1+ ρ 2)[(1− ρ 2 )2− ρ 21 ] 1 /2 } z 1 // transformarse por z 1 ' ={ (1− ρ 2) ρ 1 (1− ρ 21)1 /2 2 1 /2 z 2 ' =(1−ρ 2 ) z 2−[ ] z 1 , donde z1 y z2 denotan, ya sea una (1− ρ 2) variable dependiente o una independiente en t=1 y t=2, respectivamente. Éstas eliminan la correlación serial entre las primeras dos observaciones y hacen que las varianzas de su error sean iguales a σe2. Diferenciación y correlación serial Si se parte del modelo de regresión simple: yt=β0+β1xt+ut, t=1,2,…; donde ut sigue el proceso AR(1). Los procedimientos usuales de inferencia de MCO pueden ser muy engañosos cuando las variables y t y xt son I(1). En el caso extremo en que los errores {u t} siguen una random walk, la ecuación no tiene sentido porque, entre otras cosas, la varianza de ut crece con t. Es más lógico diferenciar la ecuación: Δy t=β1Δxt+Δut, t=2,…,n. Si ut sigue una random walk, entonces et=Δut tiene media cero, varianza constante y no se correlaciona serialmente. Suponiendo que et y Δxt no se correlacionan, se puede estimar la ecuación en primeras diferencias por MCO. Incluso si ut no sigue una random walk pero ρ es positiva y grande, es útil tomar la primera diferencia, ya que esto eliminará la mayor parte de la correlación serial. Se puede tener más confianza en los errores estándar de MCO y en los estadísticos t de esta ecuación transformada. Así otro beneficio de la diferenciación es la eliminación de la correlación serial Inferencia robusta a la correlación serial después de MCO Cuando las variables explicativas no son estrictamente exógenas, MCGF ni siquiera es consistente, mucho menos eficiente. En la mayoría de las aplicaciones de MCGF, se supone que los errores siguen un modelo AR(1). Quizá sea mejor calcular los errores estándar para las estimaciones de MCO que sean robustos ante formas más generales de correlación serial. Heterocedasticidad en regresiones de series de tiempo La presencia de heterocedasticidad en las series de tiempo, mientras no ocasiona sesgo ni inconsistencia en las β^ j , invalida los errores estándar usuales y los estadísticos t y F, al igual que en el caso de corte transversal. Como los estadísticos usuales de MCO son válidos asintóticamente de acuerdo con los supuestos 1 a 5, es interesante ver lo que sucede cuando el supuesto 4 de homocedasticidad no se cumple. Estadísticos robustos a la heterocedasticidad Se pueden ajustar los errores estándar usuales de MCO y los estadísticos t y F al considerar la presencia de heterocedasticidad de forma desconocida, del mismo modo que se realizaba para datos de corte transveral. Pruebas de heterocedasticidad Las pruebas que se usan para datos de corte transversal se aplican de forma directa, pero con unas cuantas salvedades. En primer lugar, los errores ut no deben correlacionarse serialmente; cualquier correlación serial por lo general invalida las pruebas de heterocedasticidad. Tiene sentido probar primero la correlación serial, con ayuda de una prueba robusta a la heterocedasticidad, si se sospecha de la existencia de ésta. Una vez que se han realizado las acciones pertinentes para corregir la correlación serial, se pone a prueba la heterocedasticidad. Considerando la ecuación utilizada para la prueba de heterocedasticidad de Breusch-Pagan: ut2=δ0+δ1x1t+…+δkxkt+vt, donde H0: δ1=δ2=…=δk=0. Para que sea válido el estadístico F, con u^ 2t reemplazando a ut2 como variable dependiente, se debe suponer que los errores {v t} son en sí homocedásticos (como en el caso de corte transversal) y que no están serialmente correlacionados. Esto se da por sentado de manera implícita al calcular todas las pruebas estándar de heterocedasticidad, incluida la la prueba de White. El supuesto de que las {vt} no están serialmente correlacionadas excluye ciertas formas de heterocedasticidad dinámica. Si se encuentra heterocedasticidad en ut (y las ut no se correlacionan serialmente), entonces se pueden utilizar los estadísticos de prueba robustos a la heterocedasticidad. Una alternativa es emplear mínimos cuadrados ponderados. La mecánica de MCP para el caso de series de tiempo es igual que en el caso de corte transversal. Heterocedasticidad condicional autorregresiva Si xt contiene una variable dependiente rezagada, entonces la heterocedasticidad dada en ut2=δ0+δ1x1t+…+δkxkt+vt es dinámica. Pero las formas dinámicas de heterocedasticidad aparecen incluso en modelos que no son dinámicos en la ecuación de regresión. Sea un modelo de regresión estática simple: yt=β0+β1zt+ut, suponemos que los supuestos de Gauss-Markov son válidos. Esto quiere decir que los estimadores de MCO son MELI. El supuesto de homocedasticidad establece que Var(ut|Z) es constante, donde Z denota los n resultados de zt. Aun cuando la varianza de ut dada Z es constante, la heterocedasticidad puede surgir de otras formas. Engle propuso considerar la varianza condicional de ut, dados los errores pasados (el condicionamiento sobre Z se deja implícito). Sugirió el modelo de heterocedasticidad condicional autorregresiva (ARCH). El modelo ARCH de primer orden es E(u t2|ut-1,ut-2,…)=E(ut2|ut-1)=α0+α1ut-12, donde queda implícito el condicionamiento sobre Z. Esta ecuación representa la varianza condicional de u t dada la ut anterior sólo si E(ut|ut-1,ut-2,…)=0, lo cual significa que los errores no están correlacionados serialmente. Como las varianzas condicionales deben ser positivas, este modelo sólo tiene sentido si α0>0 y α1≥0; si α1=0, no hay dinámica en la ecuación de la varianza. Se puede escribir la ecuación como ut2=α0+α1ut-12+vt, donde el valor esperado de vt (dadas ut-1,ut-2,…) es cero por definición. (Sin embargo, las vt no son independientes de las ut pasadas debido a la restricción v t≥-α0α1ut-12). La ecuación parece un modelo autorregresivo en u t2 (de ahí el nombre ARCH). La condición de estabilidad para esta ecuación es α1<1, como en el modelo AR(1) usual. Cuando α1>0, los errores cuadrados contienen correlación serial (positiva) aun cuando las mismas u t no la tengan. Las implicaciones para MCO, ya que se supuso que los supuestos de Gauss-Markov son válidos, los estimadores de MCO son MELI. Además, aun si ut no estuviera distribuida normalmente, se sabe que los estadísticos de prueba usuales de MCO son válidos asintóticamente bajo los supuestos 1 a 5, los que se satisfacen en los modelos estáticos y de rezagos distribuidos con errores ARCH. Aunque MCO aún tienen propiedades deseables bajo ARCH, es necesario ocuparse de esto porque es posible obtener estimadores consistentes (aunque no insesgados) de las βj que son asintóticamente más eficientes que los estimadores de MCO. Un procedimiento de MCP, basado en la estimación de ut2=α0+α1ut-12+vt, resolverá el problema. Un procedimiento de MV bajo el supuesto de que los errores u t tienen una distribución normal condicional también sirve. Puesto que la varianza a menudo se utiliza para medir la volatilidad y esta es un elemento clave en las teorías de fijación de precios de los activos, los modelos ARCH se han vuelto importantes en las finanzas empíricas. Los modelos ARCH se aplican también cuando hay dinámica en la media condicional. Si se tiene la variable dependiente yt, una variable exógena contemporánea zt y E(yt|zt,yt-1,zt-1,yt-2,…)=β0+β1zt+β2yt-1+β3zt-1, de manera que a lo sumo un rezago de y y de z aparecen en la regresión dinámica. El enfoque tradicional es suponer que Var(y t|zt,yt-1,zt-1,yt-2,…) es constante. Pero esta varianza podría seguir un modelo ARCH: Var(yt|zt,yt-1,zt-1,yt-2,…)=Var(yt|zt,yt-1,zt-1,yt-2,…)=α0+α1ut-12, donde ut=yt-E(yt|zt,yt-1,zt-1,yt-2,…). La presencia de ARCH no afecta la consistencia de MCO y los errores estándar robustos a la heterocedasticidad y los estadísticos de prueba son válidos (son válidos para cualquier forma de heterocedasticidad y ARCH es sólo una forma particular de heterocedasticidad). Heterocedasticidad y correlación serial en modelos de regresión Nada anula la posibilidad de que tanto la heterocedasticidad como la correlación serial estén presentes en un modelo de regresión. La mayoría de las ocasiones, la correlación de series de tiempo se considera el problema más importante, debido a que por lo general tiene un mayor impacto en los errores estándar y en la eficiencia de los estimadores del que tiene la heterocedasticidad. Si en una prueba se detecta correlación serial, se puede emplear la transformación de Cochrane-Orcutt (o Prais-Winsten) y, en la ecuación transformada, usar errores estándar y estadísticos de prueba robustos a la heterocedasticidad. Otra opción es que se pueden modelar la heterocedasticidad y la correlación serial y corregir ambas mediante un procedimiento combinado de mínimos cuadrados ponderados y AR(1). Sea el modelo yt=β0+β1x1t+…+βkxkt+ut ; ut =√ ht v t vt=ρvt-1+et, |ρ|<1, donde las variables explicativas X son independientes de et para toda t, y ht es una función de xjt. El proceso {et} tiene media cero, varianza constante σe2 y no está correlacionado serialmente. Por tanto, {v t} satisface un proceso AR(1) estable. El error ut es heterocedástico, además de contener correlación u σ 2e serial: Var(ut|xt)=σv2ht, donde σv2= . Pero v t = t es 2 (1− ρ ) √h t homocedástica y sigue un modelo AR(1) estable. De modo que la yt x1t x kt 1 ecuación transformada =β 0 ( )+ β 1 ( )+...+ β k ( )+ v tiene √ ht √h t √h t √ ht t errores AR(1). Si se tiene un tipo particular de heterocedasticidad en mente (se conoce ht), se puede estimar esta ecuación usando los métodos estándar de CO o PW. En la mayoría de los casos, primero se tiene que estimar h t. MCG factibles con heterocedasticidad y correlación serial AR(1): -Estimar la ecuación original por MCO y guardar los residuales, u^t . -Regresar log ( u^ 2t ) sobre x1t,…,xkt (o sobre y^ t , ^y 2t ) y obtener los valores ajustados, por ejemplo, g^ t . -Estimar ht: h^t =exp( g^ t) . -Estimar la ecuación transformada h^t−1/ 2 y t =h^t−1/ 2 β 0 + β 1 h^t−1/ 2 x 1t +...+ β k h^ t−1 /2 x kt + error t por los métodos estándar de Cochrane-Orcutt o Prais-Winsten. Los estimadores de MCG factibles obtenidos del procedimiento son asintóticamente eficientes, siempre y cuando los supuestos del modelo se cumplan. Todos los errores estándar y los estadísticos de prueba de la estimación CO o PW son asintóticamente válidos. Si se permite que la función de varianza se especifique incorrectamente, o la posibilidad de que alguna correlación serial no siga un modelo AR(1), entonces se puede aplicar la cuasi diferenciación a la última ecuación, estimando la ecuación resultante por MCO, y luego obtener los errores estándar de Newey-West. Al hacer esto, se estaría utilizando un procedimiento que podría ser asintóticamente eficiente al mismo tiempo que garantizara que nuestra inferencia sea válida (asintóticamente) si se ha especificado incorrectamente nuestro modelo, ya sea de heterocedasticidad o de correlación serial.