Heterocedasticidad La homocedasticidad no se satisface cuando la varianza de los errores no observables varía en los diversos segmentos de la población, donde los segmentos están determinados por los diversos valores de las variables explicativas. Consecuencias de la heterocedasticidad para MCO Sea el modelo de regresión lineal múltiple: Y=β0+β1.X1+β2.X2+…+βk.Xk+u Bajo los supuestos 1 a 4, de Gauss-Markov, se probó que los estimadores MCO β^ 0 ,... , β^ k son insesgados y consistentes. El supuesto 5 de homocedasticidad, dado en términos de la varianza del error como Var(u|X1,X2,…,Xk)=σu2, no se utiliza al demostrar si los MCO son insesgados o consistentes. La heterocedasticidad no ocasiona sesgo ni inconsistencia en los estimadores MCO de las βj, mientras que omitir una variable importante sí tendrá este efecto. La interpretación de R2 y R̄2 , tampoco se ve afectada por la presencia de heterocedasticidad. La R2 usual y la R̄2 son dos distintas maneras de σ 2u estimar la R2 poblacional, la cual es simplemente 1− 2 , donde σu2 es σY 2 la varianza poblacional del error y y σY es la varianza poblacional de Y. Como en la R2 poblacional ambas varianzas son incondicionales, la R 2 poblacional no se ve afectada por la presencia de heterocedasticidad en SR ST Var(u|X1,…,Xk). Además, estima consistentemente σu2, y n n estima consistentemente σY2, al margen de si Var(u|X1,…,Xk) es constante. Lo mismo es cierto cuando se ajustan los grados de libertad. Por tanto, R 2 y R̄2 son estimadores consistentes de la R2 poblacional, se satisfaga o no el supuesto de homocedasticidad. Sin el supuesto de homocedasticidad los estimadores de las varianzas, Var ( β^ j ) , son sesgados. Como los errores estándar de MCO se basan directamente en estas varianzas, dejan de ser válidos para la construcción de intervalos de confianza y de estadísticos t. En presencia de heterocedasticidad los estadísticos t usuales de MCO no tienen distribuciones t, y el problema no se resuelve empleando muestras grandes. De manera similar, los estadísticos F dejan de seguir una distribución F, y el estadístico ML deja de tener una distribución jicuadrada asintótica. Asi, los estadísticos empleados en las pruebas de hipótesis bajo los supuestos de Gauss-Markov ya no son válidos en presencia de heterocedasticidad. Además, el teorema de Gauss-Markov, que dice que MCO da el MELI, depende de manera crucial del supuesto de homocedasticidad. Si Var(u|x) no es constante, MCO ya no es MELI. Además, MCO ya no es asintóticamente eficiente en cierta clase de estimadores. Es posible hallar estimadores que sean más eficientes que MCO (aunque es necesario conocer la forma de la heterocedasticidad). Con tamaños de muestra relativamente grandes, puede no ser tan importante obtener un estimador eficiente. Inferencia robusta a la heterocedasticidad en la estimación por MCO Aún en presencia de heterocedasticidad, MCO sigue siendo útil. Se pueden ajustar los errores estándar y los estadísticos t, F y ML de manera que sean válidos en presencia de heterocedasticidad de la forma desconocida. Así, se pueden reportar nuevos estadísticos que funcionen sin importar el tipo de heterocedasticidad presente en la población, estos son procedimientos robustos a la heterocedasticidad, son válidos (por lo menos para muestras grandes), ya sea que los errores tengan o no varianza constante, sin necesidad de saber cuál es el caso. Sea el modelo con una sola variable independiente: Y i=β0+β1.Xi+ui. Suponemos que se satisfacen los cuatro primeros supuestos de GaussMarkov. Si los errores contienen heterocedasticidad, entonces Var(ui|Xi)=σui2. Los estimadores MCO se pueden expresar como n ∑ (X i − X̄ )ui β^ 1= β 1 + i =1n . Bajo los supuestos 1 a 4 (o sea, sin el supuesto ∑ ( X i− X̄) 2 i=1 de homocedasticidad) y condicionando sobre los valores X i de la muestra, n ∑ (X i− X̄)2 σ 2ui se obtiene Var ( β^ 1)= i=1 n ,donde ST X =∑ ( X i− X̄ )2 es la ( ST X )2 i=1 2 2 suma total de cuadrados de las X i. Cuando σui =σu para toda i, esta σ 2u ^ fórmula se reduce a la forma usual, Var ( β 1)= . En el caso de la ST X regresión simple, la fórmula para la varianza obtenida bajo homocedasticidad, en presencia de heterocedasticidad ya no es válida. Puesto que SE ( β^ 1) se basa en la estimación de Var ( β^ 1) , se necesita una manera de estimarla en presencia de heterocedasticidad. Sean u^i los residuales de MCO de la regresión inicial de Y sobre X. Entonces, un estimador válido de Var ( β^ 1) , para heterocedasticidad de cualquier forma (incluyendo homocedasticidad), es n ∑ (X i− X̄)2 u^ 2i ^ ( β )= i=1 Var 1 , que puede calcularse a partir de los datos de (ST X )2 la regresión de MCO. Se puede demostrar que esta ecuación multiplicada por el tamaño n de 2 2 E [( X i −μ X ) ui ] la muestra, converge en probabilidad a , que es el límite 2 2 (σ x) de probabilidad de n multiplicado por Var ( β^ 1) . En principio, esto es lo que se necesita para justificar el uso de los errores estándar para construir intervalos de confianza y estadísticos t. La ley de los grandes números y el teorema del límite central desempeñan papeles importantes en el establecimiento de estas convergencias. En el modelo general de regresión múltiple Y=β0+β1.X1+…+βk.Xk+u, un estimador válido de Var ( β^ j ) , bajo los supuestos 1 a 4, es n ∑ r^2ij u^ i2 ^ ( β j )= i=1 ,donde r^ij denota el i-ésimo residual de regresar Xj Var 2 ( SR j ) sobre el resto de las variables independientes, y SR j es la suma de residuales cuadrados de esta regresión. La raíz cuadrada de esto se conoce como error estándar de β^ j robusto a la heterocedasticidad. A veces, como una corrección de los grados de libertad, antes de obtener la raíz cuadrada, se multiplica por n/(n-k-1). Esto porque, los residuales cuadrados de MCO u^ 2i fueran iguales para todas las observaciones i (la forma más fuerte posible de homocedasticidad en una muestra) se obtendrían los errores estándar usuales de MCO. Una vez que se han obtenido los errores estándar robustos, es fácil construir un estadístico t robusto. La única diferencia entre el estadístico t usual de MCO y el estadístico robusto a la heterocedasticidad es la manera en que se calcula el error estándar. Una razón por la que se utilizan los errores estándar usuales en el trabajo con cortes transversales es que, si el supuesto de homocedasticidad se satisface y los errores están distribuidos normalmente, los estadísticos t usuales tiene distribuciones t exactas, sin importar el tamaño de muestra. Los errores estándar robustos y los estadísticos t robustos se justifican sólo si el tamaño de muestra se hace grande. Con tamaños de muestra pequeños, el estadístico t robusto puede tener distribuciones que no estén muy próximas a la distribución t y que podrían invalidar la inferencia. Cuando se trata de muestras grandes, se justifica que en las aplicaciones con cortes transversales se reporten sólo los errores estándar robustos a la heterocedasticidad. También pueden obtenerse estadísticos F y ML robustos a una heterocedasticidad de forma desconocida y arbitraria. El estadístico F robusto a la heterocedasticidad se conoce también como estadístico de Wald robusto a la heterocedasticidad. Cálculo de pruebas ML robustas a la heterocedasticidad u del modelo restringido. *Obtener los residuales ~ *Regresar cada una de las variables independientes excluidas bajo H0 sobre todas las variables independientes incluidas; si hay q variables r1 , ~ r 2 ,... , ~ r q ). excluidas, esto conduce a q conjuntos de residuales ( ~ ~ ~ *Obtener los productos entre cada r j y u (para todas las observaciones). r1 ~ u ,~ r2~ u , ... , ~ r q~ u , sin intercepto. El *Correr la regresión de 1 sobre ~ estadístico ML robusto a la heterocedasticidad es n-SR 1, donde SR1 es la suma usual de residuales cuadrados de esta regresión final. Bajo H 0, la distribución de ML es aproximadamente χq2. Una vez obtenido el estadístico ML robusto, la regla de rechazo y el cálculo de los valores-p son los mismos que para el estadístico ML usual. Pruebas para heterocedasticidad Dos razones para realizar pruebas para determinar la presencia de heterocedasticidad es que los estadísticos t usuales tienen, bajo los supuestos del modelo lineal clásico, distribuciones t exactas. Además, en presencia de heterocedasticidad, los estimadores de MCO ya no son los mejores estimadores lineales insesgados. Partiendo del modelo lineal Y=β0+β1.X1+β2.X2+…+βk.Xk+u, donde los supuestos 1 a 4 se mantienen. En particular se supone que E(u|X1,X2,…,Xk)=0, de manera que MCO sea insesgado y consistente. Como hipótesis nula se toma que el supuesto 5 sea verdadero: H0: Var(u|X1,X2,…,Xk)=σu2. Si ésta no se puede rechazar a un nivel de significancia suficientemente pequeño, en general se concluye que la heterocedasticidad no es problema. Como se supone que u tiene una esperanza condicional cero, Var(u|X)=E(u2|X), por lo que la hipótesis nula de homocedasticidad es equivalente a H0: E(u2|X1,X2,…,Xk)=E(u2)=σu2. Para probar la violación del supuesto de homocedasticidad, se prueba si u2 está relacionada (en valor esperado) con una o más de las variables explicativas. Si H0 es falsa, el valor esperado de u 2, dadas las variables independientes, puede ser prácticamente cualquier función de Xj. Un método es suponer una función lineal: u 2=δ0+δ1.X1+δ2.X2+...+δk.Xk+v, donde v es un término de error con media cero dadas las Xj. La variable dependiente de esta ecuación es el cuadrado del error en la ecuación de regresión original. La hipótesis nula de homocedasticidad es H0: δ1=δ2=…=δk=0. Bajo H0, es a menudo razonable suponer que el error v, es independiente de X1,X2,…,Xk. Entonces, se sabe que el estadístico F o el estadístico ML para significancia general de las variables independientes para explicar u2 puede utilizarse para probar H0. Los dos estadísticos tendrán justificación asintótica, aun cuando u 2 no pueda estar distribuida normalmente. Puede estimarse la ecuación u^ 2=δ 0+ δ 1 . X 1+...+ δ k . X k + error , y calcular los estadísticos F o ML para la significancia conjunta de X1,…,Xk. Resulta que, para muestras grandes, emplear los residuales de MCO en lugar de los errores no afecta la distribución de los estadísticos F o ML. Tanto el estadístico F como el estadístico ML dependen de la R 2 de la regresión; sea R2u^ (distinta de la R2 de la regresión estimada de Y sobre 2 2 las X). Entonces, F= R ^u /k 2 donde k es el número de (1−R )/(n−k−1) regresores en u^ 2 ; éste es igual al número de variables independientes en la regresión estimada de Y. Este estadístico F tiene una distribución Fk,n-k-1 aproximada bajo la hipótesis nula de homocedasticidad. El estadístico ML para heterocedasticidad es: LM =n . Ru2^ . Bajo la hipótesis nula, ML se distribuye asintóticamente como χk2. A la versión ML de la prueba se le llama prueba Breusch-Pagan para heterocedasticidad (prueba BP). Los pasos de la prueba Breusch-Pagan para heterocedasticidad son: *Estimar la regresión de Y sobre X1,...,Xk por MCO. Obtener los residuales cuadrados de MCO, u^ 2 (uno para cada observación). *Regresar u^ 2 sobre X1,...,Xk. Conservar R2u^ . *Formar, ya sea el estadístico F o el estadístico ML y calcular el valor-p (usando la distribución de Fk,n-k-1 en el primer caso y la distribución χk2 en el segundo caso). Si el valor-p es suficientemente pequeño se rechaza la hipótesis nula de homocedasticidad. Si se sospecha que la heterocedasticidad sólo depende de ciertas variables independientes, se puede modificar la prueba de B-P, se regresa 2 u^ sobre cualquier variable independiente que se elija y se realiza la prueba F o la prueba ML apropiada. Los grados de libertad apropiados dependen del número de variables independientes en la regresión con 2 u^ como variable dependiente. Si los residuales cuadrados se regresan sólo sobre una variable independiente, la prueba para la heterocedasticidad es precisamente el estadístico t usual de esa variable. Prueba de White para heterocedasticidad El supuesto de homocedasticidad puede ser sustituido por el supuesto más débil de que el error cuadrado, u2, no está correlacionado con ninguna de las variables independientes (Xj), ni con los cuadrados de las 2 2 u^ 2 2 variables independientes (Xj2), ni con ninguno de los productos cruzados (Xj.Xh para j≠h). La prueba de White busca probar las formas de heterocedasticidad que invalidan los errores estándar usuales de MCO y los estadísticos de prueba usuales. Si el modelo contiene k=3 variables independientes, la prueba de White se basa en la estimación de u^ 2=δ 0+ δ 1 . X 1+ δ 2 . X 2 + δ 3 . X 3 + δ 4 . X 21 + δ 5 . X 22 + δ 6 . X 23 + δ 7 . X 1 . X 2+ δ 8 . X 1 . X 1+ δ 9 . X 2 . X 3 +error La prueba de White para heterocedasticidad es el estadístico ML para probar que todas las δj de esta ecuación son cero, a excepción del intercepto. Para esta hipótesis también puede utilizarse una prueba F; ambas pruebas tienen justificación asintótica. La abundancia de regresores es una debilidad de la forma pura de la prueba de White: utiliza muchos grados de libertad para modelos que sólo tienen un número moderado de variables independientes. El espíritu de la prueba de White como los grados de libertad pueden preservarse empleando los valores ajustados de MCO en una prueba para heterocedasticidad. Para cada observación i, los valores ajustados son Y^ i= β^ 0 + β^ 1 . X 1i +...+ β^ k . X ki . Éstas sólo son funciones lineales de las variables independientes. Si los valores ajustados se elevan al cuadrado, se obtiene una función particular de todos los cuadrados y productos cruzados de las variables independientes. Esto sugiere probar la heterocedasticidad estimando la ecuación u^ 2=δ 0+ δ 1 . Y^ + δ 2 . Y^ 2+ error Se utilizan los Y^ porque éstos son funciones de las variables independientes (y de los parámetros estimados); usando Y no se obtendría una prueba válida para heterocedasticidad. Para la hipótesis nula H0: δ1=0, δ2=0 en la ecuación pueden utilizarse los estadísticos F o ML. Esto da como resultado dos restricciones al probar la hipótesis nula de homocedasticidad, sin importar la cantidad de variables independientes en el modelo original. Entonces, los pasos para el caso especial de la prueba de White son: *Estimar el modelo original mediante MCO. Obtener los residuales u^ de MCO y los valores ajustados Y^ . Calcular los cuadrados de los residuales de MCO, u^ 2 y los cuadrados de los valores ajustados Y^ 2 . *Ejecutar la regresión de la ecuación para u^ 2 . Conservar R2u^ . *Formar, ya sea el estadístico F o el estadístico ML, y calcular el valor-p (empleando la distribución F2,n-3 en el primer caso y la distribución χ22 en el segundo). 2 El rechazo obtenido en una de las pruebas para heterocedasticidad se interpreta como evidencia de heterocedasticidad siempre que se conserven los supuestos 1 a 4. Pero si se infringe el supuesto 4 [en particular, si la forma funcional E(Y|X) está mal especificada] entonces una prueba para heterocedasticidad puede rechazar H 0, aún cuando Var(Y|X) sea constante. Por ejemplo, si en un modelo de regresión se omiten uno o más términos cuadráticos o se utiliza el modelo lineal cuando debe utilizarse el logarítmico, una prueba para la heterocedasticidad puede ser significativa. Estimación por mínimos cuadrados ponderados Antes del desarrollo de los estadísticos robustos, la solución, cuando se encontraba heterocedasticidad, era especificar su forma y utilizar un método de mínimos cuadrados ponderados. Heterocedasticidad conocida, salvo una constante multiplicativa Sean X todas las variables explicativas del modelo original y sea Var(u|X)=σu2.h(X), donde h(X) es alguna función de las variables explicativas que determina la heterocedasticidad. Puesto que las varianzas deben ser positivas, h(X)>0 para todos los posibles valores de las variables independientes. Suponemos que la función h(X) es conocida. El parámetro poblacional σu2 no se conoce, pero puede ser estimado a partir de una muestra de datos. Dada una muestra aleatoria de la población, puede escribirse σui2=Var(ui|Xi)=σu2.h(Xi)=σu2.hi, con Xi todas las variables independientes de la observación i, y las hi cambian con cada observación porque las variables independientes cambian de una observación a otra. Partimos del modelo original, Yi=β0+β1.X1i+β2.X2i+...+βk.Xki+u, que contiene errores heterocedásticos, y se transforma en una ecuación que tenga errores homocedásticos (y satisfaga los demás supuestos de ui Gauss-Markov). Como hi es una función de Xi, tiene valor esperado √hi cero condicional sobre Xi. Además, como Var(ui|Xi)=E(u2|Xi)=σu2.hi, 2 2 2 ui ui E(u i ) (σ u . hi) 2 ) ]= = =σ u . entonces: Var ( ∣X i )=E[( h h √h i √ hi i i El modelo original puede dividirse entre √ hi para obtener: Yi β 0 X1i X ki ui = + β 1 .( )+...+ β k .( )+( ) o √ h i √ hi √h i √ hk √ hi 1 Y i ' = β 0 . X 0 i '+ β 1 . X 1 i '+ ...+ β k . X ki '+ ui ' ,donde X 0 i= y las demás √ hi variables con tilde denotan las variables originales correspondientes divididas entre √ hi . El intercepto β0 del modelo original aparece ahora multiplicando la variable X0i’. Cada parámetro de pendiente en βj multiplica una nueva variable que rara vez tiene una interpretación útil. Esto no es problema ya que, para interpretar los parámetros y el modelo, siempre se vuelve a la ecuación original. La nueva ecuación es lineal en sus parámetros (satisface el supuesto 1), y el supuesto de muestreo aleatorio no ha cambiado. Además, u i’ tiene media cero y varianza constante (σu2), condicional sobre Xi’. Esto significa que si la ecuación original satisface los primeros cuatro supuestos de Gauss-Markov, entonces la ecuación transformada satisface los cinco supuestos de Gauss-Markov. Asimismo, si ui tiene una distribución normal, entonces ui’ tiene una distribución normal con varianza σu2. Por lo tanto, la ecuación transformada satisface los supuestos del modelo lineal clásico 1 a 6 si el modelo original, a excepción del supuesto de homocedasticidad, los satisface. Se estiman entonces los parámetros de la ecuación transformada mediante MCO. Estos estimadores, β0’,β1’,...,βk’, serán diferentes de los estimadores de MCO de la ecuación original. Los βj’ son ejemplos de estimadores de mínimos cuadrados generalizados (MCG). Dado que la ecuación transformada satisface todos los supuestos ideales, los errores estándar, los estadísticos t y los estadísticos F pueden obtenerse de regresiones en las que se usen las variables transformadas. La suma de los residuales cuadrados dividida entre los grados de libertad es un estimador insesgado de σu2. Además, los estimadores de MCG, debido a que son los MELI de las βj, son necesariamente más eficientes que los estimadores β^ j de MCO, obtenidos de la ecuación no transformada. Pero debe recordarse que hay que interpretar las estimaciones a la luz de la ecuación original. La R2’ obtenida al estimar la ecuación transformada, aunque es útil para calcular estadísticos F, no es informativa como medida de bondad de ajuste (indica el ajuste del modelo transformado, lo que rara vez tiene mucho sentido). Los estimadores de MCG para la corrección de la heterocedasticidad se denominan estimadores de mínimos cuadrados ponderados (MCP). Los βj’ minimizan la suma ponderada de los residuales cuadrados, donde cada residual cuadrado es ponderado por 1/hi. La idea es dar menos peso a las observaciones que tienen una varianza del error mayor; MCO da a cada observación el mismo peso dado que MCO es mejor cuando la varianza del error es idéntica en todas las particiones de la población. Matemáticamente, los estimadores de MCP son los valores de b j que 2 n (Y i −b0−b1 . X 1 i−...−bk . X ki) minimizan ∑ . Introduciendo la raíz hi i=1 cuadrada de 1/hi dentro del residual cuadrado se muestra que la suma ponderada de los residuales cuadrados es idéntica a la suma de los residuales cuadrados en las variables transformadas: n ∑ (Y i '−b 0−b1 . X 1i '−...−b k . X ki ' )2 . Como los MCO minimizan la suma i=1 de los residuales cuadrados, los estimadores de MCP que minimizan la ecuación original son simplemente los estimadores de MCO de la ecuación transformada. Para todo conjunto de ponderadores positivos puede definirse un estimador de mínimos cuadrados ponderados. MCO es el caso especial que da el mismo peso a todas las observaciones. El procedimiento eficiente, MCG, pondera cada residual cuadrado con el inverso de la varianza condicional de ui dado Xi. La ecuación estimada puede expresarse de la manera usual. Los coeficientes estimados y los errores estándar serán diferentes de los de MCO, pero la manera de interpretar esos coeficientes estimados, errores estándar y estadísticos de prueba es la misma. En la mayoría de los casos, la elección de los ponderadores en MCP tiene cierto grado de arbitrariedad. Sin embargo, los ponderadores necesarios para MCP pueden surgir de manera natural del modelo econométrico subyacente. Esto sucede cuando, en lugar de usar datos de individuos, sólo se tienen promedios de datos de un grupo o de una región geográfica. En este caso, hi=1/mi, donde mi es el tamaño del grupo i de donde surge el promedio. Esto porque, dado que se trata de promedios de un grupo, el error en la ecuación original sería mi ūi=(m i) . ∑ u ji , y si no hay correlación en los errores entre los −1 j=1 σ 2u individuos del grupo: Var ( ūi )= . El procedimiento más eficiente es mi MCP, donde los ponderadores son iguales al número de individuos en el grupo (1/hi=mi). Esto asegura que a los grupos más grandes se les dé más peso. Esto proporciona una manera eficiente de estimar los parámetros del modelo a nivel individuo cuando sólo se tienen promedios a nivel grupo. Una ponderación similar surge cuando se utilizan datos per cápita de una población. Si la ecuación a nivel individual satisface los supuestos de Gauss-Markov, entonces el error en la ecuación per cápita tiene una varianza proporcional a uno entre el tamaño de la población. Por lo tanto, el método de MCP con ponderadores iguales a la población es adecuado. La ventaja de ponderar empleando el tamaño de la empresa, la población, la ciudad, etc; radica en que la ecuación individual subyacente sea homocedástica. Si existe heterocedasticidad a nivel individual, entonces la ponderación adecuada depende de la forma de la heterocedasticidad. Además, si hay correlación entre los errores dentro de σ 2u un grupo, entonces Var ( ūi )≠ . La incertidumbre acerca de la forma de mi Var ( ūi ) en algunas ecuaciones lleva a que normalmente se utilice simplemente MCO y se calculen errores estándar robustos y estadísticos de prueba robustos al estimar modelos usando datos per cápita. Una alternativa es ponderar con el tamaño del grupo, pero reportar los estadísticos robustos a la heterocedasticidad en la estimación de MCP. Esto garantiza que, mientras que la estimación es eficiente si el modelo individual satisface los supuestos de Gauss-Markov, la heterocedasticidad a nivel individual o la correlación dentro del grupo sean explicadas mediante inferencia robusta. Estimación de la función de heterocedasticidad: MCG factibles En algunos casos es difícil encontrar la función h(Xi). Sin embargo, en muchos casos puede modelarse la función h y utilizar los datos para estimar los parámetros desconocidos del modelo. Esto resulta en una estimación para cada hi, que se denota como h^i . Usando h^i en lugar de hi en la transformación de MCG, se obtiene un estimador llamado estimador de MCG factibles (MCGF). También se les suele llamar MCG estimados (MCGE). Un método particular para modelar la heterocedasticidad, bastante flexible es: sea Var(u|X)=σu2.exp(δ0+δ1.X1+δ2.X2+…+δk.Xk), donde X1,X2,…,Xk son las variables independientes que aparecen en el modelo de regresión, y las δj son parámetros desconocidos. Esto es, h(X)=exp(δ0+δ1.X1+δ2.X2+…+δk.Xk). Las alternativas lineales para h son adecuadas cuando se prueba heterocedasticidad, pero pueden ser problemáticas cuando se trata de corregir la heterocedasticidad empleando mínimos cuadrados ponderados. Los modelos lineales no aseguran que los valores predichos sean positivos, y para emplear el método de MCP las varianzas estimadas deben ser positivas. Si se conocieran los parámetros δj simplemente se aplicaría MCP. Como esto no es muy realista, se utilizan los datos para estimar estos parámetros, y después utilizar estas estimaciones para construir los ponderadores. Esta ecuación se transforma en una forma lineal que, con una leve modificación, puede ser estimada por MCO. Bajo el supuesto sobre Var(u|X), se puede escribir 2 u =σu2.exp(δ0+δ1.X1+δ2.X2+…+δk.Xk).v, donde v tiene media igual a la unidad, condicional sobre X=(X1,X2,…,Xk). Si se supone que v es realmente independiente de X, puede escribirse log(u2)=α0+δ1.X1+δ2.X2+…+δk.Xk+e, donde e tiene media cero y es independiente de X; en esta ecuación el intercepto es diferente a δ0, pero esto no es importante para emplear MCP. La variable dependiente es el logaritmo del error cuadrado. Puesto que esta ecuación satisface los supuestos de Gauss-Markov, pueden obtenerse estimadores insesgados de δj usando MCO. Se sustituye la u no observada por los residuales de MCO. Por lo tanto, la regresión que se ejecuta es log( u^ 2 ) sobre X1,X2,…,Xk. Lo que se necesita de esta regresión son los valores ajustados g^ i . Entonces, las hi 1 estimadas son h^i=exp ( g^ i) . Luego, se usa MCP con en lugar de 1/hi. h^ i El procedimiento con MCG factibles para corregir heterocedasticidad es: *Ejecutar la regresión de Y sobre X y obtener los residuales, u^ 2 . *Obtener log( u^ 2 ) elevando primero al cuadrado los residuales de MCO y en seguida tomando el logaritmo natural. *Regresar log( u^ 2 ) sobre X y obtener los valores ajustados g^ i . *Exponenciar los valores ajustados g^ i : h^i=exp ( g^ i) . *Estimar la ecuación Y=β0+β1.X1+…+βk.Xk+u por MCP, usando como 1 ponderadores . h^ i Si en el procedimiento de MCP pudiera utilizarse hi en lugar de h^ , los i estimadores serían MELI, suponiendo que se haya modelado correctamente la heterocedasticidad. Tener que estimar h i con los mismos datos significa que el estimador de MCGF deja de ser insesgado (por lo que deja de ser MELI). Sin embargo, el estimador de MCGF es consistente y asintóticamente más eficiente que MCO. Para tamaños de muestra grandes, MCGF es una alternativa interesante a MCO cuando hay evidencia de heterocedasticidad que infla los errores estándar de los estimadores de MCO. Los estimadores de MCGF son estimadores de los parámetros del modelo poblacional usual Y=β0+β1.X1+…+βk.Xk+u. Las estimaciones de MCGF se utilizan en lugar de las de MCO debido a que los estimadores de MCGF son más eficientes y tienen estadísticos de prueba con las distribuciones t y F usuales, por lo menos en muestras grandes. Una alternativa útil para estimar hi es sustituir las variables independientes de la regresión de log( u^ 2 ) sobre X por los valores ajustados de MCO y sus cuadrados. Es decir, obtener las g^ i como valores ajustados de la regresión de log( u^ 2 ) sobre Y^ , y Y^ 2 y después obtener h^ i como antes. Park sugirió usar la regresión de log( u^ 2 ) sobre X para probar la heterocedasticidad (se puede utilizar una prueba de F o ML). Pero la hipótesis nula debería ser más fuerte que la homocedasticidad (u y x deben ser independientes). En segundo lugar, usando los residuales de MCO u^ en lugar de u puede hacer que el estadístico F se desvíe de la distribución F incluso en tamaños de muestra grandes. Nada de esto sucede en las pruebas de White o B-P. Por estas razones, la prueba de Park no se recomienda para probar heterocedasticidad. Después de una estimación por MCP se debe ser cuidadoso al calcular los estadísticos F para probar hipótesis múltiples. Es importante que se utilicen los mismos ponderadores para estimar el modelo no restringido y el restringido. Primero debe estimarse el modelo no restringido mediante MCO. Una vez obtenidos los ponderadores, éstos pueden utilizarse para estimar también el modelo restringido. El estadístico F puede calcularse como de costumbre. Las estimaciones por MCO y por MCP pueden ser sustancialmente diferentes. Las estimaciones de MCO y de MCP diferirán siempre debido al error de muestreo, el problema es si su diferencia es suficiente para modificar conclusiones importantes. Si MCO y MCP producen estimaciones estadísticamente significativas que difieren en el signo o la diferencia en las magnitudes de las estimaciones es grande en sentido práctico, hay que desconfiar. En general, esto indica que uno de los otros supuestos de Gauss-Markov es falso, en particular el de media condicional cero del error (supuesto 4). Si E(Y|X)≠β0+β1.X1+…+βk.Xk, entonces MCO y MCP tienen valores esperados y límites de probabilidad diferentes. Para que MCP dé estimadores consistentes de las βj, no basta que u no esté correlacionada con cada una de las Xj; se necesita el supuesto más fuerte 4 en el modelo lineal del supuesto 1. Por tanto, una diferencia significativa entre MCO y MCP puede indicar una mala especificación de la forma funcional en E(Y|X). La prueba de Hausman puede usarse para comparar de manera formal las estimaciones de MCO y de MCP para ver si difieren más de lo que el error de muestreo sugiere que deban hacerlo. Función de heterocedasticidad supuesta incorrecta Cuando la función de la varianza que se utiliza está mal especificada, Var(Y|X)≠σu2.h(X) para la función h(x) elegida, esta mala especificación de h(X) no causa sesgo o inconsistencia en el estimador de MCP, por lo menos bajo el supuesto 4. Si E(u|X)=0, entonces cualquier función de X u no está correlacionada con u y, por tanto, el error ponderado, , √h( X) Xj no está correlacionado con los regresores ponderados, , para √h( X) cualquier función h(X) que sea siempre positiva. Esta es la razón por la cual grandes diferencias entre los estimadores de MCO y de MCP pueden considerarse como indicativas de una forma funcional mal especificada. Si se estiman parámetros en la función, por ejemplo h(X , δ^ ) , entonces no se puede afirmar que MCP sea insesgado, pero por lo general será consistente (ya sea que la función de la varianza esté o no bien especificada). Aunque MCP es consistente, por lo menos bajo los supuestos 1 a 4, las consecuencias de usar MCP con una función de la varianza mal especificada son dos. La primera es que los errores estándar y los estadísticos de prueba usuales de MCP, calculados bajo el supuesto de que Var(Y|X)=σu2.h(X), ya no son válidos, incluso en muestras grandes. Sin embargo, sí como para los coeficientes estimados de MCO es posible obtener errores estándar robustos a una heterocedasticidad arbitraria, también se pueden obtener errores estándar para MCP que permiten que la función de la varianza esté arbitrariamente mal especificada. β0 X X u + β 1 .( 1 i )+...+ β k .( ki )+( i ) . √hi √ hi √h i √ hk √ hi ui Ahora, si Var(ui|Xi)≠σu2.hi, entonces el error ponderado es √ hi heterocedástico. Pueden aplicarse los errores estándar usuales robustos después de estimar esta ecuación por MCO (lo cual es idéntico a MCP). Los errores estándar de MCP robustos a la heterocedasticidad pueden ser mayores o menores a los calculados con el supuesto de una forma de heterocedasticidad correcta (no robustos). Aún si se utilizan formas flexibles de funciones de la varianza, tales como la función exponencial, no hay ninguna garantía de que se tenga el modelo correcto. Por lo tanto, siempre es una buena idea calcular errores estándar y estadísticos de prueba completamente robustos de la estimación de MCP. Una crítica moderna a MCP es que si la función de la varianza está mal especificada, no hay garantía de que sea más eficiente que MCO. Si Var(Y|X) no es constante ni igual a σu2.h(X), donde h(X) es el modelo de heterocedasticidad propuesto, entonces no se puede decir si MCO o MCP es más eficiente en términos de las varianzas (o de las varianzas asintóticas cuando los parámetros de la varianza deban ser estimados). Un punto práctico, no obstante, es que en casos de una fuerte heterocedasticidad, suele ser mejor usar una forma incorrecta de heterocedasticidad y emplear MCP que ignorar por completo la heterocedasticidad y usar MCO. Modelos como el exponencial pueden aproximar bien una variedad de funciones de heterocedasticidad y puede que produzcan estimadores con varianzas (asintóticas) menores. Predicción e intervalos de predicción con heterocedasticidad Si se parte del modelo lineal estándar bajo los supuestos 1 a 4, pero se considera heterocedasticidad de la forma Var(Y|X)=σu2.h(X), la presencia de heterocedasticidad afecta la predicción puntual de Y sólo en tanto que afecta la estimación de las βj. Es natural emplear MCP en una muestra de tamaño n para obtener las β^ j . La predicción de un resultado no observado, Y0, dados valores conocidos de las variables explicativas x0, tiene la forma: Y^ 0= β^ 0 + x 0 β^ . Una vez que se conoce E(Y|X), las predicciones se basarán en esto; la estructura de Var(Y|X) no juega ningún papel directo. Por otro lado, los intervalos de predicción sí dependen directamente de Var(Y|X). Suponemos ahora que se satisfacen todos los supuestos del MLC, salvo que Var(Y|X)=σu2.h(X) sustituye el supuesto 5 de homocedasticidad. Se sabe que los estimadores de MCP son MELI y, debido a la normalidad, tienen distribuciones (condicionales) normales. Puede obtenerse SE ( Y^ 0) igual que antes, salvo que ahora se usa MCP. También se necesita estimar la desviación estándar de u 0, la parte no observada de Y0. Pero Var(u0|X=x0)=σu2.h(x0), y de esta manera 0 0 SE (u )=σ^ u . √ h (x ) , donde σ^ u es el error estándar de la regresión de la estimación de MCP. Por lo tanto, un intervalo de predicción de 95% es 0 0 0 0 2 2 0 1 /2 Y^ ±t 0,025 . SE ( e^ ) donde SE ( e^ )={[SE( Y^ )] +σ^ u . h(x )} . Este intervalo es exacto sólo si no se tiene que estimar la función de la varianza. También se puede obtener una predicción para Y en el modelo log(Y)=β0+β1.X1+ …+βk.Xk+u, donde u es heterocedástica. Suponemos que u tiene una distribución condicional normal con una forma específica Sea la ecuación transformada Yi = de heterocedasticidad. Consideramos la forma exponencial, pero agregamos el supuesto de normalidad: u|X~N[0, exp(δ0+δ1.X1+…+δk.Xk)]. Como log(Y) dado X tiene una distribución normal con media β0+Xβ y varianza exp(δ0+Xδ), se sigue que E(Y|X)=exp(β0+Xβ+σu2.exp(δ0+Xδ)/2). Ahora se estiman las βj y las δj usando la estimación por MCP de log(Y). Es decir, después de MCO para obtener los residuales, se corre la regresión de log ( u^ 2) sobre X para obtener los valores ajustados g^ i=α^ 0 +δ^1 . X 1i +...+ δ^k . X ki ,y luego h^i=exp ( g^ i) . Usando estas h^i , se obtienen las estimaciones de MCP, β^ j y también σ^ 2u . Entonces para ^ + σ^ 2 h^ /2) . cada i, se puede obtener un valor ajustado Y^ i=exp ( logY i u i Estos valores ajustados se pueden usar para obtener una R 2 usando el coeficiente de correlación cuadrado entre Yi y Y^ i . Para cualquier valor de la variable explicativa x0, puede estimarse 0 ^ 0 ^ ^ ^ ^2 E(Y|X=x0) como E(Y∣X=x 0)=exp[ β 0+ x β +σ u exp( α^ 0 + x δ )/2] , donde β^ j son los coeficientes estimados por MCP, α^ 0 y β^ j el intercepto y las pendientes de la regresión g^ i , respectivamente. Un intervalo de predicción aproximado de 95% (para muestras grandes) es ^ x 0)]. exp( β^ + x 0 β^ ); exp[1,96. σ^ √ h(x ^ 0)]. exp( β^ + x 0 β^ )} , {exp[−1,96. σ^ u √ h( 0 u 0 0 ^ donde h(x ) es la función de varianza estimada evaluada en x0, ^ 0)=exp( α^ 0+ δ^1 . X 01+...+ δ^k . X 0k ) . h(x Reconsideración del modelo de probabilidad lineal Cuando Y, la variable dependiente, es una variable binaria, el modelo contendrá heterocedasticidad, a menos que todos los parámetros de pendiente sean cero. La manera más sencilla de tratarla en este modelo es continuar usando la estimación de MCO, pero calcular también errores estándar robustos en los estadísticos de prueba. En general, los estimadores de MCO son ineficientes en el MPL. Dado que la varianza condicional de Y en el MPL es Var(Y|X)=p(X)[1-p(X)], donde p(x)=β0+β1.X1+…+βk.Xk es la probabilidad de respuesta (la probabilidad de éxito, y=1). Parece que lo indicado es usar MCP, pero hay un par de problemas. La probabilidad p(X) depende claramente de los parámetros poblacionales desconocidos, βj. No obstante, se tienen estimadores insesgados de estos parámetros, los estimadores de MCO. Al sustituir los estimadores de MCO en p(X), se obtienen los valores ajustados de MCO. De manera que, para cada observación i, Var(Yi|Xi) se estima mediante h^i=Y^ i (1−Y^ i) ,donde Y^ i es el valor ajustado de MCO para la observación i. Se aplican MCG factibles. Poder estimar hi para cada i no significa que se pueda proceder de manera directa con la estimación de los MCP. El problema es que los valores ajustados Y^ i no necesitan caer en el intervalo unitario. Si Y^ i <0 o Y^ i >1 , h^i será negativo. Como MCP consiste en multiplicar la 1 observación i por , este método no se podrá realizar si para alguna √h^i observación h^i es negativo (o cero). En MCP todos los ponderadores deben ser positivos. En algunos casos, 0< Y^ i <1 para toda i, en cuyo caso puede emplearse MCP para estimar el MPL. En los casos en los que hay muchas observaciones y las probabilidades de éxito o fracaso son pequeñas, es muy común que algunos de los valores ajustados se encuentren fuera del intervalo unitario. Si esto ocurre lo más fácil es abandonar los MCP y reportar estadísticos robustos a la heterocedasticidad. Una alternativa es arreglar aquellos valores ajustados que son menores que cero o mayores que la unidad y después aplicar MCP, para esto se asigna un valor arbitrario entre 0 y 1 a Y^ i si éste es menor a 0 o menor a 1.Para esto se requiere una decisión arbitraria del investigador. Si muchos de los valores ajustados están fuera del intervalo unitario, ajustarlos puede afectar los resultados; en este caso, tal vez lo mejor sea simplemente emplear MCO. El procedimiento para estimar el MPL mediante MCP es: *Estimar el modelo mediante MCO y obtener los valores ajustados, Y^ i . *Determinar si todos los valores ajustados se encuentran dentro del intervalo unitario. Si no es así, será necesario realizar algunos ajustes para llevar a todos los valores ajustados al intervalo unitario. *Calcular las varianzas estimadas h^i=Y^ i (1−Y^ i) . *Estimar la ecuación Y=β0+β1.X1+…+βk.Xk+u por MCP, usando como 1 ponderadores . h^ i