Uploaded by Gonzalo Moya

Heterocedasticidad (Cap 8-Woolridge)

advertisement
Heterocedasticidad
La homocedasticidad no se satisface cuando la varianza de los errores no
observables varía en los diversos segmentos de la población, donde los
segmentos están determinados por los diversos valores de las variables
explicativas.
Consecuencias de la heterocedasticidad para MCO
Sea el modelo de regresión lineal múltiple: Y=β0+β1.X1+β2.X2+…+βk.Xk+u
Bajo los supuestos 1 a 4, de Gauss-Markov, se probó que los
estimadores MCO β^ 0 ,... , β^ k son insesgados y consistentes.
El supuesto 5 de homocedasticidad, dado en términos de la varianza del
error como Var(u|X1,X2,…,Xk)=σu2, no se utiliza al demostrar si los MCO
son insesgados o consistentes. La heterocedasticidad no ocasiona sesgo
ni inconsistencia en los estimadores MCO de las βj, mientras que omitir
una variable importante sí tendrá este efecto.
La interpretación de R2 y R̄2 , tampoco se ve afectada por la presencia
de heterocedasticidad. La R2 usual y la R̄2 son dos distintas maneras de
σ 2u
estimar la R2 poblacional, la cual es simplemente 1− 2 , donde σu2 es
σY
2
la varianza poblacional del error y y σY es la varianza poblacional de Y.
Como en la R2 poblacional ambas varianzas son incondicionales, la R 2
poblacional no se ve afectada por la presencia de heterocedasticidad en
SR
ST
Var(u|X1,…,Xk). Además,
estima consistentemente σu2, y
n
n
estima consistentemente σY2, al margen de si Var(u|X1,…,Xk) es constante.
Lo mismo es cierto cuando se ajustan los grados de libertad. Por tanto, R 2
y R̄2 son estimadores consistentes de la R2 poblacional, se satisfaga o
no el supuesto de homocedasticidad.
Sin el supuesto de homocedasticidad los estimadores de las varianzas,
Var ( β^ j ) , son sesgados. Como los errores estándar de MCO se basan
directamente en estas varianzas, dejan de ser válidos para la
construcción de intervalos de confianza y de estadísticos t. En presencia
de heterocedasticidad los estadísticos t usuales de MCO no tienen
distribuciones t, y el problema no se resuelve empleando muestras
grandes. De manera similar, los estadísticos F dejan de seguir una
distribución F, y el estadístico ML deja de tener una distribución jicuadrada asintótica. Asi, los estadísticos empleados en las pruebas de
hipótesis bajo los supuestos de Gauss-Markov ya no son válidos en
presencia de heterocedasticidad.
Además, el teorema de Gauss-Markov, que dice que MCO da el MELI,
depende de manera crucial del supuesto de homocedasticidad. Si Var(u|x)
no es constante, MCO ya no es MELI. Además, MCO ya no es
asintóticamente eficiente en cierta clase de estimadores. Es posible hallar
estimadores que sean más eficientes que MCO (aunque es necesario
conocer la forma de la heterocedasticidad). Con tamaños de muestra
relativamente grandes, puede no ser tan importante obtener un estimador
eficiente.
Inferencia robusta a la heterocedasticidad en la estimación por MCO
Aún en presencia de heterocedasticidad, MCO sigue siendo útil. Se
pueden ajustar los errores estándar y los estadísticos t, F y ML de manera
que sean válidos en presencia de heterocedasticidad de la forma
desconocida. Así, se pueden reportar nuevos estadísticos que funcionen
sin importar el tipo de heterocedasticidad presente en la población, estos
son procedimientos robustos a la heterocedasticidad, son válidos (por lo
menos para muestras grandes), ya sea que los errores tengan o no
varianza constante, sin necesidad de saber cuál es el caso.
Sea el modelo con una sola variable independiente: Y i=β0+β1.Xi+ui.
Suponemos que se satisfacen los cuatro primeros supuestos de GaussMarkov. Si los errores contienen heterocedasticidad, entonces
Var(ui|Xi)=σui2. Los estimadores MCO se pueden expresar como
n
∑ (X i − X̄ )ui
β^ 1= β 1 + i =1n
. Bajo los supuestos 1 a 4 (o sea, sin el supuesto
∑ ( X i− X̄)
2
i=1
de homocedasticidad) y condicionando sobre los valores X i de la muestra,
n
∑ (X i− X̄)2 σ 2ui
se obtiene Var ( β^ 1)= i=1
n
,donde ST X =∑ ( X i− X̄ )2 es la
( ST X )2
i=1
2
2
suma total de cuadrados de las X i. Cuando σui =σu para toda i, esta
σ 2u
^
fórmula se reduce a la forma usual, Var ( β 1)=
. En el caso de la
ST X
regresión simple, la fórmula para la varianza obtenida bajo
homocedasticidad, en presencia de heterocedasticidad ya no es válida.
Puesto que SE ( β^ 1) se basa en la estimación de Var ( β^ 1) , se
necesita una manera de estimarla en presencia de heterocedasticidad.
Sean u^i los residuales de MCO de la regresión inicial de Y sobre X.
Entonces, un estimador válido de Var ( β^ 1) , para heterocedasticidad de
cualquier forma (incluyendo homocedasticidad), es
n
∑ (X i− X̄)2 u^ 2i
^ ( β )= i=1
Var
1
, que puede calcularse a partir de los datos de
(ST X )2
la regresión de MCO.
Se puede demostrar que esta ecuación multiplicada por el tamaño n de
2 2
E [( X i −μ X ) ui ]
la muestra, converge en probabilidad a
, que es el límite
2 2
(σ x)
de probabilidad de n multiplicado por Var ( β^ 1) . En principio, esto es lo
que se necesita para justificar el uso de los errores estándar para
construir intervalos de confianza y estadísticos t. La ley de los grandes
números y el teorema del límite central desempeñan papeles importantes
en el establecimiento de estas convergencias.
En el modelo general de regresión múltiple Y=β0+β1.X1+…+βk.Xk+u, un
estimador válido de Var ( β^ j ) , bajo los supuestos 1 a 4, es
n
∑ r^2ij u^ i2
^ ( β j )= i=1
,donde r^ij denota el i-ésimo residual de regresar Xj
Var
2
( SR j )
sobre el resto de las variables independientes, y SR j es la suma de
residuales cuadrados de esta regresión. La raíz cuadrada de esto se
conoce como error estándar de β^ j robusto a la heterocedasticidad.
A veces, como una corrección de los grados de libertad, antes de
obtener la raíz cuadrada, se multiplica por n/(n-k-1). Esto porque, los
residuales cuadrados de MCO u^ 2i fueran iguales para todas las
observaciones i (la forma más fuerte posible de homocedasticidad en una
muestra) se obtendrían los errores estándar usuales de MCO.
Una vez que se han obtenido los errores estándar robustos, es fácil
construir un estadístico t robusto. La única diferencia entre el estadístico t
usual de MCO y el estadístico robusto a la heterocedasticidad es la
manera en que se calcula el error estándar.
Una razón por la que se utilizan los errores estándar usuales en el
trabajo con cortes transversales es que, si el supuesto de
homocedasticidad se satisface y los errores están distribuidos
normalmente, los estadísticos t usuales tiene distribuciones t exactas, sin
importar el tamaño de muestra. Los errores estándar robustos y los
estadísticos t robustos se justifican sólo si el tamaño de muestra se hace
grande. Con tamaños de muestra pequeños, el estadístico t robusto
puede tener distribuciones que no estén muy próximas a la distribución t y
que podrían invalidar la inferencia. Cuando se trata de muestras grandes,
se justifica que en las aplicaciones con cortes transversales se reporten
sólo los errores estándar robustos a la heterocedasticidad.
También pueden obtenerse estadísticos F y ML robustos a una
heterocedasticidad de forma desconocida y arbitraria.
El estadístico F robusto a la heterocedasticidad se conoce también
como estadístico de Wald robusto a la heterocedasticidad.
Cálculo de pruebas ML robustas a la heterocedasticidad
u del modelo restringido.
*Obtener los residuales ~
*Regresar cada una de las variables independientes excluidas bajo H0
sobre todas las variables independientes incluidas; si hay q variables
r1 , ~
r 2 ,... , ~
r q ).
excluidas, esto conduce a q conjuntos de residuales ( ~
~
~
*Obtener los productos entre cada r j y u (para todas las
observaciones).
r1 ~
u ,~
r2~
u , ... , ~
r q~
u , sin intercepto. El
*Correr la regresión de 1 sobre ~
estadístico ML robusto a la heterocedasticidad es n-SR 1, donde SR1 es la
suma usual de residuales cuadrados de esta regresión final. Bajo H 0, la
distribución de ML es aproximadamente χq2.
Una vez obtenido el estadístico ML robusto, la regla de rechazo y el
cálculo de los valores-p son los mismos que para el estadístico ML usual.
Pruebas para heterocedasticidad
Dos razones para realizar pruebas para determinar la presencia de
heterocedasticidad es que los estadísticos t usuales tienen, bajo los
supuestos del modelo lineal clásico, distribuciones t exactas. Además, en
presencia de heterocedasticidad, los estimadores de MCO ya no son los
mejores estimadores lineales insesgados.
Partiendo del modelo lineal Y=β0+β1.X1+β2.X2+…+βk.Xk+u, donde los
supuestos 1 a 4 se mantienen. En particular se supone que
E(u|X1,X2,…,Xk)=0, de manera que MCO sea insesgado y consistente.
Como hipótesis nula se toma que el supuesto 5 sea verdadero:
H0: Var(u|X1,X2,…,Xk)=σu2. Si ésta no se puede rechazar a un nivel de
significancia suficientemente pequeño, en general se concluye que la
heterocedasticidad no es problema. Como se supone que u tiene una
esperanza condicional cero, Var(u|X)=E(u2|X), por lo que la hipótesis nula
de homocedasticidad es equivalente a H0: E(u2|X1,X2,…,Xk)=E(u2)=σu2.
Para probar la violación del supuesto de homocedasticidad, se prueba si
u2 está relacionada (en valor esperado) con una o más de las variables
explicativas. Si H0 es falsa, el valor esperado de u 2, dadas las variables
independientes, puede ser prácticamente cualquier función de Xj. Un
método es suponer una función lineal: u 2=δ0+δ1.X1+δ2.X2+...+δk.Xk+v,
donde v es un término de error con media cero dadas las Xj. La variable
dependiente de esta ecuación es el cuadrado del error en la ecuación de
regresión original. La hipótesis nula de homocedasticidad es
H0: δ1=δ2=…=δk=0.
Bajo H0, es a menudo razonable suponer que el error v, es
independiente de X1,X2,…,Xk. Entonces, se sabe que el estadístico F o el
estadístico ML para significancia general de las variables independientes
para explicar u2 puede utilizarse para probar H0. Los dos estadísticos
tendrán justificación asintótica, aun cuando u 2 no pueda estar distribuida
normalmente.
Puede estimarse la ecuación u^ 2=δ 0+ δ 1 . X 1+...+ δ k . X k + error , y calcular
los estadísticos F o ML para la significancia conjunta de X1,…,Xk. Resulta
que, para muestras grandes, emplear los residuales de MCO en lugar de
los errores no afecta la distribución de los estadísticos F o ML.
Tanto el estadístico F como el estadístico ML dependen de la R 2 de la
regresión; sea R2u^ (distinta de la R2 de la regresión estimada de Y sobre
2
2
las X). Entonces, F=
R ^u /k
2
donde k es el número de
(1−R )/(n−k−1)
regresores en u^ 2 ; éste es igual al número de variables independientes
en la regresión estimada de Y. Este estadístico F tiene una distribución
Fk,n-k-1 aproximada bajo la hipótesis nula de homocedasticidad.
El estadístico ML para heterocedasticidad es: LM =n . Ru2^ . Bajo la
hipótesis nula, ML se distribuye asintóticamente como χk2.
A la versión ML de la prueba se le llama prueba Breusch-Pagan para
heterocedasticidad (prueba BP).
Los pasos de la prueba Breusch-Pagan para heterocedasticidad son:
*Estimar la regresión de Y sobre X1,...,Xk por MCO. Obtener los
residuales cuadrados de MCO, u^ 2 (uno para cada observación).
*Regresar u^ 2 sobre X1,...,Xk. Conservar R2u^ .
*Formar, ya sea el estadístico F o el estadístico ML y calcular el valor-p
(usando la distribución de Fk,n-k-1 en el primer caso y la distribución χk2 en el
segundo caso). Si el valor-p es suficientemente pequeño se rechaza la
hipótesis nula de homocedasticidad.
Si se sospecha que la heterocedasticidad sólo depende de ciertas
variables independientes, se puede modificar la prueba de B-P, se regresa
2
u^ sobre cualquier variable independiente que se elija y se realiza la
prueba F o la prueba ML apropiada. Los grados de libertad apropiados
dependen del número de variables independientes en la regresión con
2
u^ como variable dependiente. Si los residuales cuadrados se regresan
sólo sobre una variable independiente, la prueba para la
heterocedasticidad es precisamente el estadístico t usual de esa variable.
Prueba de White para heterocedasticidad
El supuesto de homocedasticidad puede ser sustituido por el supuesto
más débil de que el error cuadrado, u2, no está correlacionado con
ninguna de las variables independientes (Xj), ni con los cuadrados de las
2
2
u^
2
2
variables independientes (Xj2), ni con ninguno de los productos cruzados
(Xj.Xh para j≠h).
La prueba de White busca probar las formas de heterocedasticidad que
invalidan los errores estándar usuales de MCO y los estadísticos de
prueba usuales. Si el modelo contiene k=3 variables independientes, la
prueba de White se basa en la estimación de
u^ 2=δ 0+ δ 1 . X 1+ δ 2 . X 2 + δ 3 . X 3 + δ 4 . X 21 + δ 5 . X 22 + δ 6 . X 23 + δ 7 . X 1 . X 2+ δ 8 . X 1 . X 1+ δ 9 . X 2 . X 3 +error
La prueba de White para heterocedasticidad es el estadístico ML para
probar que todas las δj de esta ecuación son cero, a excepción del
intercepto. Para esta hipótesis también puede utilizarse una prueba F;
ambas pruebas tienen justificación asintótica.
La abundancia de regresores es una debilidad de la forma pura de la
prueba de White: utiliza muchos grados de libertad para modelos que sólo
tienen un número moderado de variables independientes.
El espíritu de la prueba de White como los grados de libertad pueden
preservarse empleando los valores ajustados de MCO en una prueba
para heterocedasticidad. Para cada observación i, los valores ajustados
son Y^ i= β^ 0 + β^ 1 . X 1i +...+ β^ k . X ki . Éstas sólo son funciones lineales de las
variables independientes. Si los valores ajustados se elevan al cuadrado,
se obtiene una función particular de todos los cuadrados y productos
cruzados de las variables independientes. Esto sugiere probar la
heterocedasticidad estimando la ecuación u^ 2=δ 0+ δ 1 . Y^ + δ 2 . Y^ 2+ error
Se utilizan los Y^ porque éstos son funciones de las variables
independientes (y de los parámetros estimados); usando Y no se
obtendría una prueba válida para heterocedasticidad. Para la hipótesis
nula H0: δ1=0, δ2=0 en la ecuación pueden utilizarse los estadísticos F o
ML. Esto da como resultado dos restricciones al probar la hipótesis nula
de homocedasticidad, sin importar la cantidad de variables
independientes en el modelo original.
Entonces, los pasos para el caso especial de la prueba de White son:
*Estimar el modelo original mediante MCO. Obtener los residuales u^
de MCO y los valores ajustados Y^ . Calcular los cuadrados de los
residuales de MCO, u^ 2 y los cuadrados de los valores ajustados Y^ 2 .
*Ejecutar la regresión de la ecuación para u^ 2 . Conservar R2u^ .
*Formar, ya sea el estadístico F o el estadístico ML, y calcular el valor-p
(empleando la distribución F2,n-3 en el primer caso y la distribución χ22 en el
segundo).
2
El rechazo obtenido en una de las pruebas para heterocedasticidad se
interpreta como evidencia de heterocedasticidad siempre que se
conserven los supuestos 1 a 4. Pero si se infringe el supuesto 4 [en
particular, si la forma funcional E(Y|X) está mal especificada] entonces
una prueba para heterocedasticidad puede rechazar H 0, aún cuando
Var(Y|X) sea constante. Por ejemplo, si en un modelo de regresión se
omiten uno o más términos cuadráticos o se utiliza el modelo lineal
cuando debe utilizarse el logarítmico, una prueba para la
heterocedasticidad puede ser significativa.
Estimación por mínimos cuadrados ponderados
Antes del desarrollo de los estadísticos robustos, la solución, cuando se
encontraba heterocedasticidad, era especificar su forma y utilizar un
método de mínimos cuadrados ponderados.
Heterocedasticidad conocida, salvo una constante multiplicativa
Sean X todas las variables explicativas del modelo original y sea
Var(u|X)=σu2.h(X), donde h(X) es alguna función de las variables
explicativas que determina la heterocedasticidad. Puesto que las
varianzas deben ser positivas, h(X)>0 para todos los posibles valores de
las variables independientes. Suponemos que la función h(X) es
conocida. El parámetro poblacional σu2 no se conoce, pero puede ser
estimado a partir de una muestra de datos.
Dada una muestra aleatoria de la población, puede escribirse
σui2=Var(ui|Xi)=σu2.h(Xi)=σu2.hi, con Xi todas las variables independientes
de la observación i, y las hi cambian con cada observación porque las
variables independientes cambian de una observación a otra.
Partimos del modelo original, Yi=β0+β1.X1i+β2.X2i+...+βk.Xki+u, que
contiene errores heterocedásticos, y se transforma en una ecuación que
tenga errores homocedásticos (y satisfaga los demás supuestos de
ui
Gauss-Markov). Como hi es una función de Xi,
tiene valor esperado
√hi
cero condicional sobre Xi. Además, como Var(ui|Xi)=E(u2|Xi)=σu2.hi,
2
2
2
ui
ui
E(u i ) (σ u . hi)
2
) ]=
=
=σ u .
entonces: Var ( ∣X i )=E[(
h
h
√h i
√ hi
i
i
El modelo original puede dividirse entre √ hi para obtener:
Yi β 0
X1i
X ki
ui
=
+ β 1 .(
)+...+ β k .(
)+(
) o
√ h i √ hi
√h i
√ hk √ hi
1
Y i ' = β 0 . X 0 i '+ β 1 . X 1 i '+ ...+ β k . X ki '+ ui ' ,donde X 0 i=
y las demás
√ hi
variables con tilde denotan las variables originales correspondientes
divididas entre √ hi .
El intercepto β0 del modelo original aparece ahora multiplicando la
variable X0i’. Cada parámetro de pendiente en βj multiplica una nueva
variable que rara vez tiene una interpretación útil. Esto no es problema ya
que, para interpretar los parámetros y el modelo, siempre se vuelve a la
ecuación original.
La nueva ecuación es lineal en sus parámetros (satisface el supuesto 1),
y el supuesto de muestreo aleatorio no ha cambiado. Además, u i’ tiene
media cero y varianza constante (σu2), condicional sobre Xi’.
Esto significa que si la ecuación original satisface los primeros cuatro
supuestos de Gauss-Markov, entonces la ecuación transformada satisface
los cinco supuestos de Gauss-Markov. Asimismo, si ui tiene una
distribución normal, entonces ui’ tiene una distribución normal con
varianza σu2. Por lo tanto, la ecuación transformada satisface los
supuestos del modelo lineal clásico 1 a 6 si el modelo original, a
excepción del supuesto de homocedasticidad, los satisface.
Se estiman entonces los parámetros de la ecuación transformada
mediante MCO. Estos estimadores, β0’,β1’,...,βk’, serán diferentes de los
estimadores de MCO de la ecuación original. Los βj’ son ejemplos de
estimadores de mínimos cuadrados generalizados (MCG).
Dado que la ecuación transformada satisface todos los supuestos
ideales, los errores estándar, los estadísticos t y los estadísticos F pueden
obtenerse de regresiones en las que se usen las variables transformadas.
La suma de los residuales cuadrados dividida entre los grados de
libertad es un estimador insesgado de σu2. Además, los estimadores de
MCG, debido a que son los MELI de las βj, son necesariamente más
eficientes que los estimadores β^ j de MCO, obtenidos de la ecuación no
transformada.
Pero debe recordarse que hay que interpretar las estimaciones a la luz
de la ecuación original. La R2’ obtenida al estimar la ecuación
transformada, aunque es útil para calcular estadísticos F, no es
informativa como medida de bondad de ajuste (indica el ajuste del modelo
transformado, lo que rara vez tiene mucho sentido). Los estimadores de
MCG para la corrección de la heterocedasticidad se denominan
estimadores de mínimos cuadrados ponderados (MCP). Los βj’ minimizan
la suma ponderada de los residuales cuadrados, donde cada residual
cuadrado es ponderado por 1/hi. La idea es dar menos peso a las
observaciones que tienen una varianza del error mayor; MCO da a cada
observación el mismo peso dado que MCO es mejor cuando la varianza
del error es idéntica en todas las particiones de la población.
Matemáticamente, los estimadores de MCP son los valores de b j que
2
n
(Y i −b0−b1 . X 1 i−...−bk . X ki)
minimizan ∑
. Introduciendo la raíz
hi
i=1
cuadrada de 1/hi dentro del residual cuadrado se muestra que la suma
ponderada de los residuales cuadrados es idéntica a la suma de los
residuales cuadrados en las variables transformadas:
n
∑ (Y i '−b 0−b1 . X 1i '−...−b k . X ki ' )2
. Como los MCO minimizan la suma
i=1
de los residuales cuadrados, los estimadores de MCP que minimizan la
ecuación original son simplemente los estimadores de MCO de la
ecuación transformada.
Para todo conjunto de ponderadores positivos puede definirse un
estimador de mínimos cuadrados ponderados. MCO es el caso especial
que da el mismo peso a todas las observaciones. El procedimiento
eficiente, MCG, pondera cada residual cuadrado con el inverso de la
varianza condicional de ui dado Xi.
La ecuación estimada puede expresarse de la manera usual. Los
coeficientes estimados y los errores estándar serán diferentes de los de
MCO, pero la manera de interpretar esos coeficientes estimados, errores
estándar y estadísticos de prueba es la misma.
En la mayoría de los casos, la elección de los ponderadores en MCP
tiene cierto grado de arbitrariedad. Sin embargo, los ponderadores
necesarios para MCP pueden surgir de manera natural del modelo
econométrico subyacente. Esto sucede cuando, en lugar de usar datos de
individuos, sólo se tienen promedios de datos de un grupo o de una
región geográfica. En este caso, hi=1/mi, donde mi es el tamaño del grupo
i de donde surge el promedio. Esto porque, dado que se trata de
promedios de un grupo, el error en la ecuación original sería
mi
ūi=(m i) . ∑ u ji , y si no hay correlación en los errores entre los
−1
j=1
σ 2u
individuos del grupo: Var ( ūi )=
. El procedimiento más eficiente es
mi
MCP, donde los ponderadores son iguales al número de individuos en el
grupo (1/hi=mi). Esto asegura que a los grupos más grandes se les dé
más peso. Esto proporciona una manera eficiente de estimar los
parámetros del modelo a nivel individuo cuando sólo se tienen promedios
a nivel grupo.
Una ponderación similar surge cuando se utilizan datos per cápita de
una población. Si la ecuación a nivel individual satisface los supuestos de
Gauss-Markov, entonces el error en la ecuación per cápita tiene una
varianza proporcional a uno entre el tamaño de la población. Por lo tanto,
el método de MCP con ponderadores iguales a la población es adecuado.
La ventaja de ponderar empleando el tamaño de la empresa, la
población, la ciudad, etc; radica en que la ecuación individual subyacente
sea homocedástica. Si existe heterocedasticidad a nivel individual,
entonces la ponderación adecuada depende de la forma de la
heterocedasticidad. Además, si hay correlación entre los errores dentro de
σ 2u
un grupo, entonces Var ( ūi )≠
. La incertidumbre acerca de la forma de
mi
Var ( ūi ) en algunas ecuaciones lleva a que normalmente se utilice
simplemente MCO y se calculen errores estándar robustos y estadísticos
de prueba robustos al estimar modelos usando datos per cápita. Una
alternativa es ponderar con el tamaño del grupo, pero reportar los
estadísticos robustos a la heterocedasticidad en la estimación de MCP.
Esto garantiza que, mientras que la estimación es eficiente si el modelo
individual satisface los supuestos de Gauss-Markov, la heterocedasticidad
a nivel individual o la correlación dentro del grupo sean explicadas
mediante inferencia robusta.
Estimación de la función de heterocedasticidad: MCG factibles
En algunos casos es difícil encontrar la función h(Xi). Sin embargo, en
muchos casos puede modelarse la función h y utilizar los datos para
estimar los parámetros desconocidos del modelo. Esto resulta en una
estimación para cada hi, que se denota como h^i . Usando h^i en lugar
de hi en la transformación de MCG, se obtiene un estimador llamado
estimador de MCG factibles (MCGF). También se les suele llamar MCG
estimados (MCGE).
Un método particular para modelar la heterocedasticidad, bastante
flexible es: sea Var(u|X)=σu2.exp(δ0+δ1.X1+δ2.X2+…+δk.Xk), donde
X1,X2,…,Xk son las variables independientes que aparecen en el modelo
de regresión, y las δj son parámetros desconocidos. Esto es,
h(X)=exp(δ0+δ1.X1+δ2.X2+…+δk.Xk).
Las alternativas lineales para h son adecuadas cuando se prueba
heterocedasticidad, pero pueden ser problemáticas cuando se trata de
corregir la heterocedasticidad empleando mínimos cuadrados
ponderados. Los modelos lineales no aseguran que los valores predichos
sean positivos, y para emplear el método de MCP las varianzas estimadas
deben ser positivas.
Si se conocieran los parámetros δj simplemente se aplicaría MCP. Como
esto no es muy realista, se utilizan los datos para estimar estos
parámetros, y después utilizar estas estimaciones para construir los
ponderadores. Esta ecuación se transforma en una forma lineal que, con
una leve modificación, puede ser estimada por MCO.
Bajo el supuesto sobre Var(u|X), se puede escribir
2
u =σu2.exp(δ0+δ1.X1+δ2.X2+…+δk.Xk).v, donde v tiene media igual a la
unidad, condicional sobre X=(X1,X2,…,Xk). Si se supone que v es
realmente independiente de X, puede escribirse
log(u2)=α0+δ1.X1+δ2.X2+…+δk.Xk+e, donde e tiene media cero y es
independiente de X; en esta ecuación el intercepto es diferente a δ0, pero
esto no es importante para emplear MCP. La variable dependiente es el
logaritmo del error cuadrado. Puesto que esta ecuación satisface los
supuestos de Gauss-Markov, pueden obtenerse estimadores insesgados
de δj usando MCO.
Se sustituye la u no observada por los residuales de MCO. Por lo tanto,
la regresión que se ejecuta es log( u^ 2 ) sobre X1,X2,…,Xk. Lo que se
necesita de esta regresión son los valores ajustados g^ i . Entonces, las hi
1
estimadas son h^i=exp ( g^ i) . Luego, se usa MCP con
en lugar de 1/hi.
h^ i
El procedimiento con MCG factibles para corregir heterocedasticidad es:
*Ejecutar la regresión de Y sobre X y obtener los residuales, u^ 2 .
*Obtener log( u^ 2 ) elevando primero al cuadrado los residuales de
MCO y en seguida tomando el logaritmo natural.
*Regresar log( u^ 2 ) sobre X y obtener los valores ajustados g^ i .
*Exponenciar los valores ajustados g^ i : h^i=exp ( g^ i) .
*Estimar la ecuación Y=β0+β1.X1+…+βk.Xk+u por MCP, usando como
1
ponderadores
.
h^ i
Si en el procedimiento de MCP pudiera utilizarse hi en lugar de h^ , los
i
estimadores serían MELI, suponiendo que se haya modelado
correctamente la heterocedasticidad. Tener que estimar h i con los mismos
datos significa que el estimador de MCGF deja de ser insesgado (por lo
que deja de ser MELI). Sin embargo, el estimador de MCGF es
consistente y asintóticamente más eficiente que MCO. Para tamaños de
muestra grandes, MCGF es una alternativa interesante a MCO cuando
hay evidencia de heterocedasticidad que infla los errores estándar de los
estimadores de MCO.
Los estimadores de MCGF son estimadores de los parámetros del
modelo poblacional usual Y=β0+β1.X1+…+βk.Xk+u. Las estimaciones de
MCGF se utilizan en lugar de las de MCO debido a que los estimadores
de MCGF son más eficientes y tienen estadísticos de prueba con las
distribuciones t y F usuales, por lo menos en muestras grandes.
Una alternativa útil para estimar hi es sustituir las variables
independientes de la regresión de log( u^ 2 ) sobre X por los valores
ajustados de MCO y sus cuadrados. Es decir, obtener las g^ i como
valores ajustados de la regresión de log( u^ 2 ) sobre Y^ , y Y^ 2 y
después obtener h^ i como antes.
Park sugirió usar la regresión de log( u^ 2 ) sobre X para probar la
heterocedasticidad (se puede utilizar una prueba de F o ML). Pero la
hipótesis nula debería ser más fuerte que la homocedasticidad (u y x
deben ser independientes). En segundo lugar, usando los residuales de
MCO u^ en lugar de u puede hacer que el estadístico F se desvíe de la
distribución F incluso en tamaños de muestra grandes. Nada de esto
sucede en las pruebas de White o B-P. Por estas razones, la prueba de
Park no se recomienda para probar heterocedasticidad.
Después de una estimación por MCP se debe ser cuidadoso al calcular
los estadísticos F para probar hipótesis múltiples. Es importante que se
utilicen los mismos ponderadores para estimar el modelo no restringido y
el restringido. Primero debe estimarse el modelo no restringido mediante
MCO. Una vez obtenidos los ponderadores, éstos pueden utilizarse para
estimar también el modelo restringido. El estadístico F puede calcularse
como de costumbre.
Las estimaciones por MCO y por MCP pueden ser sustancialmente
diferentes. Las estimaciones de MCO y de MCP diferirán siempre debido
al error de muestreo, el problema es si su diferencia es suficiente para
modificar conclusiones importantes. Si MCO y MCP producen
estimaciones estadísticamente significativas que difieren en el signo o la
diferencia en las magnitudes de las estimaciones es grande en sentido
práctico, hay que desconfiar. En general, esto indica que uno de los otros
supuestos de Gauss-Markov es falso, en particular el de media
condicional cero del error (supuesto 4). Si E(Y|X)≠β0+β1.X1+…+βk.Xk,
entonces MCO y MCP tienen valores esperados y límites de probabilidad
diferentes. Para que MCP dé estimadores consistentes de las βj, no basta
que u no esté correlacionada con cada una de las Xj; se necesita el
supuesto más fuerte 4 en el modelo lineal del supuesto 1. Por tanto, una
diferencia significativa entre MCO y MCP puede indicar una mala
especificación de la forma funcional en E(Y|X). La prueba de Hausman
puede usarse para comparar de manera formal las estimaciones de MCO
y de MCP para ver si difieren más de lo que el error de muestreo sugiere
que deban hacerlo.
Función de heterocedasticidad supuesta incorrecta
Cuando la función de la varianza que se utiliza está mal especificada,
Var(Y|X)≠σu2.h(X) para la función h(x) elegida, esta mala especificación de
h(X) no causa sesgo o inconsistencia en el estimador de MCP, por lo
menos bajo el supuesto 4. Si E(u|X)=0, entonces cualquier función de X
u
no está correlacionada con u y, por tanto, el error ponderado,
,
√h( X)
Xj
no está correlacionado con los regresores ponderados,
, para
√h( X)
cualquier función h(X) que sea siempre positiva. Esta es la razón por la
cual grandes diferencias entre los estimadores de MCO y de MCP pueden
considerarse como indicativas de una forma funcional mal especificada. Si
se estiman parámetros en la función, por ejemplo h(X , δ^ ) , entonces no
se puede afirmar que MCP sea insesgado, pero por lo general será
consistente (ya sea que la función de la varianza esté o no bien
especificada).
Aunque MCP es consistente, por lo menos bajo los supuestos 1 a 4, las
consecuencias de usar MCP con una función de la varianza mal
especificada son dos. La primera es que los errores estándar y los
estadísticos de prueba usuales de MCP, calculados bajo el supuesto de
que Var(Y|X)=σu2.h(X), ya no son válidos, incluso en muestras grandes.
Sin embargo, sí como para los coeficientes estimados de MCO es posible
obtener errores estándar robustos a una heterocedasticidad arbitraria,
también se pueden obtener errores estándar para MCP que permiten que
la función de la varianza esté arbitrariamente mal especificada.
β0
X
X
u
+ β 1 .( 1 i )+...+ β k .( ki )+( i ) .
√hi √ hi
√h i
√ hk √ hi
ui
Ahora, si Var(ui|Xi)≠σu2.hi, entonces el error ponderado
es
√ hi
heterocedástico. Pueden aplicarse los errores estándar usuales robustos
después de estimar esta ecuación por MCO (lo cual es idéntico a MCP).
Los errores estándar de MCP robustos a la heterocedasticidad pueden
ser mayores o menores a los calculados con el supuesto de una forma de
heterocedasticidad correcta (no robustos). Aún si se utilizan formas
flexibles de funciones de la varianza, tales como la función exponencial,
no hay ninguna garantía de que se tenga el modelo correcto. Por lo tanto,
siempre es una buena idea calcular errores estándar y estadísticos de
prueba completamente robustos de la estimación de MCP.
Una crítica moderna a MCP es que si la función de la varianza está mal
especificada, no hay garantía de que sea más eficiente que MCO. Si
Var(Y|X) no es constante ni igual a σu2.h(X), donde h(X) es el modelo de
heterocedasticidad propuesto, entonces no se puede decir si MCO o MCP
es más eficiente en términos de las varianzas (o de las varianzas
asintóticas cuando los parámetros de la varianza deban ser estimados).
Un punto práctico, no obstante, es que en casos de una fuerte
heterocedasticidad, suele ser mejor usar una forma incorrecta de
heterocedasticidad y emplear MCP que ignorar por completo la
heterocedasticidad y usar MCO. Modelos como el exponencial pueden
aproximar bien una variedad de funciones de heterocedasticidad y puede
que produzcan estimadores con varianzas (asintóticas) menores.
Predicción e intervalos de predicción con heterocedasticidad
Si se parte del modelo lineal estándar bajo los supuestos 1 a 4, pero se
considera heterocedasticidad de la forma Var(Y|X)=σu2.h(X), la presencia
de heterocedasticidad afecta la predicción puntual de Y sólo en tanto que
afecta la estimación de las βj. Es natural emplear MCP en una muestra de
tamaño n para obtener las β^ j . La predicción de un resultado no
observado, Y0, dados valores conocidos de las variables explicativas x0,
tiene la forma: Y^ 0= β^ 0 + x 0 β^ . Una vez que se conoce E(Y|X), las
predicciones se basarán en esto; la estructura de Var(Y|X) no juega
ningún papel directo.
Por otro lado, los intervalos de predicción sí dependen directamente de
Var(Y|X). Suponemos ahora que se satisfacen todos los supuestos del
MLC, salvo que Var(Y|X)=σu2.h(X) sustituye el supuesto 5 de
homocedasticidad. Se sabe que los estimadores de MCP son MELI y,
debido a la normalidad, tienen distribuciones (condicionales) normales.
Puede obtenerse SE ( Y^ 0) igual que antes, salvo que ahora se usa
MCP. También se necesita estimar la desviación estándar de u 0, la parte
no observada de Y0. Pero Var(u0|X=x0)=σu2.h(x0), y de esta manera
0
0
SE (u )=σ^ u . √ h (x ) , donde σ^ u es el error estándar de la regresión de
la estimación de MCP. Por lo tanto, un intervalo de predicción de 95% es
0
0
0
0 2
2
0 1 /2
Y^ ±t 0,025 . SE ( e^ ) donde SE ( e^ )={[SE( Y^ )] +σ^ u . h(x )} . Este intervalo
es exacto sólo si no se tiene que estimar la función de la varianza.
También se puede obtener una predicción para Y en el modelo
log(Y)=β0+β1.X1+ …+βk.Xk+u, donde u es heterocedástica. Suponemos
que u tiene una distribución condicional normal con una forma específica
Sea la ecuación transformada
Yi
=
de heterocedasticidad. Consideramos la forma exponencial, pero
agregamos el supuesto de normalidad: u|X~N[0, exp(δ0+δ1.X1+…+δk.Xk)].
Como log(Y) dado X tiene una distribución normal con media β0+Xβ y
varianza exp(δ0+Xδ), se sigue que E(Y|X)=exp(β0+Xβ+σu2.exp(δ0+Xδ)/2).
Ahora se estiman las βj y las δj usando la estimación por MCP de log(Y).
Es decir, después de MCO para obtener los residuales, se corre la
regresión de log ( u^ 2) sobre X para obtener los valores ajustados
g^ i=α^ 0 +δ^1 . X 1i +...+ δ^k . X ki ,y luego h^i=exp ( g^ i) . Usando estas h^i , se
obtienen las estimaciones de MCP, β^ j y también σ^ 2u . Entonces para
^ + σ^ 2 h^ /2) .
cada i, se puede obtener un valor ajustado Y^ i=exp ( logY
i
u i
Estos valores ajustados se pueden usar para obtener una R 2 usando el
coeficiente de correlación cuadrado entre Yi y Y^ i .
Para cualquier valor de la variable explicativa x0, puede estimarse
0 ^
0 ^
^
^
^2
E(Y|X=x0) como E(Y∣X=x
0)=exp[ β 0+ x β +σ u exp( α^ 0 + x δ )/2] , donde
β^ j son los coeficientes estimados por MCP, α^ 0 y β^ j el intercepto y
las pendientes de la regresión g^ i , respectivamente.
Un intervalo de predicción aproximado de 95% (para muestras grandes)
es
^ x 0)]. exp( β^ + x 0 β^ ); exp[1,96. σ^ √ h(x
^ 0)]. exp( β^ + x 0 β^ )} ,
{exp[−1,96. σ^ u √ h(
0
u
0
0
^
donde h(x ) es la función de varianza estimada evaluada en x0,
^ 0)=exp( α^ 0+ δ^1 . X 01+...+ δ^k . X 0k ) .
h(x
Reconsideración del modelo de probabilidad lineal
Cuando Y, la variable dependiente, es una variable binaria, el modelo
contendrá heterocedasticidad, a menos que todos los parámetros de
pendiente sean cero. La manera más sencilla de tratarla en este modelo
es continuar usando la estimación de MCO, pero calcular también errores
estándar robustos en los estadísticos de prueba.
En general, los estimadores de MCO son ineficientes en el MPL. Dado
que la varianza condicional de Y en el MPL es Var(Y|X)=p(X)[1-p(X)],
donde p(x)=β0+β1.X1+…+βk.Xk es la probabilidad de respuesta (la
probabilidad de éxito, y=1). Parece que lo indicado es usar MCP, pero hay
un par de problemas. La probabilidad p(X) depende claramente de los
parámetros poblacionales desconocidos, βj. No obstante, se tienen
estimadores insesgados de estos parámetros, los estimadores de MCO.
Al sustituir los estimadores de MCO en p(X), se obtienen los valores
ajustados de MCO. De manera que, para cada observación i, Var(Yi|Xi) se
estima mediante h^i=Y^ i (1−Y^ i) ,donde Y^ i es el valor ajustado de MCO
para la observación i. Se aplican MCG factibles.
Poder estimar hi para cada i no significa que se pueda proceder de
manera directa con la estimación de los MCP. El problema es que los
valores ajustados Y^ i no necesitan caer en el intervalo unitario. Si Y^ i <0
o Y^ i >1 , h^i será negativo. Como MCP consiste en multiplicar la
1
observación i por
, este método no se podrá realizar si para alguna
√h^i
observación h^i es negativo (o cero). En MCP todos los ponderadores
deben ser positivos.
En algunos casos, 0< Y^ i <1 para toda i, en cuyo caso puede emplearse
MCP para estimar el MPL. En los casos en los que hay muchas
observaciones y las probabilidades de éxito o fracaso son pequeñas, es
muy común que algunos de los valores ajustados se encuentren fuera del
intervalo unitario. Si esto ocurre lo más fácil es abandonar los MCP y
reportar estadísticos robustos a la heterocedasticidad. Una alternativa es
arreglar aquellos valores ajustados que son menores que cero o mayores
que la unidad y después aplicar MCP, para esto se asigna un valor
arbitrario entre 0 y 1 a Y^ i si éste es menor a 0 o menor a 1.Para esto se
requiere una decisión arbitraria del investigador. Si muchos de los valores
ajustados están fuera del intervalo unitario, ajustarlos puede afectar los
resultados; en este caso, tal vez lo mejor sea simplemente emplear MCO.
El procedimiento para estimar el MPL mediante MCP es:
*Estimar el modelo mediante MCO y obtener los valores ajustados, Y^ i .
*Determinar si todos los valores ajustados se encuentran dentro del
intervalo unitario. Si no es así, será necesario realizar algunos ajustes
para llevar a todos los valores ajustados al intervalo unitario.
*Calcular las varianzas estimadas h^i=Y^ i (1−Y^ i) .
*Estimar la ecuación Y=β0+β1.X1+…+βk.Xk+u por MCP, usando como
1
ponderadores
.
h^ i
Download