ECONOMETRIA DE L’EMPRESA Grau ADE MODELO DE REGRESIÓN LINEAL MÚLTIPLE (I) SUMA DE CUADRADOS Para terminar este apartado haremos referencia a la descomposición de la suma de cuadrados de los errores. Los resultados que se derivan de la propiedad que a continuación va a enunciarse y comprobarse son de gran utilidad para calibrar la calidad del ajuste, tal como tendremos ocasión de precisar más adelante. Para todos aquellos modelos en los que aparece un término constante entre las variables explicativas (una de las columnas, por ejemplo, la primera, de la matriz de regresores X es un vector de unos) la variación de la variable explicada puede descomponerse en la forma siguiente: Variación Total = Variación Explicada por la Regresión + Variación Residual Habíamos obtenido una expresión para la suma de los cuadrados de los residuos en función de los vectores y matrices de variables observadas y parámetros estimados en la forma: e'·e = Y '·Y − b'· X '·Y y ahora, podemos reescribirla como sigue: Y = Yˆ + e = X ·b + e e'·e = Y '·Y − b'· X '·Y = Y '·Y − b'· X '·( X ·b + e) e'·e = Y '·Y − b'· X '· X ·b + b'· X '·e = Y '·Y − b'· X '· X ·b e'·e = Y '·Y − Yˆ '·Yˆ , por lo tanto, Y ' Y = Yˆ ' Yˆ + e'·e Por lo que, la suma de los cuadrados de los valores de la variable endógena es igual a la suma de los cuadrados de los valores ajustados más la suma de los cuadrados de los residuos. Y 'Y = Yˆ 'Yˆ + e' e = Yˆ ' Yˆ − nY 2 + e' e Si ahora restamos en ambos miembros de la anterior igualdad una misma cantidad, Y ' Y − nY 2 suma total de cuadrados Yi 2 − 2Y Yi + nY 2 = Y ' Y − 2Y (nY ) + nY 2 = Y ' Y − nY 2 es la suma de los cuadrados de las desviaciones de la variable explicada Y con respecto a su media o suma total de cuadrados 2 = Comprobación: i (Y − Y ) Y ' Y − nY 2 suma explicada = Yˆ ' Yˆ − nY 2 + suma residual e' e De manera parecida, los dos primeros sumandos del lado derecho de la expresión proporcionan la suma explicada o suma de los cuadrados de las desviaciones de los valores ajustados con respecto de su media: suma totalde cuadrados (Y − e ) + nY 2 De este modo podemos completar los resultados anteriores diciendo que la suma total es igual a la suma explicada más la suma residual: Suma Total = Suma Explicada + Suma Residual Yˆ + nY 2 = Yˆ ' Yˆ − 2Y Yˆ = Y − e 2 = Yˆ ' Yˆ − 2Y Y = Yˆ + e 2 = Yˆ ' Yˆ − 2Y (nY ) + 0 + nY 2 = Yˆ ' Yˆ − nY 2 ei + nY 2 Yi + 2Y 2 = Yˆ ' Yˆ − 2Y (Yˆ − Y ) (Yˆ − Y ) (Yˆ − Y ) SUMA DE CUADRADOS Regresores y residuos son ortogonales yi =βˆ 1+βˆ 2 x2,i + +βˆ k xk,i +ei siempre que ē = 0 Es decir, siempre haya término constante en el modelo © Jordi Arcarons Samuel Calonge © Jordi Arcarons Samuel Calonge © Jordi Arcarons Samuel Calonge Fuente de variación Explicada (VE) No Explicada VE Total (VT) Suma de cuadrados N 2 Grados libertad k-1 | ˆ =yˆ k-1 y k-1 ( yˆ i -y) i=1 N N-k 2 | =yk-1 y k-1 N-1 ei2 =e'e i=1 N ( yi -y) i=1 Pond © Jordi Arcarons Samuel Calonge MEDIDAS DE BONDAD DEL AJUSTE Para medir la calidad del ajuste suele utilizarse una medida relacionada con el coeficiente de correlación lineal. Para el modelo de regresión lineal múltiple esta medida es el denominado coeficiente de determinación o de correlación múltiple que se define como: n n 2 ei2 = e'·e i =1 n (Yˆ − Y ) = Yˆ ' Yˆ − nY 2 = b'X'Y − nY 2 = b' X ' Xb − nY 2 (Yi − Y )2 = Y ' Y − nY 2 Suma Residual Suma Explicada R2 = 1 − = Suma Total Suma Total VT = Suma Total = i =1 VE = Suma Explicada = VE = Suma Residual = i =1 ➢ ➢ ➢ ➢ e' e VE R2 = 1 − = 1− VT Y ' Y − nY 2 Cuando en la regresión aparece un término constante, el coeficiente de determinación toma valores en el rango comprendido entre 0 y 1. El valor del coeficiente de determinación suele expresarse en forma de tanto por ciento de modo que nos viene a indicar el porcentaje que captura la regresión de la variación total de la variable a explicar. El coeficiente señala la bondad del ajuste en el sentido que describe qué parte de la variabilidad total ha sido explicada por el modelo de regresión. Sin embargo, hemos de notar que la definición del coeficiente de determinación no recoge los grados de libertad. Dicho de otro modo, es aquél coeficiente se comparan las variaciones de la regresión y de los errores al margen de cuántos elementos de ellos son independientes. 𝑅2 = 1 − e' e VE R2 = 1 − = 1− VT Y ' Y − nY 2 𝑉𝐸 252,30 𝑅2 = = = 0,6108 𝑉𝑇 413,08 𝑉𝐸 160,77 =1− = 0,6108 𝑉𝑇 413,08 Para salvar este inconveniente se propone el denominado coeficiente de determinación corregido de grados de libertad (g.l.) definido como: e' e (n − K ) n −1 e' e n −1 R 2 = 1− = 1− = 1− (1 − R 2 ) (Y ' Y − nY 2 ) (n − 1) n − K Y ' Y − nY 2 n−K que pone de manifiesto asimismo la relación entre los dos coeficientes utilizados para medir la bondad del ajuste. No está acotado Coef. Determinación Corregido Está acotado entre 0 y 1 Coef. Determinación Cuando se incorporan nuevas variables explicativas No Disminuye de valor, es decir, se mantiene o aumenta. • Incorporación de variables • Se mantiene V Total • Aumenta V Explicada • Disminuye V No Explicada • Aumenta R2 n −1 R 2 = 1− (1 − R 2 ) n−K Cuando se incorporan nuevas variables explicativas Disminuye o Incrementa. • El coeficiente sólo aumenta de valor si las nuevas variables incorporadas son “explicativas” para el modelo. Esto ocurre cuando el aumento en VE compensa la pérdida de g.l. provocada por el aumento de regresores. • El coeficiente disminuye cuando la ganancia de capacidad explicativa NO está estadísticamente justificada, puesto que las nuevas variables NO son explicativas. VE R2 = 1 − VT COEFICIENTES DE DETERMINACIÓN Si hay término independiente Si NO hay término independiente COEFICIENTES DE DETERMINACIÓN CORREGIDO Correlación espuria © Jordi Arcarons Samuel Calonge INTERPRETACIÓN DE RESULTADOS 413,08 = 252,30 +160,77 N=16 K=3, hay una variable constante y 2 explicativas Fuente de variación Explicada (VE) No Explicada Total (VT) Suma de cuadrados N 2 | ˆ =yˆ k-1 y k-1 ( yˆ i -y) i=1 N ei2 =e'e i=1 ˆY2ˆ Grados libertad k-1 VE k-1 Ponderación Q1 = Estadístico F VE N-k VE Q2 =252 ,30 = = = N-k = 126,15 K −1 2 SY2ˆ N-1 Fuente de variación Explicada (VE) Fuente de variación Explicada (VE) No Explicada VE NoTotal Explicada (VT) Total (VT) ( ) N-k N-1 k-1 N-k e' e 160,77 = = = 12,366 n−K 13 N-k QQ 1 = = VE 2k-1 VE Grados Suma de cuadrados libertad Ponderación Estadístico F Grados k-1 Ponderación libertad Estadístico F ( ) | =yk-1 yk-1 N 2 | yˆ ide -y cuadrados =yˆ k-1 yˆ k-1 Suma i=1 N 2 N | ˆ ˆ ˆ 2 y -y =y y i k-1 e i =e'e k-1 i=1 i=1 N 2 ( yi -y) i=1 ˆ 2 = S2 u N-1 e Fuente de variación Explicada (VE) No Explicada Fuente de variación Suma de cuadrados Grados libertad Grados N-k libertad k-1 Suma de cuadrados 22 k-1 N-1 NN || ˆ =yˆk-1 y ((yyˆi -y i -y)) =y k-1 k-1yk-1 N-k Explicada Total (VT) (VE) No Explicada N-1 i=1 i=1 Total (VT) Ponderación Estadís Estadíst VE k-1 Ponderación Q1 = ECM = e' e ˆ u2 = Se2 = n−K 160,77 = 12,36 = 3,516 13 VE 160,77 R2 = 1 − = 1− = 0,6108 VT 413,08 -1 β̂MQO = ( X'X) X'y ( 3 x1) = 1 2 3 9,639 = − 0,025 0,015 Yi = 9,639 − 0,025· X 2i + 0,015· X 3i + ei del lineal expressat en unitats dedepèn mesurade deles desviació estàndard β̂ *j no unitats de mesura mesurar la importància rela σ̂ x j x1,i -x1 això x 2,ipermet -x 2 x yi - y k,i -x k * * * * ˆ ˆ ˆ ˆ ˆ =β + β + +β β es com beta o estand 1 2 coneix 2 coeficient j =β j ˆ ˆ ˆ ˆ σˆ y σ σ σ σ x x x y 1 2 k Yi = 0 − 0,68· X 2i + 1,29· X 3i + ei con todas las variables estandariz adas V ( ˆ) = V ( ˆ) = 2 −1 u (X ' X ) = (11,96) 2 (0,01) 2 (0,004) 2 VE R2 = 1 − VT Varianza estimada de la regresión e' e ˆ u2 = Se2 = n−K n −1 R 2 = 1− (1 − R 2 ) n−K