FICHES ECONOMETRIE Modèle simple de regression linéaire : Yi la variable dépendante Xi la variable indépendante 0 la valeur de Yi quand X = 0 Composante linéaire 1 la pente de la droite i la composante de l’erreur aléatoire Estimation de la valeur de Y pour l’observation I : i la valeur estimée b0 l’interception estimée avec l’axe des ordonnées b1 l’estimation de la pente Xi la valeur de X pour l’observation i Ŷ Méthode du moindre carré : b0 et b1 sont obtenus en trouvant les valeurs qui minimisent la somme de la différence des carrés Ŷ entre Y et : 1 b0 est la valeur moyenne estimée de Y quand la X = 0 b1 est la variation moyenne estimée de Y lorsque X change d’une unité : Cov( x, y ) ˆ bˆ1 , b0 y bˆ1 x V ( x) Regression sous Excel : La variation totale est faite de deux parties : 𝑌 = Valeur moyenne de la variable dépendante Yi = Valeur observée de la variable dépendante Ŷ i = Valeur estimée de Y pour la valeur donnée Xi 2 o SST = Total sum of squares (Total variation) Mesure les variations des valeurs de Yi autour de leur valeur moyenne 𝑌 o SSR = Regression sum of squares (Variation expliquée) Variation attribuée à la relation entre X et Y o SSE = Error sum of squares (Variation non expliquée) Variation de Y attribuée à des facteurs extérieurs à X Il faut se rappeler que le model est cohérent que si la relation est linéaire. Dans le cas contraire, il faut la linéariser : Coefficient de determination r2 : C’est la partie de la variation totale (SST) de la variable dépendante expliquée par la variation de la variable indépendante. 𝑺𝑺𝑹 𝒓𝒆𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔 o r2 = 𝑺𝑺𝑻 = 𝒕𝒐𝒕𝒂𝒍 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔 note : 0 < r2 < 1 Relation linéaire parfaite entre X et Y : 100% de la variation de Y est expliquée par une variation de X 3 Plus r2 0, moins la relation est linéaire. o Quand r2 = 0, il n’y a aucune relation linéaire entre X et Y. Dans Excel : ANOVA Table : Ecart-type de la variation des observations autour de la droite de régression : Il suffit de savoir ce qu’est SYX et de pouvoir l’interpréter, Ne pas apprendre la formule Dans Excel, SYX est donné : 4 Interpretations : L’ampleur de SYX doit toujours être jugée en fonction de la taille des valeurs de Y dans l’échantillon. Par ex : SYX = $41,33K est plutôt petit quand on considère le prix des maisons ($200K $400K) Hypothèses de la régression : L.I.N.E : Linéarité : La relation entre X et Y est linéaire Indépendance des erreurs : Les valeurs de l’erreur sont statistiquement indépendantes Normalité de l’erreur : Les valeurs de l’erreur sont distribuées selon la loi Normale pour toute valeur de X Égalité de la variance (appelée aussi homoscedasticité) La distribution de probabilité des erreurs a une variance constante Précisions à propos des hypothèses : Les valeurs estimées b0 et b1 (ou “hat” values) sont estimées grâce à des données empiriques. b0 et b1 sont des variables aléatoires et des estimateurs de 0 et 1. Un “estimateur” est une statistique (une fonction de données) qui est utilisé pour déduire la valeur d’un paramètre inconnu dans un modèle statistique. Les estimateurs doivent être non-biaisés : E(b1) = 1 Les estimateurs doivent être convergents : lim 𝑉(b1) = 0 𝑛→∞ Si les hypothèses LINE sont confirmées, les estimateurs sont non-biaisés et convergents. En partant d’un raisonnement inverse, on peut dire que les estimateurs sont non-biaisés et convergents si ces hypothèses sont respectées : La relation entre X et Y reste la même (H1) et est linéaire (H2 ou “L” dans LINE) L’erreur est une variable aléatoire (H3) Xi n’est pas une variable aléatoire (H4) E(i) = 0 (H5) 5 Pas d’autocorrelation (H6 ou “I” dans LINE) Homoscedasticité (H7 ou “E” dans LINE) La limite de V(Xi) quand i tend vers +∞ doit être égale à 0 (H8) Les erreurs doivent être distribuées normalement (H9 ou “N” dans LINE) Analyse résiduelle : Le résidu pour l’observation i, ei, est la différence entre la valeur observée et la valeur estimée Vérifier les hypothèses de regression en examinant les résidus Analyse du résidu pour la linéarité : Analyse du résidu pour l’indépendance : Analyse du résidu pour la Normalité : Quand on utilise un graphique de probabilité Normale, les erreurs se trouveront approximativement sur une ligne droite : 6 Analyse du résidu pour la constance de la variance : Mesurer l’autocorrelation : La statistique de Durbin-Watson : Utilisée quand les données sont collectées trop tard pour detecter si l’autocorrélation est présente L’autocorrélation existe si l’erreur d’une période est liée à l’erreur d’une autre période (= un même facteur extérieur récurrent est la cause de l’erreur) Générée par des intervalles de confiance inexactes L’autocorrélation est la corrélation des erreurs (résidus) au cours du temps : Graphe controversé car il semble que les erreurs soient régulières dans le temps Le model de Durbin-Watson peut s’exprimer : t =p t-1 +t Si p = 0, on ne peut pas affirmer que les erreurs ne sont pas corrélées. On a aussi : 0D4 7 Ne pas apprendre cette formule D doit être proche de 2 pour prouver la nonautocorrélation D < 2 signale une autocorrélation positive, et D > 2 une autocorrélation négative. Trouver ensuite les valeurs de dL et dU à partir de la table de Durbin-Watson : Le choix de la ligne s’effectue en fonction de la taille de l’échantillon n Le choix de la colonne s’effectue en fonction du nombre de variable indépendante k. ____________________________________________________________ 0 dL dU 2 Autocorrélation Non concluant Pas d’autocorrélation Positive (Si dL < D < dU) Positive (Si D < dL) (Si D > dU) Dans Excel : 8 D = 1,00494 < dL = 1,29 donc il y a présence d’autocorrélation positive. La pente : le t Test : Y-a-t-il une relation linéaire entre X et Y ? 1 = 0 (Pas de relation linéaire) 1 ≠ 0 (Relation linéaire) Test statistique : b β1 t STAT 1 Sb 1 d.f. = n – 2 Avec : b1 = Pente de la régression β1 = Pente supposée Sb1 = Erreur de la pente Comme on ne connait pas β, on utilise l’estimateur «b» qui est une variable aléatoire distribuée selon une loi Student b1 1 Sb1 On définit un niveau de risque définit par : 9 P( b1 1 Sb1 t ) P( tcal t ) Si la valeur calculée est plus grande que la valeur critique, on estime que Β1 ≠ 0 (donc relation linéaire) L’erreur du coéfficient de la pente de la régression (b1) est estimée par : Avec : Sb1 = estimation de l’erreur de la pente ; SYX SSE = Erreur de n2 l’estimation 10