Fiche Econométrie: Régression Linéaire Simple

FICHES ECONOMETRIE  Modèle simple de regression linéaire :       Yi la variable dépendante Xi la variable indépendante 0 la valeur de Yi quand X = 0 Composante linéaire 1 la pente de la droite i la composante de l’erreur aléatoire Estimation de la valeur de Y pour l’observation I :  i la valeur estimée  b0 l’interception estimée avec l’axe des ordonnées  b1 l’estimation de la pente  Xi la valeur de X pour l’observation i Ŷ  Méthode du moindre carré :  b0 et b1 sont obtenus en trouvant les valeurs qui minimisent la somme de la différence des carrés Ŷ entre Y et : 1  b0 est la valeur moyenne estimée de Y quand la X = 0  b1 est la variation moyenne estimée de Y lorsque X change d’une unité : Cov( x, y ) ˆ bˆ1  , b0  y  bˆ1 x V ( x)  Regression sous Excel :  La variation totale est faite de deux parties :  𝑌 = Valeur moyenne de la variable dépendante  Yi = Valeur observée de la variable dépendante  Ŷ i = Valeur estimée de Y pour la valeur donnée Xi 2 o SST = Total sum of squares (Total variation)  Mesure les variations des valeurs de Yi autour de leur valeur moyenne 𝑌 o SSR = Regression sum of squares (Variation expliquée)  Variation attribuée à la relation entre X et Y o SSE = Error sum of squares (Variation non expliquée)  Variation de Y attribuée à des facteurs extérieurs à X  Il faut se rappeler que le model est cohérent que si la relation est linéaire. Dans le cas contraire, il faut la linéariser :  Coefficient de determination r2 :  C’est la partie de la variation totale (SST) de la variable dépendante    expliquée par la variation de la variable indépendante. 𝑺𝑺𝑹 𝒓𝒆𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔 o r2 = 𝑺𝑺𝑻 = 𝒕𝒐𝒕𝒂𝒍 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔  note : 0 < r2 < 1 Relation linéaire parfaite entre X et Y :  100% de la variation de Y est expliquée par une variation de X 3  Plus r2  0, moins la relation est linéaire. o Quand r2 = 0, il n’y a aucune relation linéaire entre X et Y. Dans Excel :  ANOVA Table :  Ecart-type de la variation des observations autour de la droite de régression : Il suffit de savoir ce qu’est SYX et de pouvoir l’interpréter, Ne pas apprendre la formule  Dans Excel, SYX est donné : 4  Interpretations : L’ampleur de SYX doit toujours être jugée en fonction de la taille des valeurs de Y dans l’échantillon.  Par ex : SYX = $41,33K est plutôt petit quand on considère le prix des maisons ($200K  $400K)  Hypothèses de la régression : L.I.N.E :  Linéarité :  La relation entre X et Y est linéaire  Indépendance des erreurs :  Les valeurs de l’erreur sont statistiquement indépendantes  Normalité de l’erreur :  Les valeurs de l’erreur sont distribuées selon la loi Normale pour toute valeur de X  Égalité de la variance (appelée aussi homoscedasticité)  La distribution de probabilité des erreurs a une variance constante  Précisions à propos des hypothèses :  Les valeurs estimées b0 et b1 (ou “hat” values) sont estimées grâce à des données empiriques.  b0 et b1 sont des variables aléatoires et des estimateurs de 0 et 1.  Un “estimateur” est une statistique (une fonction de données) qui est utilisé pour déduire la valeur d’un paramètre inconnu dans un modèle statistique.  Les estimateurs doivent être non-biaisés : E(b1) = 1  Les estimateurs doivent être convergents : lim 𝑉(b1) = 0 𝑛→∞  Si les hypothèses LINE sont confirmées, les estimateurs sont non-biaisés et convergents.  En partant d’un raisonnement inverse, on peut dire que les estimateurs sont non-biaisés et convergents si ces hypothèses sont respectées :     La relation entre X et Y reste la même (H1) et est linéaire (H2 ou “L” dans LINE) L’erreur est une variable aléatoire (H3) Xi n’est pas une variable aléatoire (H4) E(i) = 0 (H5) 5      Pas d’autocorrelation (H6 ou “I” dans LINE) Homoscedasticité (H7 ou “E” dans LINE) La limite de V(Xi) quand i tend vers +∞ doit être égale à 0 (H8) Les erreurs doivent être distribuées normalement (H9 ou “N” dans LINE) Analyse résiduelle :  Le résidu pour l’observation i, ei, est la différence entre la valeur observée et la valeur estimée  Vérifier les hypothèses de regression en examinant les résidus  Analyse du résidu pour la linéarité :  Analyse du résidu pour l’indépendance :  Analyse du résidu pour la Normalité : Quand on utilise un graphique de probabilité Normale, les erreurs se trouveront approximativement sur une ligne droite : 6  Analyse du résidu pour la constance de la variance :  Mesurer l’autocorrelation : La statistique de Durbin-Watson :  Utilisée quand les données sont collectées trop tard pour detecter si l’autocorrélation est présente  L’autocorrélation existe si l’erreur d’une période est liée à l’erreur d’une autre période (= un même facteur extérieur récurrent est la cause de l’erreur)  Générée par des intervalles de confiance inexactes  L’autocorrélation est la corrélation des erreurs (résidus) au cours du temps : Graphe controversé car il semble que les erreurs soient régulières dans le temps  Le model de Durbin-Watson peut s’exprimer :   t =p  t-1 +t Si p = 0, on ne peut pas affirmer que les erreurs ne sont pas corrélées. On a aussi :  0D4 7 Ne pas apprendre cette formule   D doit être proche de 2 pour prouver la nonautocorrélation  D < 2 signale une autocorrélation positive, et D > 2 une autocorrélation négative. Trouver ensuite les valeurs de dL et dU à partir de la table de Durbin-Watson :  Le choix de la ligne s’effectue en fonction de la taille de l’échantillon n  Le choix de la colonne s’effectue en fonction du nombre de variable indépendante k. ____________________________________________________________ 0 dL dU 2 Autocorrélation Non concluant Pas d’autocorrélation Positive (Si dL < D < dU) Positive (Si D < dL) (Si D > dU) Dans Excel : 8 D = 1,00494 < dL = 1,29 donc il y a présence d’autocorrélation positive.  La pente : le t Test :  Y-a-t-il une relation linéaire entre X et Y ?  1 = 0 (Pas de relation linéaire)  1 ≠ 0 (Relation linéaire)  Test statistique : b  β1 t STAT  1 Sb 1 d.f. = n – 2 Avec : b1 = Pente de la régression β1 = Pente supposée Sb1 = Erreur de la pente  Comme on ne connait pas β, on utilise l’estimateur «b» qui est une variable aléatoire distribuée selon une loi Student b1  1 Sb1  On définit un niveau de risque  définit par : 9 P( b1  1 Sb1  t )  P( tcal  t )    Si la valeur calculée est plus grande que la valeur critique, on estime que Β1 ≠ 0 (donc relation linéaire)  L’erreur du coéfficient de la pente de la régression (b1) est estimée par : Avec : Sb1 = estimation de l’erreur de la pente ; SYX  SSE = Erreur de n2 l’estimation 10

Fiche Econométrie: Régression Linéaire Simple

Related documents

Products

Support

Fiche Econométrie: Régression Linéaire Simple

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib