Uploaded by Hars Olsen

FICHES-ECONOMETRIE-COOLS

advertisement
FICHES ECONOMETRIE

Modèle simple de regression linéaire :






Yi la variable dépendante
Xi la variable indépendante
0 la valeur de Yi quand X = 0
Composante linéaire
1 la pente de la droite
i la composante de l’erreur aléatoire
Estimation de la valeur de Y pour l’observation I :
 i la valeur estimée
 b0 l’interception estimée avec l’axe des ordonnées
 b1 l’estimation de la pente
 Xi la valeur de X pour l’observation i
Ŷ

Méthode du moindre carré :
 b0 et b1 sont obtenus en trouvant les valeurs qui minimisent la somme de la différence des carrés
Ŷ
entre Y et :
1
 b0 est la valeur moyenne estimée de Y quand la X = 0
 b1 est la variation moyenne estimée de Y lorsque X change d’une unité :
Cov( x, y ) ˆ
bˆ1 
, b0  y  bˆ1 x
V ( x)

Regression sous Excel :

La variation totale est faite de deux parties :
 𝑌 = Valeur moyenne de la variable dépendante
 Yi = Valeur observée de la variable dépendante
 Ŷ i = Valeur estimée de Y pour la valeur donnée Xi
2
o SST = Total sum of squares (Total variation)
 Mesure les variations des valeurs de Yi autour de leur valeur moyenne 𝑌
o SSR = Regression sum of squares (Variation expliquée)
 Variation attribuée à la relation entre X et Y
o SSE = Error sum of squares (Variation non expliquée)
 Variation de Y attribuée à des facteurs extérieurs à X

Il faut se rappeler que le model est cohérent que si la relation est linéaire. Dans le cas contraire, il faut
la linéariser :

Coefficient de determination r2 :
 C’est la partie de la variation totale (SST) de la variable dépendante


 expliquée par la variation de la variable indépendante.
𝑺𝑺𝑹 𝒓𝒆𝒈𝒓𝒆𝒔𝒔𝒊𝒐𝒏 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔
o r2 = 𝑺𝑺𝑻 = 𝒕𝒐𝒕𝒂𝒍 𝒔𝒖𝒎 𝒐𝒇 𝒔𝒒𝒖𝒂𝒓𝒆𝒔

note : 0 < r2 < 1
Relation linéaire parfaite entre X et Y :
 100% de la variation de Y est expliquée par une variation de X
3
 Plus r2  0, moins la relation est linéaire.
o Quand r2 = 0, il n’y a aucune relation linéaire entre X et Y.
Dans Excel :

ANOVA Table :

Ecart-type de la variation des observations autour de la droite de régression :
Il suffit de savoir ce qu’est SYX et de pouvoir
l’interpréter,
Ne pas apprendre la formule
 Dans Excel, SYX est donné :
4
 Interpretations :
L’ampleur de SYX doit toujours être jugée en fonction de la taille des valeurs de Y dans l’échantillon.
 Par ex : SYX = $41,33K est plutôt petit quand on considère le prix des maisons ($200K  $400K)

Hypothèses de la régression : L.I.N.E :
 Linéarité :
 La relation entre X et Y est linéaire
 Indépendance des erreurs :
 Les valeurs de l’erreur sont statistiquement indépendantes
 Normalité de l’erreur :
 Les valeurs de l’erreur sont distribuées selon la loi Normale pour toute valeur de X
 Égalité de la variance (appelée aussi homoscedasticité)
 La distribution de probabilité des erreurs a une variance constante

Précisions à propos des hypothèses :
 Les valeurs estimées b0 et b1 (ou “hat” values) sont estimées grâce à des données empiriques.
 b0 et b1 sont des variables aléatoires et des estimateurs de 0 et 1.
 Un “estimateur” est une statistique (une fonction de données) qui est utilisé pour déduire la valeur
d’un paramètre inconnu dans un modèle statistique.
 Les estimateurs doivent être non-biaisés : E(b1) = 1
 Les estimateurs doivent être convergents : lim 𝑉(b1) = 0
𝑛→∞
 Si les hypothèses LINE sont confirmées, les estimateurs sont non-biaisés et convergents.

En partant d’un raisonnement inverse, on peut dire que les estimateurs sont non-biaisés et
convergents si ces hypothèses sont respectées :




La relation entre X et Y reste la même (H1) et est linéaire (H2 ou “L” dans LINE)
L’erreur est une variable aléatoire (H3)
Xi n’est pas une variable aléatoire (H4)
E(i) = 0 (H5)
5





Pas d’autocorrelation (H6 ou “I” dans LINE)
Homoscedasticité (H7 ou “E” dans LINE)
La limite de V(Xi) quand i tend vers +∞ doit être égale à 0 (H8)
Les erreurs doivent être distribuées normalement (H9 ou “N” dans LINE)
Analyse résiduelle :
 Le résidu pour l’observation i, ei, est la différence entre la valeur observée et la valeur estimée
 Vérifier les hypothèses de regression en examinant les résidus
 Analyse du résidu pour la linéarité :

Analyse du résidu pour l’indépendance :

Analyse du résidu pour la Normalité :
Quand on utilise un graphique de probabilité Normale, les erreurs se trouveront
approximativement sur une ligne droite :
6

Analyse du résidu pour la constance de la variance :
 Mesurer l’autocorrelation : La statistique de Durbin-Watson :
 Utilisée quand les données sont collectées trop tard pour detecter si l’autocorrélation est
présente
 L’autocorrélation existe si l’erreur d’une période est liée à l’erreur d’une autre période (= un
même facteur extérieur récurrent est la cause de l’erreur)
 Générée par des intervalles de confiance inexactes

L’autocorrélation est la corrélation des erreurs (résidus) au cours du temps :
Graphe controversé car il semble que les erreurs
soient régulières dans le temps

Le model de Durbin-Watson peut s’exprimer :
  t =p  t-1 +t
Si p = 0, on ne peut pas affirmer que les erreurs ne sont pas corrélées.
On a aussi :
 0D4
7
Ne pas apprendre cette
formule

 D doit être proche de 2 pour prouver la nonautocorrélation
 D < 2 signale une autocorrélation positive, et D > 2 une
autocorrélation négative.
Trouver ensuite les valeurs de dL et dU à partir de la table de Durbin-Watson :
 Le choix de la ligne s’effectue en fonction de la taille de l’échantillon n
 Le choix de la colonne s’effectue en fonction du nombre de variable indépendante k.
____________________________________________________________
0
dL
dU
2
Autocorrélation
Non concluant
Pas d’autocorrélation
Positive
(Si dL < D < dU)
Positive
(Si D < dL)
(Si D > dU)
Dans Excel :
8
D = 1,00494 < dL = 1,29 donc il y a présence d’autocorrélation positive.

La pente : le t Test :
 Y-a-t-il une relation linéaire entre X et Y ?
 1 = 0 (Pas de relation linéaire)
 1 ≠ 0 (Relation linéaire)
 Test statistique :
b  β1
t STAT  1
Sb
1
d.f. = n – 2
Avec :
b1 = Pente de la régression
β1 = Pente supposée
Sb1 = Erreur de la pente
 Comme on ne connait pas β, on utilise l’estimateur «b» qui est une variable aléatoire distribuée
selon une loi Student
b1  1
Sb1
 On définit un niveau de risque  définit par :
9
P(
b1  1
Sb1
 t )  P( tcal  t )  
 Si la valeur calculée est plus grande que la valeur critique, on estime que
Β1 ≠ 0 (donc relation linéaire)
 L’erreur du coéfficient de la pente de la régression (b1) est estimée par :
Avec :
Sb1
= estimation de l’erreur de la pente
;
SYX 
SSE
= Erreur de
n2
l’estimation
10
Download