Uploaded by Nicolas QuincΓ©

Ma314 Fiche

advertisement
Statistiques à deux variables
Lois de probabilités
Corrélation
Nuage de points
Un nuage de points est la donnée de n points du plan (que l’on supposera
distincts).
Point moyen
Lois discrètes
Variable aléatoire discrète
π‘₯Μ… =
Covariance
𝑛
𝑛
𝑖=1
𝑖=1
1
1
∑ π‘₯𝑖 𝑒𝑑 𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑛
𝒏
𝒄𝒐𝒗(𝒙, π’š) =
𝟏
Μ…)( π’šπ’Š − π’š
Μ…)
∑(π’™π’Š − 𝒙
𝒏
π’Š=𝟏
Propriétés :
1.
2.
3.
Μ…π’š
Μ…
𝒄𝒐𝒗(𝒙, π’š) = ( ∑π’π’Š=𝟏 π’™π’Š π’šπ’Š ) − 𝒙
𝒏
𝒄𝒐𝒗(𝒙, 𝒙) = 𝑽(𝒙)
∀(𝜢, 𝜷, 𝝀, 𝝁) ∈ ℝ, 𝒄𝒐𝒗(πœΆπ’™ + 𝜷, π€π’š + 𝝁) = πœΆπ€π’„π’π’—(𝒙, π’š)
Coefficient de corrélation
Définition : Soient πˆπ’™ et πˆπ’š les écarts-types des deux caractères, 𝒄𝒐𝒗(𝒙, π’š)
la covariance du couple (𝒙, π’š). Le coefficient de corrélation noté 𝝆(𝒙, π’š) de
la série statistique à deux variables est par définition le réel :
𝒄𝒐𝒗(𝒙, π’š)
𝒓=
πˆπ’™ πˆπ’š
Théorème : |𝒓| ≤ 𝟏
Ajustement linéaire
Principe
On dispose d'un certain nombre de points (π’™π’Š , π’šπ’Š), 𝟏 ≤ π’Š ≤ 𝒏, formant un
nuage statistique, et on cherche à traduire la dépendance entre 𝒙 et π’š par
une relation de la forme π’š = 𝒂𝒙 + 𝒃 ou 𝒙 = 𝒂′𝒙 + 𝒃′ où 𝒂, 𝒃, 𝒂′ et 𝒃′
sont des réels.
Méthode des moindres carrés
- Soient π‘΄π’Š les points du nuage de coordonnées, dans un repère
orthonormal et 𝑫 une droite d'équation : π’š = 𝒂𝒙 + 𝒃.
- Désignons par π‘―π’Š le point de 𝑫 d'abscisse π’™π’Š.
- La méthode des moindres carrés consiste à choisir pour une droite
d'ajustement celle pour laquelle la quantité :
𝒏
𝒇(𝒂, 𝒃) = ∑ π‘΄π’Š π‘―π’Š ²
π’Š=𝟏
π‘π‘œπ‘£(π‘₯, 𝑦)
𝑉(π‘₯)
𝑏 = 𝑦̅ − π‘Žπ‘₯Μ…
π‘Ž=
Equation de la variance
Variance résiduelle
𝒏
𝑽𝒓 =
𝟏
∑(π’šπ’Š − π’šΜ‚π’Š )²
𝒏
π’Š=𝟏
Variance expliquée
𝒏
𝑽𝒆 =
𝟏
Μ…)²
∑(π’šΜ‚π’Š − π’š
𝒏
π’Š=𝟏
Théorème de la variance
𝑉(𝑦) = π‘‰π‘Ÿ + 𝑉𝑒
𝑛
𝑉(𝑦) =
1
∑(𝑦𝑖 − 𝑦̅)²
𝑛
𝑖=1
1.
2.
3.
4.
Espérance
ℙ𝑋 (π‘₯) = β„™[𝑋 = π‘₯], ∀π‘₯ ∈ 𝑋(Ω)
𝑁
Expression de 𝑉𝑒 et π‘‰π‘Ÿ en fonction de 𝑉(𝑦) et π‘Ÿ
𝑉𝑒
π‘Ÿ2 =
𝑉
𝑉𝑒 = π‘Ÿ²π‘‰
π‘‰π‘Ÿ = 𝑉 − 𝑉𝑒 = 𝑉(1 − π‘Ÿ 2 )
Interprétation du coefficient de corrélation
Si |π‘Ÿ| = 1, il y a une dépendance linéaire totale (corrélation linéaire parfaite
et les points de nuage sont alignés).
Si |π‘Ÿ| ≈ 1, il y a une dépendance linéaire de π‘₯ et 𝑦 d’autant plus forte que π‘Ÿ
est voisin de 1).
Si |π‘Ÿ| = 0, il y a une indépendance totale de π‘₯ et 𝑦.
Si |π‘Ÿ| ≈ 0, on a une corrélation linéaire très faible ou inexistante.
𝑁
𝔼[𝑋] = ∑ 𝑝𝑖 π‘₯𝑖 = ∑ π‘₯𝑖 β„™[𝑋 = π‘₯𝑖 ]
𝑖=1
𝟏
est minimale.
Détermination de 𝒂 et 𝒃
Ω→ℝ
𝑋: {
πœ” → 𝑋(πœ”)
Loi de probabilité d’une variable aléatoire discrète
𝑖=1
Variance
La variance mesure ainsi la déviation moyenne autour de la moyenne
espérée E[X], et est définie par
𝑡
𝑽(𝑿) = 𝔼[(𝑿 − 𝔼[𝑿])𝟐 ] = ∑ π’‘π’Š (π’™π’Š − 𝔼[𝑿])²
π’Š=𝟏
𝑽(𝑿) = 𝔼[π‘ΏπŸ ] − (𝔼[𝑿])²
Théorème de la non-linéarité de la variance
Pour toute variable aléatoire 𝑋 et π‘Ž, 𝑏 ∈ 𝑅, on a
𝑉(π‘Žπ‘‹ + 𝑏) = π‘Ž²π‘‰(𝑋)
Ecart-type
Etant donnée une variable aléatoire discrète X qui possède une espérance
𝔼[𝑿] et une variance 𝑽(𝑿), on appelle écart-type de 𝑿 le réel
𝝈(𝑿) = √𝑽(𝑿)
Pour mesurer la dispersion d’une variable aléatoire 𝑿 autour de sa
moyenne, on considère souvent en statistiques l’écart-type. En effet, la
variance était homogène à 𝑿² tandis que l’écart-type est homogène à 𝑿.
Propriété
𝜎(π‘Žπ‘‹ + 𝑏) = |π‘Ž|𝜎(𝑋)
Inégalité de Markov
𝔼[𝑋] = π‘š
π‘š
∀π‘Ž > 0, β„™[𝑋 ≥ π‘Ž] ≤
π‘Ž
Inégalité de Bienaymé-Tchebychev
𝔼[𝑋] = π‘š
𝜎²
∀𝑏 > 0, β„™[|𝑋 − π‘š| ≥ 𝑏] ≤
𝑏²
Lois classiques discrètes
Loi uniforme
Situation modèle : Tirage, ds le cas d’équiprobabilité, d’un élément parmi n
éléments numérotés de 1 à n et X = num tiré.
Définition : 𝑋 → π‘ˆ(𝑛) ou 𝑋 → π‘ˆ({1, 2,· · · , 𝑛}) si
1
𝑋(Ω) = {1,2, … , 𝑛}, ∀π‘˜ ∈ {1,2, … , 𝑛}, β„™[𝑋 = π‘˜] =
𝑛
𝑛+1
𝑛2 −1
Espérance et Variance : 𝔼[𝑋] =
et 𝑉(𝑋) =
2
12
Loi de Bernoulli
Situation modèle : Epreuve de Bernoulli, p = probabilité de succès, X =
nombre de succès.
Définition : Epreuve de Bernoulli = expérience aléatoire →2 éventualités
« succès » et « échec »
𝑋 → 𝐡(𝑝) ou 𝑋 → 𝐡(1, 𝑝) si
𝑋(Ω) = {0,1}, β„™[𝑋 = 1] = 𝑝, β„™[𝑋 = 0] = 1 − 𝑝
Espérance et Variance : 𝔼[𝑋] = 𝑝 et 𝑉(𝑋) = 𝑝(1 − 𝑝)
Loi binomiale
Définition : Répétition en nbr fini d’une épreuve de Bernoulli ds les mêmes
condit° et de manière indé.
𝑋 → 𝐡(𝑛, 𝑝) si
𝑋(Ω) = {1, … , 𝑛},
𝑛
∀π‘˜ ∈ {1,2, … , 𝑛}β„™[𝑋 = π‘˜] = ( ) π‘π‘˜ (1 − 𝑝)𝑛−π‘˜
π‘˜
Proba d’échec : π‘ž = 1 − 𝑝
Espérance et Variance : 𝔼[𝑋] = 𝑛𝑝 et 𝑉(𝑋) = 𝑛𝑝(1 − 𝑝)
Loi de Poisson
Situation modèle : Il n’y en a pas vraiment. Les lois de Poisson mesurent
par exemple des flux d’individus pendant un temps donné : nombre de
clients à une caisse de supermarché pendant une heure, ou nombre de
voitures se présentant à un péage d’autoroute pendant une période fixée
ou le nombre d’appels reçus par un standard téléphonique, etc.
Définition : Une variable aléatoire discrète X suit la loi de Poisson de
paramètre 𝝀 ∈]𝟎, +∞[, ce que l’on note 𝑿 → 𝑷(𝝀), si
𝑿(𝛀) = β„•, ∀π’Œ ∈ β„•, β„™[𝑿 = π’Œ] =
Espérance et Variance : 𝔼[𝑿] = 𝝀 et 𝑽(𝑿) = 𝝀
π€π’Œ
π’Œ!
𝒆−𝝀
Lois continues
Fonction de répartition
Définition :
1.
2.
3.
4.
5.
Loi normale générale 𝑡(𝝁, 𝝈)
Définition : 𝑋 → 𝑁(πœ‡, 𝜎 2 ) si 𝑍 =
𝐹𝑋 (π‘₯) = β„™[𝑋 ≤ π‘₯] = β„™[𝑋 < π‘₯]
Propriétés :
0 ≤ 𝐹𝑋 ≤ 1
𝐹𝑋 tend vers 0 en −∞ et vers 1 en +∞
𝐹𝑋 est croissante
𝐹𝑋 est continue à droite
β„™[π‘Ž < 𝑋 ≤ 𝑏] = 𝐹𝑋 (𝑏) − 𝐹𝑋 (π‘Ž)
Densité de probabilité
Densité : 𝑓(π‘₯) =
𝑏
π‘Ž
3.
Propriétés :
∀π‘₯ ∈ ℝ, 𝑓(π‘₯) ≥ 0
+∞
∫−∞ 𝑓(π‘₯)𝑑π‘₯ = 1
√2πœ‹πœŽ
𝑒
𝜎
suit une loi normale centre réduite.
Espérance et Variance : 𝔼[𝑋] = πœ‡ et 𝑉(𝑋) = 𝜎²
Théorème
Cas discret : X et Y indé ssi
β„™[𝑋 = π‘₯, π‘Œ = 𝑦] = β„™[𝑋 = π‘₯]β„™[π‘Œ = 𝑦]
Cas continu : X et Y indé ssi
𝑓(𝑠, 𝑑) = 𝑓(𝑠)𝑓(𝑑)
Théorèmes limites
Loi des grands nombres
Soient 𝑋1 , … , 𝑋𝑛 des VAR indé, de même loi
πœ‡ = 𝔼[𝑋1 ], ∀πœ– > 0,
𝑋1 + β‹― + 𝑋𝑛
β„™ (π‘Ž
− πœ‡ > πœ–) →
0
𝑛→+∞
𝑛
Théorème central limite
β„™[π‘Ž ≤ 𝑋 ≤ 𝑏] = ∫ 𝑓(𝑑) 𝑑𝑑
1.
2.
1
𝑋−πœ‡
−(π‘₯−πœ‡)2
2𝜎2
𝐿
Soit (π‘Œπ‘› )𝑛∈β„• une suite de VAR et Y une VAR admettant une var. (π‘Œπ‘› )𝑛∈β„• → π‘Œ
si en tt pt π‘₯0 , on a :
πΉπ‘Œπ‘› (π‘₯0 ) = β„™[π‘Œπ‘› ≤ π‘₯0 ] →
πΉπ‘Œ(π‘₯0 ) = β„™[π‘Œ ≤ π‘₯0 ]
𝑏
𝑛→+∞
β„™[π‘Ž < 𝑋 ≤ 𝑏] = 𝐹𝑋 (𝑏) − 𝐹𝑋 (π‘Ž) = ∫π‘Ž 𝑓(π‘₯)𝑑π‘₯
Si VA X a une densité f, alors ∀π‘Ž, 𝑃[𝑋 = π‘Ž] = 0.
Paramètres d’une loi continue
Espérance :
Théorème (TCL)
Soient 𝑋1 , … , 𝑋𝑛 des VAR indé, de même loi, admettant une var. On note πœ‡ =
𝔼[𝑋1 ] et 𝜎 2 = 𝑉(𝑋1 ). Alors
𝑋1 + β‹― + 𝑋𝑛 − π‘›πœ‡ 𝐿
→ 𝑁(0,1) π‘™π‘œπ‘Ÿπ‘ π‘žπ‘’π‘’ 𝑛 → +∞
𝜎√𝑛
Approximation d’une loi binomiale
Approximation par une loi normale
𝔼[𝑋] = ∫ 𝑑𝑓(𝑑)𝑑𝑑
ℝ
Soit g(x) une fct quelconque :
On peut approcher la loi de la VAR
𝔼[𝑔(𝑋)] = ∫ 𝑔(𝑑)𝑓(𝑑)𝑑𝑑
ℝ
Variance :
𝑉(𝑋) = 𝔼[(𝑋 − 𝔼[𝑋])2 ] = ∫ (𝑑 − 𝔼[𝑋])2 𝑓(𝑑)𝑑𝑑
ℝ
2
π‘Œ−𝑛𝑝
√𝑛𝑝(1−𝑝)
par une loi 𝑁(0,1) 
approcher la loi de π‘Œ par 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)).
Pr que cette approx st bonne, il faut que la moy de la binomiale soit
suffisamment grde devant son écart-type, donc 𝑛𝑝 ≫ √𝑛𝑝(1 − 𝑝), donc
𝑛𝑝 ≫ 1 − 𝑝. Ds la pratique, on considère que l’approx est bonne lorsque 𝑛 ≥
30, 𝑛𝑝 ≥ 5 et 𝑛(1 − 𝑝) > 5. 𝑝 ne doit dc pas être trop proche de 0 ou de 1.
𝑉(𝑋) = 𝔼[𝑋 2 ] − (𝔼[𝑋])2 = ∫ 𝑑²π‘“′𝑑)𝑑𝑑 − (∫ 𝑑𝑓(𝑑)𝑑𝑑)
ℝ
•
•
•
ℝ
Propriétés :
𝑉(πœ†) = 0
𝑉(𝑋 + πœ†) = 𝑉(𝑋)
𝑉(πœ†π‘‹) = πœ†²π‘‰(𝑋)
Ecart-type :
Soit π‘Œπ‘› une VAR binomiale (n,p). On suppose que 𝑛 → +∞ et 𝑝 =
∀π‘˜ ∈ β„•,
lim β„™[π‘Œπ‘› = π‘˜] =
𝜎(𝑋) = √𝑉(𝑋)
𝑛→+∞
Quantile q :
𝑖
𝐹𝑋−1 ( ) , 𝑖 ∈ {1,2, … , π‘ž − 1}
π‘ž
Lois usuelles
Loi uniforme
𝑋 → π‘ˆ([π‘Ž, 𝑏]) si sur [a,b] :
1
𝑠𝑖 π‘₯ ∈ [π‘Ž, 𝑏]
0 π‘ π‘–π‘›π‘œπ‘›.
𝑏+π‘Ž
(𝑏−π‘Ž)²
Espérance et Variance : 𝔼[𝑋] =
et 𝑉(𝑋) =
Densité : 𝑓(π‘₯) = {𝑏−π‘Ž
2
12
0 𝑠𝑖 π‘₯ ≤ π‘Ž
𝑠𝑖 π‘₯ ∈ [π‘Ž, 𝑏]
π‘₯−π‘Ž
Fonction de répartition : 𝐹𝑋 (π‘₯) = {𝑏−π‘Ž
1 𝑠𝑖 π‘₯ ≥ 𝑏
Loi exponentielle
Définition : πœ† > 0, 𝑋 → E(λ)
−πœ†π‘₯
𝑠𝑖 π‘₯ ≥ 0
Densité : 𝑓(π‘₯) = πœ†π‘’ −πœ†π‘₯ 1ℝ+ (π‘₯) = {πœ†π‘’
0 π‘ π‘–π‘›π‘œπ‘›
1
1
Espérance et Variance : 𝔼 = et 𝑉(𝑋) =
πœ†
πœ†²
Fonction de répartition :
π‘₯
−πœ†π‘₯
𝑠𝑖 π‘₯ ≥ 0
𝐹𝑋 (π‘₯) = ∫ 𝑓(𝑑)𝑑𝑑 = {1 − 𝑒
0
π‘ π‘–π‘›π‘œπ‘›
−∞
La loi exp est utilisée en fiabilité. πœ† rép le taux moyen de défaillance alors
1
que πœƒ = est le temps moyen de bon fonctionnement.
πœ†
Loi normale
Loi normale centrée réduite (loi gaussienne) 𝑡(𝟎, 𝟏)
Définition : 𝑋 → 𝑁(0,1)
Densité : 𝑓(π‘₯) =
Approximation par une loi de Poisson
Lorsque 𝑝 est très petit, 𝑝 < 0.1 et 𝑛 > 50.
1
√2πœ‹
π‘₯2
𝑒− 2
Fonction de répartition :
π‘₯
𝐹𝑋 (π‘₯) = ∫
1
𝑑2
𝑒 − 2 𝑑𝑑
−∞ √2πœ‹
Espérance et Variance : 𝔼[𝑋] = 0 et 𝑉(𝑋) = 1
πœ†π‘˜ −πœ†
𝑒
π‘˜!
πœ†
𝑛
où πœ† > 0.
Download