Uploaded by Jorge Pereira

SA-diapositives-resolus- Estimation

advertisement
Statistique Appliquée
STATISTIQUE INFERENTIELLE
Sofia 2021
Statistique
↓
&
Analyser
Interpréter
Réunir
des données chiffrées sur des observables variations
.
Objet de la statistique :
Données statistiques
.
&
Séries
Séries
chronologiques
statistiques
Phases de la méthode statistique :
Statistique % Rassembler - (enquêtes, recensements)
descriptive → Organiser - (tableaux, diagrammes, graphiques)
résumer un tableau à l’aide d’un
& Analyser (BS2)
petit nombre de paramètres
Statistique
estimation des
%
inductive
paramètres
I Interpréter Méthodes :
(inférative)
& tests d’hypothèses
(SA)
construction des modèles et étude
Théorie des proba→
de leurs relations et propriétés
bilités (BS1)
1. Echantillonnage - rappel
Echantillonnage : ensemble des opérations qui ont pour objet
de prélever un certain nombre d’individus dans une population
donnée.
Statistique descriptive
2 / 105
Population
Échantillon
Définition
ensemble des unités
considérées par le statisticien
sous-ensemble de la
population choisie pour
étude
Caractéristiques
paramètres
statistiques
Notations
N = taille de la population
(si elle est finie)
n = taille de l’échantillon
caractère
quantitatif
moyenne µ
moyenne x̄
µ=
1
N
PN
i=1
xi
2
variance σP
2
1
σ = N Ni=1 (xi − µ)2
caractère
qualitatif
proportion p
x̄ =
1
n
Pn
i=1
xi
variance empirique s2
P
s2 = n1 ni=1 (xi − x̄)2
variance empirique corrin
s2
gée s02 =
n−1
proportion f
3 / 105
Distribution d’échantillonnage
Distribution de X̄ (µ et σ connus)
A) Population infinie ou échantillonnage non exhaustif
(tirage avec remise) :
Si X ∼ N(µ, σ) ou bien lorsque X ne suit pas une loi normale, mais n ≥ 30 (en vertu du théorème central limite),
alors
σ
X̄ ∼ N(µ, √ ).
n
B) Échantillonnage exhaustif (tirage sans remise) dans
une population finie (avec n > 0.05N)
Si X ∼ N(µ, σ) ou bien si n ≥ 30 et n > 0.05N)
!
r
σ
N −n
X̄ ∼ N µ, √
n N −1
4 / 105
C) Distribution de X̄1 − X̄2 (µ et σ connu)
Populations : P1 : X1 , N1 , µ1 , σ1 et P2 : X2 , N2 , µ2 , σ2
Si
X1 ∼ N(µ1 , σ1 ), X2 ∼ N(µ2 , σ2 ) ou bien si n1 , n2 ≥ 30
Tirage avec remise :

X̄1 − X̄2 ∼ N µ1 − µ2 ,
s

σ12 σ22

+
n1
n2
Tirage sans remise avec ni > 0, 05Ni


s
σ12 N − n1 σ22 N − n2

X̄1 − X̄2 ∼ N µ1 − µ2 ,
+
n1 N − 1
n2 N − 1
5 / 105
Distribution de X̄ (σ inconnue)
déduire une valeur fiable pour σ 2 = s02 =
n
1 X
n
(xi −x̄)2
s2 =
n−1
n−1
i=1
A. Grand échantillon (n ≥ 30)
s
avec remise :
X̄ ∼ N µ, √
n−1
!
r
s
N −n
sans remise, n > 0.05N : X̄ ∼ N µ, √
n−1 N −1
B. Cas des petits échantillons : n < 30
Exigence : X suit une loi normale dans la population
T =
X̄ − µ
√
∼ Tn−1
s/ n − 1
6 / 105
1.2.2 Distribution de la variance d’échantillon
n
n
1 X
02
2
SX̄ =
Sx =
(Xi − X̄ )2
n−1
n−1
i=1
Si X suit une loi normale et n ≤ 30,
Y =
(n − 1)SX̄02
σ2
∼ χ2n−1 .
√
Lorsque n est grand (n ≥ 30), χ2ν → N(ν, 2ν).
Si X suit une loi normale et n ≥ 30,
!
r
2
02
2
2
SX̄ ∼ N σ , σ
n−1
en première approximation.
7 / 105
1.2.3. Distribution d’échantillonnage d’une proportion
F (n est grand (n ≥ 30) et np ≥ 15, nq ≥ 15)
A) Population infinie ou échantillonnage non exhaustif (tirage
avec remise)
r !
pq
F ∼ N p,
n
B) Échantillonnage exhaustif (tirage sans remise) dans une
population finie (avec n > 0.05N) :
!
r r
pq N − n
F ∼ N p,
n
N −1
C) Distribution de F1 − F2 , lorsque n1 et n2 sont grands :
r
p1 q1 p2 q2
(F1 − F2 ) ∼ N p1 − p2 ;
+
n1
n2
8 / 105
Exercice
2. Le magazine Barron’s a rapporté que le nombre moyen de
semaines passées au chômage par un individu est égale à
17,5. Supposez que pour la population de tous les chômeurs,
la durée moyenne de chômage de la population soit de 17,5
semaines et que l’écart-type de la population soit de 4
semaines. Supposez que vous vouliez sélectionner un
échantillon aléatoire de 50 chômeurs pour effectuer une étude.
a) Représenter la distribution d’échantillonnage de X̄ , la
moyenne d’échantillon pour un échantillon de 50 chômeurs.
b) Quelle est la probabilité qu’un échantillon aléatoire simple de
50 chômeurs fournisse une moyenne d’échantillon qui s’écarte
au plus de ±1 semaine de la moyenne de la population ?
9 / 105
9 / 105
4.
Les producteurs de biens d’épicerie américains ont indiqué que
76% des consommateurs lisent les étiquettes indiquant la
composition des produits. Supposez que la proportion de la
population soit p = 0, 76 est qu’un échantillon de 400
consommateurs soit issu de cette population.
a) Déterminer la distribution d’échantillonnage de la proportion
d’échantillon F correspondant à la proportion des
consommateurs de l’échantillon qui lisent l’étiquette de
composition des produits.
b) Quelle est la probabilité que la proportion d’échantillon
s’écarte d’au plus ±0, 03 de proportion de la population ?
c) Répondre à la question (b) pour un échantillon de 750
clients.
10 / 105
10 / 105
7. Les ampoules électriques d’un fabricant A ont une durée de
vie moyenne de 1400 heures avec un écart-type de 200
heures, et celle d’un fabricant B ont une durée de vie moyenne
de 1200 heures avec un écart-type de 100 heures. Si l’on teste
des échantillons de 125 ampoules pour chaque marque, quelle
est la probabilité pour que la marque d’ampoules A ait une
durée de vie moyenne qui soit au moins supérieure de 160
heures à celle de la marque d’ampoules B ?
11 / 105
11 / 105
Statistique inférentielle
2. Estimation
L’estimation répond au problème réciproque à celui de
l’échantillonnage : obtenir de l’information sur la population à
partir d’échantillons.
Ce problème comporte des incertitudes et ne pourra être
résolu que moyennant un certain "risque d’erreur".
Objectif : obtenir une bonne estimation de µ, p et σ à partir de
x̄, f et s, compte tenu de l’existence d’une dispersion dans la
distribution d’échantillonnage.
12 / 105
Méthodes d’estimation - catégories
Population P de paramètres θ ∈ {µ, σ, p} inconnus
Echantillon E de caractéristiques x̄, s, f observées
Estimation : estimer θ par θb ∈ {x̄, s, f } ; θ 6= θb en général
— estimation ponctuelle : θ = θb
b
”On estime que θ a une valeur voisine de θ”.
Estimer la valeur d’un paramètre inconnu de la population mère
par un seul nombre à partir de l’information fournie par
l’échantillon.
— estimation par intervalle de confiance : θ ∈ [θb1 , θb2 ] de seuil α
”On estime que θ est compris entre θb1 et θb2 de niveau de
confiance 1 − α.
Estimer la valeur d’un paramètre inconnu de la population mère
par deux nombres qui forment un intervalle et indiquer la
probabilité pour que le paramètre de la population se trouve à
l’intérieur de cet intervalle ;
Préférable à une estimation ponctuelle à cause de l’indication
de la précision.
13 / 105
2.1 Estimation ponctuelle θ = θb
2.1.1 Qualités d’un estimateur
Soit θ un paramètre de la population P, qu’on veut estimer par
l’estimateur θ̂n - statistique du n−échantillon E :
•
estimateur sans biais : E(θ̂n ) = θ.
•
estimateur convergent en probabilité :
θ̂n →n→∞ θ ⇔ Var (θ̂n ) →n→∞ 0.
• estimateur efficace :
soient θ̂n et θˆ0 n deux estimateurs sans biais de θ,
θ̂n est dit plus efficace que θˆ0 n si Var (θ̂n ) ≤ Var (θˆ0 n ).
14 / 105
Estimation ponctuelle de la moyenne : µ
b = x̄
I Soit E un échantillon constitué de n éléments
(X1 ; X2 ; . . . ; Xn ) indépendants et identiquement
distribués (i.i.d.) de moyenne x̄. L’échatillon E est
extrait d’une population P, dont la moyenne µ est
inconnue.
I Estimation ponctuelle de la moyenne µ de la
population P :
n
n
1X
1X
xi /D.O.1/ =
ni xi /D.G.1/,
µ
b = x̄ =
n
n
i=1
I estimateur : X̄ =
i=1
1
n
Pn
i=1 Xi
15 / 105
Estimation ponctuelle de la moyenne. Démonstration
1. Estimateur sans biais :
!
n
n
n
1X
1X
nµ
1X
Xi =
E(Xi ) =
µ=
=µ.
E(X̄ ) = E
n
n
n
n
i=1
i=1
i=1
2. Estimateur convergent en probabilité :
Cas : population infinie ou tirage non exhaustif :
!
n
n
n
1X
1 X
1 X 2
nσ 2
V (X̄ ) = V
Xi = 2
V (Xi ) = 2
σ = 2
n
n
n
n
i=1
i=1
i=1
2
σ
→ 0 ⇒ V (X̄ ) → 0 quand n → +∞.
n
Cas : population finie et tirage exhaustif (sans remise) et
taux de sondage t = Nn > 5% :
=
V (X̄ ) =
σ2 N − n
n N −1
⇒ V (X̄ ) → 0 quand n → +∞.
I La moyenne x̄ observée sur l’échantillon est une estimation ponctuelle sans biais et convergent en probabilité de la moyenne µ de la population : µ
b = x̄.
16 / 105
b=f
Estimation ponctuelle de la proportion : p
Soient A1 ; . . . ; Ai ; . . . ; An n événements indépendants de
probabilité p. Pour estimer la proportion p de la population, on utilise la proportion f de réalisation des événements Ai dans l’échantillon :
n
1X
F =
nAi
n
i=1
(nAi - réalisations de Ai )
17 / 105
Estimation ponctuelle de la proportion. Démonstration
1. Estimateur sans biais : Estimation de la moyenne d’une
loi
de Bernoulli.


Pn
 Y = i Xi ∼ B(n, p) Binomiale
E(Y ) = np
⇒

V (Y ) = npq avec q = 1 − p

q

F ∼ N(p, pq
)

n



E(F ) = p et V (F ) =
⇒ (n grand : N ≥ 30)
si n > 0.05N


q


 F ∼ N(p, pq N−n )
 (X1 ; . . . ; Xi ; . . . ; Xn ) i.i.d.
Xi ∼ B(p) Bernoulli

∀i E(Xi ) = p et V (Xi ) = pq

Pn
1
Y
 F = n = n i Xi
E(F ) = n1 E(Y ) = p

V (F ) = n12 V (Y ) = pq
n
E(F ) = p
pq
n
n N−1
2. Estimateur convergent en probabilité :
pq N − n
pq
−−−→ 0; Var (F ) =
−−−→ 0.
Var (F ) =
n n→∞
n N − 1 n→∞
La proportion f observée sur l’échantillon est une estimation ponctuelle sans biais et convergent de probabilité de
b = f.
la proportion p de la population : p
18 / 105
Exemple 2.1.1 /Feuille 2/
Supposons qu’une entreprise compte 200 employés et que
l’échantillon de 50 employés a été prélevé au hasard parmi les
deux cents.
Cat. salariale/mois
Moins de 2 M. e
[2 − 4[
4 M. e et plus
Total
Nombre de salariés
18
20
12
50
1. Donner une estimation de la proportion de l’ensemble des
employés dont le salaire mensuel est de 2 M. e et plus.
2. Quel est le taux de sondage ?
3. Déterminer la probabilité qu’au moins 30 employés de cet
échantillon possèdent un salaire mensuel de 2 M. e et
plus lorsque la population échantillonnée en contient 64%.
19 / 105
Exemple 2.1.1 - Solution :
32
b = f = 20+12
1. p
50 = 50 = 0.64 → 64%.
50
2. t = Nn = 200
= 0.25 > 0.05.
3. Soit F la v.a. proportion d’échantillon dans le cas de taux
de sondage supérieur à 0.05 et proportion
q q dela population
pq
n
p = 64% connue. On a F ∼ N p,
On cherche la probabilité P F ≥
P F ≥
30
50
= 1−P F ≤
30
50
30
50
N−n
N−1
.
=?


30/50 − p 
= 1 − π q q
pq
n

N−n
N−1

 30/50 − 0.64
= 1 − π q
q
0.64∗0.36
50
200−50
200−1


= 1 − π(−0.06781) = 1 − 1 + π(0.06781)
= 0.52 → 52%
20 / 105
Estimation ponctuelle de la variance σ 2 (µ connue)
Soit X1 ; X2 ; . . . ; Xn - n observations indépendantes de
même loi de moyenne µ connue et de variance σ 2 - inconnue.
I Estimation ponctuelle de la variance σ 2 , (µ connue) :
n
σ̂ 2 = s2 =
1X
(xi − µ)2
n
i=1
I Estimateur : S 2 =
1 Pn
n
i=1 (Xi
− µ)2
Estimation ponctuelle de l’écart-type σ (µ connue)
v
u n
u1 X
σ̂ = s = t
(xi − µ)2
n
i=1
21 / 105
Estimation ponctuelle de la variance (µ connue).
Démonstration
1. Estimateur sans biais :

2
E(S ) = E 

n
n
n
1 X
1 X
1 X
2
2
2
(Xi − µ)  =
E (Xi − µ)
=
V (Xi ) = σ
n i=1
n i=1
n i=1
2. Estimateur convergent :

2
V (S )
=
=
V
1
n

n
n
2 1
1 X
1 X
2
2
4
2
V (Xi − µ)
=
(Xi − µ)  =
E (X − µ)
− E (X − µ)
2
n i=1
n i=1
n
4
(µ4 − σ ) −−−−→ 0,
n→∞
µk = E
k
(X − µ) .
P
La variance s2 = n1 ni=1 (xi − µ)2 observée sur l’échantillon est une estimation ponctuelle de la variance σ 2 de
la population échantillonnée lorsque la moyenne µ de la
population est connue.
22 / 105
Estimation ponctuelle de la variance σ 2 (µ inconnue)
I Lorsque la moyenne µ est inconnue (cas le plus fréquent),
pour estimer σ 2 , on pourrait
utiliser naturellement
P
l’estimateur : S 2 = n1 ni=1 (Xi − X̄ )2 après avoir estimé µ.
2
Cependant, l’estimateur S 2 est biaisé : E(S 2 ) = n−1
n σ , on
préfère alors utiliser l’estimateur :
n
S 02 =
S 2 - variance empirique corrigée de l’échantillon
n−1
1. Estimateur sans
biais:
n
n n−1 2
n
02
S2 =
E S2 =
σ =σ 2
E(S ) = E
n−1
n−1
n−1 n
2. Estimateur convergent
:
n
n2
02
2
Var (S ) = V
S =
V (S 2 ) ≈ V (S 2 )→ 0.
n−1
(n − 1)2
Estimation ponctuelle de la variance (µ inconnue)
n
σ̂ 2 = s02 =
1 X
n
(xi − x̄)2 =
s2
n−1
n−1
i=1
23 / 105
Estimation ponctuelle de l’écart-type σ (µ inconnue)
S0 = S
q
n
n−1
- estimateur sans biais de σ.
q
n
- estimation ponctuelle de l’écart-type σ
σ̂ = s0 = s n−1
de la population.
Pour la distribution de la moyenne de l’échantillon, lorsqu’on ne
connaît pas l’écart-type σ de la population mère, on le
remplace par s0 :
Si on ne connaît pas σ on le remplace par s0 :
σ
s0
√ =√
où s0 = s
n
n
donc
r
n
n
1X
et s2 =
(xi − x̄)2 ,
n−1
n
i=1
σ
s0
s
√ =√ =√
n
n
n−1
24 / 105
Exemple 2.1.2 /Feuille 2/
Les prix d’un article en 5 différents marchés d’une région
donnée sont :
i
xi
1
75
2
82
3
83
4
78
5
80
Calculer les estimations ponctuelles de la moyenne µ et de
l’écart-type σ de la population.
Solution :
Effectif de l’échantillon n = 5 ; µ et σ inconnus :
P
Moyenne : µ̂ = x̄ = 15 5i=1 xi = 398
= 79.6
q5Pn
q
2
n
i=1 (x−x̄)
Ecart-type : σ̂ = s0 = s n−1
=
n−1
q P5
q Pn 2
q
2
2
2
31722−5∗6336.16
i=1 xi −nx̄
i=1 xi −5x̄
=
=
=
n−1
4
4
= 3.209361 ≈ 3.21
25 / 105
Exemple 2.1.3 /Feuille 2/
La table de distributions des salaires en e de 100 employés
d’une entreprise est donnée ci-dessous :
Classe
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
Centre de la classe
xi∗
450
550
650
750
850
Effectif
ni
11
30
39
18
2
Calculer les estimations ponctuelles de la moyenne et de
l’écart-type.
26 / 105
Exemple 2.1.3 - Solution
Comme les données sont groupées en classes, on utilise les
expressions pour D.G.1.
On ajoute encore deux colonnes et une ligne à la table :
Classe
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
Totale
Centre de la classe
xi∗
450
550
650
750
850
Effectif
ni
11
30
39
18
2
100
ni xi∗
4950
16500
25350
13500
1700
62000
ni xi∗2
2227500
9075000
16477500
10125000
1445000
39350000
Moyenne : P
1 P5
62000
∗
µ̂ = x̄ = n1 ki=1 ni xi∗ = 100
i=1 ni xi = 100 = 620 e.
Ecart-type : r
q
Pk
q
∗2
n
39350000−38440000
i=1 ni xi −nx̄
σ̂ = s n−1
=
=
= 95.87 e.
n−1
99
27 / 105
Estimation ponctuelle. Synthèse
Population mère P de taille N et de paramètres inconnus :
moyenne µ, proportion p et variance σ 2
Echantillon E de taille n et de caractères observés :
moyenne x̄, fréquence f et variance s2
Estimations ponctuelles de µ, p et σ 2 :
n
k
1X
1X
xi =
ni xi - moyenne de E
µ
b = x̄, x̄ =
n
n
i=1
i=1
n
µ connue
σ
b2 = s2 ,
s2 =
1X
(xi − µ)2 - variance de E
n
i=1
µ inconnue
σ
b2 = s02 =
n
s2 ,
n−1
n
s2 =
1X
(xi − x̄)2
n
i=1
02
s - variance empirique corrigée de E
b = f,
p
fA =
nA
- fréquence de E
n
28 / 105
Exercices
8. Dans une ville comportant 20 000 salariés, un institut fait un
sondage portant sur 100 salariés et trouve comme moyenne
des salaires mensuels 7 100 e avec un écart-type de 700 e.
Cet institut désire estimer la moyenne et l’écart-type de
l’ensemble des salariés.
Solution
De l’énoncé on a :
Population P de taille N = 20000 salariés ;
Echantillon E de taille n = 100 salariés avec moyenne de
l’échantillon x̄ = 7100 e et écart-type empirique s = 700 e.
µ̂ = x̄ = 7100 e q
q
√
√
n
2
s2 = 100
σ̂ = σ̂ 2 = s02 = n−1
99 700 = 703.5 salariés.
29 / 105
9. Pour connaître le nombre de garages qu’il fallait construire
dans un immeuble afin que les locataires puissent y garer leurs
voitures, une enquête avait été faite : sur 100 ménages
consultés, 40 avaient une voiture (on suppose, pour simplifier,
une seule voiture par ménage).
Estimer la proportion p de manages qui avaient une voiture.
Solution
De l’énoncé on a :
Echantillon de taille n = 100 ménages, dont ns = 40 ont une
voiture.
p̂ = f =
ns
n
= 40/100 = 0.4.
29 / 105
10. On a effectué cinq mesures du diamètre d’une sphère qui
ont respectivement donné 6.33 ; 6.37 ; 6.36 ; 6.32 et 6.37 cm.
Déterminer des estimateurs sans biais et efficaces
a) de la moyenne vraie,
b) de la variance vraie.
Solution
a) Un estimateur sans biais et efficace de la moyenne vraie
(c’est-à-dire de la moyenne de la population) est donné par
P5
xi
6.33 + 6.37 + 6.36 + 6.32 + 6.37
= 6.35
x̄ = i=1 =
n
5
b) Un estimateur sans biais et efficace de la variance vraie est
donné par
σ̄
2
=
=
=
n
n−1
s
02
P5
=
i=1 (xi
− x̄)2
n−1
(6.33 − 6.35)2 + (6.37 − 6.35)2 + (6.36 − 6.35)2 + (6.32 − 6.35)2 + (6.37 − 6.35)2
5−1
0.00055cm
2
29 / 105
Exemple 2.0.1 - Convergence de la moyenne
empirique vers la moyenne théorique
X = ”face obtenue en lançant le dé”
Répartitions obtenues en relançant le dé 100 fois puis 1000
fois :
Faces xi
Probabilités pi
Proportions (100 valeurs) fi
Proportions (1000 valeurs) fi
1
1/6
0.16
0.175
2
1/6
0.12
0.162
3
1/6
0.16
0.154
4
1/6
0.14
0.164
5
1/6
0.21
0.162
6
1/6
0.21
0.183
Moyennes :
• Moyenne théorique : µ =
6
X
pi xi = 3, 5
i=1
• Moyenne observée : x̄ =
6
X
fi xi
i=1
sur les 100 valeurs : x̄100 = 3, 75
sur les 1000 valeurs : x̄1000 = 3, 525
30 / 105
Exemple 2.0.1 - suite
µ = 3, 5 x̄100 = 3, 75 x̄1000 = 3, 525
La proximité entre la moyenne théorique (3.5) et les moyennes
observées (3.75 et 3.525) est due à la convergence des
proportions observées fi vers les probabilités pi .
Plus les effectifs sont importants, plus ces proportions sont
proches des probabilités, et plus la moyenne observée est
proche de la moyenne théorique (au sens de la convergence
en probabilité).
31 / 105
Exemple 2.0.1- Convergence de la variance empirique
vers la variance théorique
2
• Variance théorique : σ =
6
X
pi xi2 − µ2 = 2, 917
i=1
2
• Variance observée (empirique) : s =
6
X
fi xi2 − x̄ 2
i=1
2
s100
= 3, 0008
2
s1000
= 3, 045.
2
2
s100
est plus proche de la variance théorique σ 2 que s1000
Il est fondamental de fiabiliser l’estimation en assurant un
degré de confiance - d’une part et en évaluant la marge
d’erreur - d’autre part. Ceci est objet de l’estimation par
intervalle de confiance.
32 / 105
2.2 Estimation par intervalle de confiance θb ∈ [θb1 , θb2 ]
I On se donne à l’avance un petit nombre α - le seuil des
probabilités significatives ou simplement le seuil
I On cherche 2 statistiques Λ1 = f (X1 , . . . , Xn ) et
Λ2 = f (X1 , . . . , Xn ) telles que l’on ait
P(Λ1 ≤ θ ≤ Λ2 ) ≥ 1 − α =⇒
Il y a une probabilité forte (supérieure ou égale à 1 − α)
pour que l’intervalle aléatoire [Λ1 , Λ2 ] contient le nombre
inconnu θ.
I A la suite de prélèvement de l’échantillon Λ1 prend la
valeur θb1 et Λ2 la valeur θb2 .
L’intervalle I.C.α = [θb1 , θb2 ] est un intervalle de
confiance pour θ de seuil α ou de niveau de
confiance 1 − α
33 / 105
Obtention d’un intervalle de confiance
Soient Y = f (X1 , . . . , Xn ) et Z = g(X1 , . . . , Xn ) 2 statistiques,
telles que la v.a. T = Y Z−θ obéisse à la loi normale centrée
réduite ou à la loi de Studnet.
On cherche dans les tables un nombre t α2 tel que :
P(|T | > t α2 ) ≤ α
c’est-à-dire encore
P(|T | ≤ t α2 ) ≥ 1 − α
Y −θ
On aura donc
P
≤ t α2 ≥ 1 − α
Z
ce qui s’écrit encore
P(Y − t α2 Z ≤ θ ≤ Y + t α2 Z ) ≥ 1 − α.
L’intervalle [Y − t α2 Z , Y + t α2 Z ] est, pour θ un intervalle de
confiance de seuil α.
34 / 105
Choix du fractile t α2
I Pour un intervalle bilatérale : on choisie dans la table le
fractile t α2 qui vérifie l’égalité P(|T | > t α2 ) = α, qui est
équivalent aux
P(T > t 0α ) =
2
α
α
et P(T < t 00α ) =
2
2
2
I pour un intervalle unilatéral à droite : P(T > tα ) = α;
I pour un intervalle unilatéral à gauche : P(T < tα ) = α.
I Si on diminue α, c’est-à-dire augmente la confiance, on
augmente t α2 et, par suite augmente l’intervalle de
confiance (plus un intervalle est grand, plus on peut avoir
confiance en lui)
35 / 105
Valeurs critiques tα et t α2 de z pour des intervalles uni
et bilatéraux de la distribution normale centrée réduite
à des seuils différents
Niveau de signification α
0,10
0,05
0,01
0,005
0,002
Niveau
de
confiance 1 − α
0,90
0,95
0,99
0,995
0,998
Valeurs critiques tα
de z pour les intervalles unilatéraux
-1,28
ou 1,28
-1,645
ou 1,645
-2,33
ou 2,33
-2,576
ou 2,576
-2,88
ou 2,88
Valeurs critiques t α2
de z pour les intervalles bilatéraux
-1,645
et 1,645
-1,96
et 1,96
-2,576
et 2,576
-2,81
et 2,81
-3,09
et 3,09
36 / 105
2.2.1 Intervalle de confiance de la moyenne µ (σ 2 connue)
I Conditions d’application : Population distribuée
normalement ou fortement symétrique et n ≥ 30 ; variance
de la population σ 2 connue
I Distribution d’échantillonnage : X̄ ∼ N(µ, √σ ) , de
n
moyenne E(X̄ ) = µ et de variance connue sX̄2 =
I Statistique de test :
X̄ −µ
√
σ/ n
σ2
n .
→ N(0, 1)
I On peut alors écrire : P −t α ≤
2
X̄ −µ
√
σ/ n
≤ t α2
= 1 − α.
On détermine les fractiles t α2 de la loi N(0, 1) :
X̄ −µ
X̄ −µ
√ ≤ tα = P
√
α
P −t α2 ≤ σ/
=1−α
≤
t
n
σ/ n
2
2
α
0,1
0,05
0,01
1−α
0,9
0,95
0,99
t α2
1,645
1,960
2,576
tα
1,2816
1,645
2,3263
37 / 105
Intervalle de confiance de la moyenne µ (σ 2 connue) suite
I On en déduit l’intervalle de confiance de niveau (1 − α) de
σ
σ
µ:
x̄ − t α2 √ < µ < x̄ + t α2 √
n
n
I Marge d’erreur dans l’estimation de µ : E = t α √σ .
n
2
I L’intervalle [x̄ − t α √σ ; x̄ + t α √σ ] est ”bilatéral symétrique”
n
n
2
2
de niveau 1 − α de la moyenne µ centré en x̄.
Intervalle de confiance est l’intervalle de valeurs tel que
l’on a une probabilité de (1 − α) (fixée à l’avance) d’avoir
la moyenne µ comprise entre les 2 bornes x̄ −t α2 √σn et x̄ +
t α2 √σn :
σ
σ
P(x̄ − t α2 √ < µ < x̄ + t α2 √ ) = 1 − α
n
n
Ceci n’est strictement valable que si la population est
distribuée normalement ou si n ≥ 30.
38 / 105
Intervalle de confiance de la moyenne µ (σ 2 inconnue)
I Conditions d’application : Population distribuée
normalement de variance σ 2 inconnue
Population supposée fortement asymétrique ou contenir
des valeurs aberrantes - un échantillon de taille (n ≥ 50)
est recommandé.
I Estimation ponctuelle de la variance σ 2
1
Estimateur sans biais de σ 2 : S 02 = n−1
P
n
2
1
Estimation : s02 = n−1 i=1 (xi − x̄)
Pn
i=1
Xi − X̄
2
I Distribution d’échantillonnage : X̄ ∼ Tn−1 de moyenne
02
E(X̄ ) = µ et de variance estimée Var (X̄ ) = sn .
√ → Tn−1 d.d.l.
I Statistique de test : X̄0 −µ
S/ n
I Fractiles tSt α de la loi de Student à n − 1 d.d.l. :
2
P −tSt α2
X̄ − µ
≤ 0 √ ≤ tSt α2
s/ n
=P
X̄ − µ
√ ≤ tSt α
n
s0 / n
=1−α
39 / 105
Intervalle de confiance de la moyenne µ (σ 2 inconnue)
- suite
I Intervalle de confiance de niveau (1 − α) de µ :
s0
s0
x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √
n
n
0
I Marge d’erreur dans l’estimation de µ : E = tSt α √s .
n
2
h
i
0
0
L’intervalle x̄ − tSt α2 √s n ; x̄ + tSt α2 √s n est ”bilatéral
symétrique” de niveau 1 − α de la moyenne µ centré en x̄.
Population distribuée normalement et σ inconnu
Intervalle de confiance de probabilité (1 − α) (fixée à
l’avance) d’avoir la moyenne µ comprise entre les 2
0
0
bornes x̄ − tSt α2 √s n et x̄ + tSt α2 √s n lorsque la variance σ 2
est inconnue :
s0
s0
P(x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √ ) = 1 − α
n
n
40 / 105
Intervalle de confiance de la moyenne µ (σ inconnue).
Conseils pratiques
Population distribuée normalement, σ inconnu : on se
réfère à la loi de Student.
s0
s0
x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √
n
n
Approximation : grande taille de l’échantillon (n ≥ 30) :
on peut remplacer la valeur du fractile tSt α2 de Student
à (n − 1) d.d.l. par celle du fractile t α2 de la loi normale centrée-réduite N(0, 1). On en déduit l’intervalle de
confiance de niveau (1 − α) de µ :
s0
s0
x̄ − t α2 √ ≤ µ ≤ x̄ + t α2 √ .
n
n
41 / 105
Exemple 2.2.1 /Feuille 2/
1. Soit X la v.a. «durée de vie d’une marque de tubes
cathodiques».
On ne connaît pas la moyenne des durées de vie des tubes
bien que l’on sache qu’elles sont distribuées normalement.
L’écart-type de la distribution des durées de vie σ = 450.
Dans un échantillon de 55 tubes on a calculé que la durée de
vie moyenne était de 9 500 heures.
Déterminer l’intervalle de confiance à 90 % de la durée de vie
moyenne de la population des tubes.
42 / 105
Exemple 2.2.1 - 1 Solution
Les données : Population P : X ∼ N(µ, 450) ; σ connue ;
Échantillon : E : n = 55 ; x̄ = 9500. ; Intervalle de confiance de
la moyenne de seuil α = 0.1
I Conditions d’application : population normale et σ connue
√ → N(0, 1)
I Statistique de test : X̄ −µ
σ/ n
I Fractiles t α déterminés de la loi N(0, 1) : t α = 1.645
2
2
X̄ −µ
X̄ −µ
√
√
α
α
α
P −t 2 ≤ σ/ n ≤ t 2 = P σ/ n ≤ t 2 = 1 − α = 0.90
I Intervalle de confiance
de niveau (1 − α) = 0.90 de µ :
σ
σ
x̄ − t α2 √ ; x̄ + t α2 √
n
n
I Marge d’erreur dans l’estimation de µ :
σ
450
E = t α2 √ = 1, 645∗ √ = 1, 645∗60, 678 = 99, 82 heures.
n
55
L’intervalle de confiance de la moyenne à 90 % est :
[9500 − 99, 82; 9500 + 99, 82] = [9400.18; 9599.81]
43 / 105
Exemple 2.2.1 - 1 Remarque
Dans ce cas, même si la population n’était pas distribuée
normalement, on aurait trouvé le même intervalle de confiance
à 90 % en vertu du théorème central limite qui nous assure
que, pour n ≥ 30 (ici n = 55), la distribution d’échantillonnage
de la moyenne peut être supposée normale même si la
population ne l’est pas.
σ
E = t α2 √
n
= CONFIDENCE(0.1; 450; 55) = 99.8064
= Intervalle.confiance(0.1; 450; 55) = 99.8064
44 / 105
Exemple 2.2.1 - 2 Énoncé
Reprenons le même exemple, mais cette fois l’échantillon est
de taille n = 25. Déterminons l’intervalle de confiance à 99 %
de la durée de vie moyenne des tubes, sachant que x̄ = 9500
heures.
X ∼ N(µ, 450); n = 25, X̄ = 9500, 1 − α → 99%
45 / 105
Exemple 2.2.1 - 2 Solution
Les données : P : X ∼ N(µ, 450) σ connue ; E : n = 25 ;
x̄ = 9500. ; 1 − α = 0.99
I Conditions d’application : population normale et σ connu
√ → N(0, 1)
I Statistique de test : X̄ −µ
σ/ n
I Détermination des fractiles t α de la loi N(0, 1) : t α = 2.576
2
2
X̄ −µ
X̄ −µ
√ ≤ tα = P
√
α
P −t α2 ≤ σ/
≤
t
=
1
−
α
= 0.99
n
σ/ n
2
2
I Intervalle de confiance de niveau (1 − α) = 0.99 de µ :
σ
σ
[x̄ − t α2 √ ; x̄ + t α2 √ ]
n
n
I Marge d’erreur dans l’estimation de µ :
σ
450
E = t α2 √ = 2, 576 ∗ √ = 2.576 ∗ 90 = 231, 84 heures.
n
25
L’intervalle de confiance à 99 % est :
[9500 − 231, 84; 9500 + 231, 84] = [9268, 16; 9731, 84]
46 / 105
Exemple 2.2.1 - 3 Énoncé
Supposons que la population soit distribuée normalement,
mais que σ ne soit pas connu. A partir d’un échantillon de taille
n = 60, nous avons x̄ = 9450 et s = 446.234.
Estimons à l’aide d’un intervalle de confiance à 95 % la
moyenne de la population.
X ∼ N(µ, σ); n = 60, X̄ = 9450, s = 446.234, 1 − α = 95%
47 / 105
Exemple 2.2.1 - 3 Solution
Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 60 ; x̄ = 9450,
s = 446.234 ; 1 − α = 0.95
I Conditions d’application : population normale, σ inconnue,
n = 60 > 30, approximation de la loi de Student par la loi
normale
√ → Tn−1 −−−−−−→ N(0, 1)
I Statistique de test : X̄0 −µ
S/ n
n=60>30
I Détermination des fractiles t α de la loi N(0, 1) : t α = 1.96
2
2
X̄ −µ
X̄ −µ
√
√
α
α
α
P −t 2 ≤ s0 / n ≤ t 2 = P s0 / n ≤ t 2 = 1 − α = 0.95
I Intervalle de confiance
de niveau
(1 − 0α) = 0.95 de µ :
s0
s
x̄ − t α2 √ ; x̄ + t α2 √
n
q n
q
450
n
s0
√
= 446, 234 60
=
450
=√
= 58, 094
s0 = s n−1
59
n
60
0
I Marge d’erreur dans l’estimation de µ : E = t α √s
n
2
E = 1, 96 ∗ 58, 094 = 113, 86 heures.
L’intervalle de confiance de niveau 0,95 est :
[9450 − 113, 86; 9450 + 113, 86] = [9336, 13; 9563, 86]
48 / 105
Exemple 2.2.1 - 4 Énoncé
Supposons que la distribution soit normale, que σ ne soit pas
connu, et que l’écart type s d’un échantillon de taille n = 25 soit
égal à 440,908, x̄ étant égale à 9 500.
Déterminons l’intervalle de confiance à 99 % et comparons le à
celui de l’exemple 2.2.1 - 2.
X ∼ N(µ, σ); n = 25, x̄ = 9500, s = 440.908, 1 − α = 99%
49 / 105
Exemple 2.2.1 - 4 Solution
Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 25 ; x̄ = 9500,
s = 440, 908 ; 1 − α = 0.99
I Conditions d’application : n = 25 < 30, σ inconnu
I Statistique de test :
X̄ −µ
√
S0 / n
→ Tn−1 d.d.l.
I Détermination des fractiles tSt α de la loi de Student à n − 1
2
d.d.l.
:
X̄ −µ
√ ≤ tSt α = P
√
α
≤
t
=1−α=
P −tSt α2 ≤ sX̄0 /−µ
St 2
n
s0 / n
2
0.99
nombre de d.l. = n − 1 = 25 − 1 = 24
⇒ tSt α2 = 2.797
le risque accepté = α = 1 − 0.99 = 0.01
I Intervalle de confiance de niveau (1 − α) = 0.99 de µ :
s0 = s
q
n
n−1
s0
s0
[x̄ − t α2 √ ; x̄ + t α2 √ ]
n
n
q
s0
√
= 440.908 25
24 = 450 ; n =
450
√
25
= 90
50 / 105
Exemple 2.2.1 - 4 suite
0
I Marge d’erreur dans l’estimation de µ : E = tSt α √s
n
2
= 2, 797 ∗ 90 = 251, 73 heures.
L’intervalle de confiance à 99 % est :
[9500 − 2, 797 × 90; 9500 + 2, 797 × 90] = [9248, 27; 9751, 73]
Cet intervalle de confiance est plus étendu que celui de
l’exemple 2.2.1 - 2 (à conditions à peu près identiques, à
l’utilisation de la loi de Student près), Ceci s’explique par l’aléa
plus important dû à l’estimation de l’écart type de la population
sur un échantillon de petite taille.
A cause de manque d’information (σ inconnue), pour garder le
risque, on élargit l’intervalle.
51 / 105
Exercice
13. Supposons que les poids de 100 étudiants de l’université X
représentent un échantillon aléatoire des poids des étudiants
de cette université de moyenne x̄ = 67.45 kg et variance
s2 = 8.5275.
a) Déterminer des estimateurs non biaisés et efficaces
a.i) de la moyenne vraie,
a.ii) de la variance vraie.
b) Déterminer un intervalle de confiance
b.i) à 95 %,
b.ii) à 99 % pour estimer le poids moyen des étudiants de
l’université X
52 / 105
Solution
Population énorme. Echantillon : n = 100, x̄ = 67.45 kg,
s2 = 8.5275.
a.i) L’estimateur sans biais et efficace de la moyenne de la
population est la moyenne de l’échantillon. Alors µ̂ = x̄ = 67.45
kg.
a,ii) L’estimateur sans biais et efficace de la variance vraie est
la variance empirique corrigée de l’échantillon
n
s2 = 100
σ̂ 2 = s02 = n−1
99 8.5275 = 8.6136.
52 / 105
bi.) Intervalle de confiance à 95 % de la moyenne de la
population
Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 100 ; x̄ = 67.45,
s2 = 8.5275 ; 1 − α = 0.95
I Conditions d’application : σ inconnue, n = 100 > 30,
approximation de la loi de Student par la loi normale
I Statistique de test :
X̄ −µ
√
S0 / n
−−−−−−→ N(0, 1)
→ Tn−1 −
n=100>30
I Détermination des fractiles t α de la loi N(0, 1) : t α = 1.96
2
2
X̄ −µ
√ ≤ tα = P
√
α
P −t α2 ≤ sX̄0 /−µ
≤
t
=
1
−
α = 0.95
n
s0 / n
2
2
I Intervalle de confiance de niveau (1 − α) = 0.95 de µ :
s0
s0
x̄ − t α2 √ ; x̄ + t α2 √
n
n
q
q
0
n
s0 = s n−1
= 100∗8.5275
= 2.93; √s n = √2.93
= 0.293
99
100
0
I Marge d’erreur dans l’estimation de µ : E = t α √s
n
2
E = 1, 96 ∗ 0.293 = 0.57 kg.
52 / 105
√
Les limites de
√ sont X̄ ± 1, 96σ/ n =
√ confiance à 950 %
X̄ ± 1, 96σ̂/ n = X̄ ± 1, 96s / n = 67, 45 ± 0, 57 kg.
Ainsi l’intervalle de confiance à 95 % de la moyenne de la
population µ est (66,88 - 68,02), c’est-à-dire que
66, 88 < µ < 68, 02.
L’intervalle de confiance signifie, que la probabilité de voir varier
la moyenne µ entre 66,88 et 68,02 kg est égale à 0,95 :
P(66, 88 < µ < 68, 02) = 0, 95, ce qui revient à dire qu’on a
une assurance de 95 % que la moyenne de la population (la
moyenne vraie) varie entre 66,8 et 68,02 kg.
√
n=
(b.ii) Les limites
de
confiance
à
99
%
sont
X̄
±
2,
58σ̂/
√
√
X̄ ± 2, 58s0 / n = 67, 45 ± 2, 58(2, 93/ 100) = 67, 45 ± 0, 76
kg.
Ainsi l’intervalle de confiance à 99 % de la moyenne de la
population µ = (66, 69 − 68, 21), ce que l’on peut encore écrire
66, 69 < µ < 68, 21.
On voit qu’avec la diminution du risk de 0.05 à 0.01, on élargie
intervalle.
52 / 105
Exercice
14. Une firme a 2342 employés. Pour faire une évaluation
rapide du nombre total a des enfants de tous ces employés, on
fait un sondage au cours duquel on interroge 150 employés et
on obtient les résultats suivants, en notant ni le nombre des
employés interrogés ayant xi = i, i = 0, 1, 2, . . . enfants :
xi
0
1
2 3
ni 78 48 19 5
a) Donner une estimation de a.
b) Donner pour a un intervalle de confiance de seuil 0,05.
Aide : a = N ∗ µ = 2342 ∗ µ
Rep. a ≈ 1577 ; I.C.95% (a) = [1267 : 1884]
53 / 105
53 / 105
53 / 105
53 / 105
2.2.2 Intervalle de confiance de p (n ≥ 30)
I Distribution d’échantillonnage de la proportion :
n
F =
1X
Xi ;
n
i
(X1 ; . . . ; Xi ; . . . ; Xn ) - i.i.d. ; Xi ∼ B(p),
n
X
Xi ∼ B(n, p)
i=1
I n ≥ 30 : distribution d’échantillonnage F ∼ N(p,
moyenne E(F ) = p et de variance Var (F ) =
)
f (1−f )
par f (1−f
n−1 ou en convergence par
n .
I Statistique de test :
qF −p
f (1−f )
n
pq
n
q
pq
n )
de
estimée
→ N(0; 1)
!
I On peut alors écrire : P
−t α2 ≤
qF −p
f (1−f )
n
≤ t α2
=1−α
54 / 105
Intervalle de confiance de p (n ≥ 30) - suite
I On en déduit l’intervalle convergent de confiance de
niveau (1 − α) de p :
r
r
f (1 − f )
f (1 − f )
f − t α2
≤ p ≤ f + t α2
n
nq
)
I Marge d’erreur dans l’estimation de p : E = t α f (1−f
n .
2
I Intervalle "bilatéral symétrique" de niveau 1 − α de la
proportion p centré en f .
Si n > 30, np > 5, nq > 5 l’approximation de la loi Binomiale par la loi Normale est valable.
Au seuil de probabilité de (1 − α), l’intervalle convergent
de confiance de p est :
"
#
r
r
f (1 − f )
f (1 − f )
f − t α2
; f + t α2
n
n
55 / 105
Exemple 2.2.2 /Feuille 2/
Les responsables d’une étude de marché ont choisi au hasard
500 femmes dans une grande ville et ont constaté que 35 %
des femmes retenues dans l’échantillon préfèrent utiliser une
marque de lessive A plutôt que les autres. Ils veulent
déterminer l’intervalle de confiance à 95 % de la proportion des
femmes de cette ville qui préfèrent la marque de lessive A.
Solution :
Les données : E : n = 500 > 30 ; f = 0, 35 ; 1 − α = 0.95 ;
p =? ;
I Conditions d’application : n = 500 > 30, approximation de
la loi binomiale par la loi normale
I Statistique de test : qF −p → N(0, 1)
f (1−f )
n
56 / 105
Exemple 2.2.2 - suite
On détermine les fractiles t α2 de la loi normale centrée réduite :
!
!
P
−t α2 ≤
qF −p
f (1−f )
n
≤ t α2
=P
qF −p
f (1−f )
n
≤ t α2
= 1 − α = 0.95
t α2 = 1, 96
I Intervalle de confiance de niveau (1 − α) = 0.95 de p :
#
"
r
r
f (1 − f )
f (1 − f )
; f + t α2
f − t α2
n
n
q
q
f (1−f )
= 0,35×0,65
= 0, 02133;
n
500
q
)
I Marge d’erreur dans l’estimation de p : E = t α f (1−f
=
n
2
= 1, 96 ∗ 0, 02133 = 0, 041809 femmes.
L’intervalle de confiance à 95 % est :
[0, 35−1, 96×0.02133; 0, 35+1, 96×0.02133] = [0.3082; 0.3918]
Il y a donc entre 30.82% et 39.18% des femmes de cette ville
qui préfèrent la marque de lessive A (avec un risque de 5% de
57 / 105
Exercice
21. Le directeur financier d’une société sait par expérience que
12 % des factures émises ne sont pas réglées dans les 10
jours ouvrables suivant l’échéance. Le chiffre d’affaires s’étant
accru sensiblement, il veut vérifier si la situation a évolué.
Il fait prélever un échantillon aléatoire de 500 factures à partir
duquel il constate que 14 % des factures ne sont pas réglées
dans les délais.
Déterminer l’intervalle de confiance à 95 % et commenter ce
résultat sachant que l’ensemble des factures pouvant être
étudiées est de plusieurs dizaines de milliers.
58 / 105
58 / 105
2.2.3 Précision - Taille d’échantillon - Risque d’erreur
1. La marge d’erreur E = t α2 sθ ou niveau de précision
recherché dans l’estimation par intervalle de confiance,
lorsqu’on utilise l’estimation θ̄ de l’échantillon pour estimer la vraie valeur θ de la population, est l’écart (en valeur absolue), noté E = |θ̄ − θ|.
2 En pratique, on peut fixer la marge d’erreur qu’on ne
veut pas excéder et déterminer la taille minimale n de
l’échantillon requise.
3 On peut déduire le risque d’erreur α ou le niveau de
confiance attribué à une estimation par intervalle.
59 / 105
Précision - Taille d’échantillon - Risque d’erreur
Paramètre
Marge d’erreur
Moyenne µ
(σ 2 connue)
E = tα
Moyenne µ
(σ 2 inconnue)
E = tSt α
Proportion
p
σ
√
n
n = tα
s0
√
n
2
n = tSt α
2
E = tα
2
Taille d’échantillon
q
f (1−f )
n
2
σ
E
t
α
2
E
√
2
s0
2 E
n=
Risque d’erreur
n
E
σ
tα =
2
2
tSt α =
2
2
f (1 − f )
tα =
2
q
√
n
E
s0
n
E
f (1−f )
60 / 105
Exemple 2.2.3 /Feuille 2/
Les responsables d’une étude de marché ont choisi au hasard
500 femmes dans une grande ville et ont constaté que 35 %
des femmes retenues dans l’échantillon préfèrent utiliser une
marque de lessive A plutôt que les autres.
Supposons qu’avant de tirer l’échantillon, les responsables de
l’étude aient décidé d’estimer la proportion p à ±2% près.
Quelle devrait être dans ce cas la taille minimale de
l’échantillon à tirer, en désirant toujours avoir un intervalle de
confiance à 95 % et en considérant que f = 0, 35.
Données : E : n = 500q> 30; f = 0, 35; 1 − α = 0, 95
n = ? ainsi que E = t αn
f (1−f )
n
= 0.02
61 / 105
Exemple 2.2.3 - Solution
Données : E : n = 500q> 30; f = 0, 35; 1 − α = 0, 95
n = ? ainsi que E = t αn
f (1−f )
n
= 0.02
Marge q
d’erreur dans l’estimation de p (n = 500) :
E = t α2
f (1−f )
n
= 0, 041846 femmes.
n et E sont en rapport réciproque
=⇒ pour diminuer la marge d’erreur on doit augmenter la taille
de l’échantillon.
=⇒ la statistique du test et les conditions d’application restent
inchangées.
Pour avoir la proportion à 2 % près, il faut que :
r
0, 35 × 0, 65
0, 35 × 0, 65
1, 96
= 0, 02 ⇒ (1, 96)2
= (0, 02)2
n
n
(1, 96)2 × 0, 35 × 0, 65
⇒n=
= 2184, 91= 2185.
(0, 02)2
62 / 105
18.
Un échantillon de 100 votants choisis au hasard parmi tous les
votants d’une circonscription donnée a montré que 55 %
d’entre eux étaient favorables à un certain candidat. Déterminer
les limites de confiance à 95% de la proportion de tous les
votants favorables à ce candidat.
Solution
Les données : E : n = 100 > 30 ; f = 0, 55 ; 1 − α = 0.95 ;
I.C.0.95 (p) =? ;
I Conditions d’application : n = 100 > 30, approximation de
la loi binomiale par la loi normale
I Statistique de test : qF −p → N(0, 1)
f (1−f )
n
63 / 105
On détermine les fractiles t α2 de la loi normale centrée réduite :
!
!
P
−t α2 ≤
qF −p
f (1−f )
n
≤ t α2
=P
qF −p
f (1−f )
n
≤ t α2
= 1 − α = 0.95
t α2 = 1, 96
I Intervalle de confiance de niveau (1 − α) = 0.95 de p :
#
"
r
r
f (1 − f )
f (1 − f )
; f + t α2
f − t α2
n
n
q
q
f (1−f )
0,55×0,45
=
= 0, 0497;
n
100
q
)
I Marge d’erreur dans l’estimation de p : E = t α f (1−f
=
n
2
= 1, 96 ∗ 0, 0497 = 0, 1.
L’intervalle de confiance à 95 % est :
[0, 55 − 0.1; 0, 55 + 0.1] = [0.45; 0.65]
Il y a donc entre 45% et 65% des votants favorables à ce
candidat. (avec un risque de 5% de se tromper).
63 / 105
19.
De quelle taille doit être l’échantillon de votants de l’exercice
18. si l’on veut être sur à 95% que le candidat sera élu ?
Solution
La proportion
pest p̂ = f = 0.55. La marge d’erreur est
E = f ± tα/2 f (1 − f )/n. Pour que le candidat soit élu, il faut
avoir plus de 50 % des voix, il faut que la marge d’erreur E soit
inférieure à 0.05. Pour être sûr à 95%,
n=
t α2
E
2
f (1 − f ) =
1.96
0.05
2
0.55 0.45 = 380.32
Il s’ensuit que n doit être au moins égal à 381.
63 / 105
2.2.4 Intervalle de confiance de σ 2 (µ connue)
I Conditions d’application : Lorsque la moyenne µ est
P
connue, la variance S 2 = n1 ni=1 (Xi − µ)2 de l’échantillon,
est un excellent estimateur de σ 2
2
P 2
I La statistique de test : ni=1 Xi σ−µ = n S2 → χ2n d.d.l.
σ
2
I On peut alors écrire : P(k1 ≤ n S2 ≤ k2 ) = 1 − α.
σ
les fractiles de la loi khi-deux à n degrés de liberté k1 = χ2α
2
et k2 = χ21− α (cf. table du khi-deux) :
2
P(χ2n ≤ k1 ) =
α
2
et
P(χ2n ≤ k2 ) = 1 −
α
.
2
I On en déduit l’intervalle de confiance de niveau (1 − α) de
σ2 :
s2
s2
n ≤ σ2 ≤ n
k2
k1
64 / 105
Intervalle de confiance de σ 2 (µ inconnue, X
∼ N(µ, σ))
I Lorsque la moyenne µ est inconnue, on estime σ 2 par
n
n
1 Pn
2 = SCE
l’estimateur S 02 = n−1
S 2 = n−1
i=1 (Xi − X̄ )
n
n−1
I La statistique de test :
Pn Xi −X̄ 2
02
= (n − 1) Sσ2 → χ2(n−1) d.d.l.
i=1
σ
02
I On peut alors écrire : P(k1 ≤ (n − 1) S 2 ≤ k2 ) = 1 − α.
σ
où, k1 = χ2α et k2 = χ21− α sont les fractiles de la loi
2
2
khi-deux à n − 1 degrés de liberté (cf. table du khi-deux).
c’est-à-dire : P(χ2(n−1) ≤ k1 ) = α2 et
P(χ2(n−1) ≤ k2 ) = 1 − α2 .
I On en déduit l’intervalle de confiance de niveau (1 − α) de
σ2 :
s02
s02
(n − 1)
≤ σ 2 ≤ (n − 1)
k2
k1
I Ou encore pour l’écart-type σ :
s
s
02
s
s02
(n − 1)
≤ σ ≤ (n − 1)
k2
k1
65 / 105
Exemple 2.2.4 /Feuille 2/
On suppose que le chiffre d’affaires mensuel d’une entreprise
suit une loi normale de moyenne inconnue µ mais dont
l’écart-type s a été estimé à 52 K.Euros. Sur les 16 derniers
mois, la moyenne des chiffres d’affaires mensuels a été de 250
K.Euros.
1. Donner une estimation ponctuelle de l’écart-type σ du
chiffre d’affaires mensuel de cette entreprise.
2. Établir un intervalle de confiance de niveau 95% de σ.
66 / 105
66 / 105
66 / 105
66 / 105
Intervalle de confiance de σ 2 (n > 100)
I Lorsque la taille de l’échantillon n est grande n > 100,
l’approximation est valable :
√ χ2n ≈ N n; 2n
n
I Comme n−1
→ 1, s0 ≈ s
I On en déduit l’intervalle de confiance de niveau (1 − α) de
σ2 :
s2
s2
≤ σ 2 ≤ s2 + t α2
s2 − t α2
2n
2n
I Ou encore pour l’écart-type σ :
s
s
s − t α2 √
≤ σ ≤ s + t α2 √
2n
2n
67 / 105
Exercice
22. On a calculé que l’écart-type des durées de vie d’un
échantillon de 200 ampoules électriques valait 100 heures.
a) Déterminer les limites de confiance à 95 % de l’écart-type de
l’ensemble des ampoules de ce type.
b) Déterminer les limites de confiance à 95 % de l’écart-type de
l’ensemble des ampoules de ce type à la base d’un échantillon
de 25 ampoules dont l’écart-type vaut 110 heures.
68 / 105
68 / 105
68 / 105
62.
L’écart-type de la résistance de rupture de 110 câbles testés
par une usine est de 180 kg. Calculer les limites de confiance à
95 % de l’écart-type de tous les câbles fabriqués par l’usine.
Solution
E : n = 110 > 100 ; s = 180 kg ; α = 0.05, µ inconnue
√ Conditions d’application : χ2n ≈ N n; 2n
n
→ 1, s0 ≈ s
Comme n−1
L’intervalle de confiance de niveau (1 − α) de σ est :
s
s
≤ σ ≤ s + t α2 √
s − t α2 √
2n
2n
180
180
180 − 1.96 √
≤ σ ≤ 180 + 1.96 √
2 ∗ 110
2 ∗ 110
180 − 23.79 ≤ σ ≤ 180 + 23.79
156.21 ≤ σ ≤ 203.79
68 / 105
2.3 Comparaisons
I Il existe de nombreuses applications qui consistent, par
exemple, à comparer deux groupes d’individus en regard
d’un caractère particulier (poids, taille, rendement,...), ou
comparer deux procédés de fabrication selon une
caractéristique (résistance, diamètre, longueur,...), ou
encore comparer les proportions d’apparition d’un
caractère de deux populations (proportion de défectueux,
proportion de gens favorisant un parti politique,...).
I Les distributions d’échantillonnage qui sont alors utilisées
pour effectuer ces comparaisons ’Tests d’hypothèses’ ou
’calcul d’intervalles de confiance’ sont celles
correspondant aux fluctuations d’échantillonnage de la
différence de 2 moyennes, de 2 proportions ou encore le
rapport de 2 variances observées.
69 / 105
2.3.1 Estimation ponctuelle de la différence de 2
moyennes (2 proportions)
• Deux populations de v.a.r : X ∼ N(µx , σx ) et Y ∼ N(µy , σy ).
• Echantillons EX : x1 ; x2 ; . . . xn et Ey : y1 ; y2 ; . . . ; yp prélevés
dans les deux populations distinctes de caractères :
Ex : x̄, sx , fx ;
Ey : ȳ , sy , fy
1. Estimation ponctuelle de la différence des moyennes (µx − µy ) :
La différence des moyennes (x̄ − ȳ ) observée sur les
échantillons est une estimation ponctuelle de la différence
(µx − µy ) des moyennes des populations.
2. Estimation ponctuelle de la différence des fréquences
(px − py ) :
La différence des fréquences (fx − fy ) observée sur les
échantillons est une estimation ponctuelle de la différence
des proportions (px − py ) des populations.
70 / 105
2.3.2 Intervalle de confiance de la différence de 2 moyennes
µx − µy . Variances σx2 et σy2 connues
r
I Distribution (X̄ − Ȳ ) → N µx − µy ;
I Statistique de test :
(X̄ −Ȳ )−(µx −µy )
r
σ2
σx2
+ py
n
σx2
n
+
σy2
p
!
→ N(0; 1)
I Intervalle de confiance de niveau (1 − α) :
s
s
σx2 σy2
σx2 σy2
(x̄ − ȳ ) − t α2
+
≤ µx − µy ≤ (x̄ − ȳ ) + t α2
+
n
p
n
p
r
2
2
I Marge d’erreur : E = t α σnx + σpy
2
Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas
différentes.
Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes.
71 / 105
Exemple 2.3.1 /Feuille 2/
Le temps mis par une machine pour fabriquer une pièce est
supposé suivre une loi normale de paramètres µ et σ 2 . Dans
un atelier, deux machines A et B fabriquent la même pièce.
Pour un échantillon de 9 pièces fabriquées, on a obtenu les
résultats suivants :
Nombre de pièces fabriquées
Temps moyen observé (mn)
Variances des populations
Machine A
9
50
25
Machine B
9
45
36
1. Déterminer un intervalle de confiance, de niveau
(1 − α) = 95%, de la différence des temps moyens des
deux machines µa − µb .
2. Question : La machine A est-elle aussi performante que la
machine B ?
72 / 105
Exemple 2.3.1 - Solution
I Remarques : Petits échantillons nA = nB = 9 pièces mais
le temps de fabrication est supposé normalement
distribué. Les variances σA2 = 25 et σB2 = 36 sont connues.
X̄ −X̄ −(µ −µ )
I Statistique de test : ( A rB )2 A2 B → N(0, 1).
σ
σ
A+ B
nA
nB
I Les données : nA = nB = n = 9.
Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur :
α = 5%.
t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1)
Marge q
d’erreur dans l’estimation de (µA − µB ) :
q
σA2 +σB2
25+36
E = t α2
=
1.96
= 5.10mn
n
9
Estimation ponctuelle de la différence (µA − µB ) :
x̄A − x̄B = 50 − 45 = 5mn.
73 / 105
Exemple 2.3.1 - Solution - suite
I Intervalle de confiance de niveau 95% de (µA − µB ) :
5 − 5, 10 = −0.10 ≤ (µA − µB ) ≤ 5 + 5, 10 = 10, 10
(µA − µB ) ∈ [−0.10mn; 10, 10mn]
I Conclusion : 0 ∈ I.C.95% , donc la différence de 5 mn
observée sur les échantillons n’est pas significative (avec
un risque d’erreur de 5%), on peut donc considérer que
ces deux machines ont des performances identiques.
I Réponse à la question : oui, la machine A est aussi
performante que la machine B, l’écart observé de 5 mn
n’est pas significatif, il est dû aux fluctuations
d’échantillonnage.
74 / 105
Intervalle de confiance de la différence de 2 moyennes
Variances σx2 et σy2 inconnues ; Grands échantillons : n ≥ 30 et
p ≥ 30 Populations quelconques - pas forcément normales.
r (Cas le!plus fréquent)
I Distribution : (X̄ − Ȳ ) → N µx − µy ;
I Statistique de test :
(X̄ −Ȳ )−(µx −µy )
r
s02
sx02
+ py
n
r
I Marge d’erreur : E = t α
2
sx02
n
+
sx02
n
+
sy02
p
→ N(0; 1)
sy02
p
I Intervalle de confiance de niveau (1 − α) :
s
s
sx02 sy02
sx02 sy02
(x̄ − ȳ ) − t α2
+
≤ µx − µy ≤ (x̄ − ȳ ) + t α2
+
n
p
n
p
Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas
différentes.
Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes.
75 / 105
Exemple 2.3.2 /Feuille 2/
On fait subir à des cadres intermédiaires de deux grandes entreprises (une œuvrant
dans la fabrication d’équipement de transport et l’autre dans la fabrication de produits
électriques) un test d’appréciation et d’évaluation. La compilation des résultats pour
chaque groupe à l’issue de cette évaluation s’établit comme suit :
Nombre de cadres
Appréciation globale moyenne
Somme des Carrés des Écarts /SCE/
1 Équipement
34
184
15774
2 Produits Électriques
32
178
9858
1. Déterminer un intervalle de confiance qui a 95 chances sur 100 de contenir la valeur
vraie de la différence des moyennes (µ1 − µ2 ) des deux groupes de cadres.
2. Question : Selon cet intervalle, que peut-on conclure quant à la performance des
cadres de ces deux secteurs au test d’évaluation ? Est-ce qu’en moyenne, la
performance est vraisemblablement identique ou semble-t-il une différence
significative entre ces deux groupes ?
76 / 105
Exemple 2.3.2 - Solution
I Remarques : Grands échantillons n1 = 34 et n2 = 32
indépendants. Les variances σ12 et σ22 sont inconnues.
X̄ −X̄ −(µ −µ )
I Statistique de test : ( 1 r 2 )02 021 2 → N(0, 1).
s
I Les données :
1
n1
s
+ n2
2
n1 = 34 et n2 = 32.
Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur :
α = 5%.
t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1)
Estimation des variances : s102 =
s202
SCE2
n2 −1
SCE1
n1 −1
=
15774
33
= 478 et
9858
31
=
=
= 318.
Marge q
d’erreur dans l’estimation de (µ1 − µ2 ) :
q
s02
s02
318
E = t α2 n11 + n22 = 1.96 478
34 + 32 = 15.6
Estimation ponctuelle de la différence (µ1 − µ2 ) :
x̄1 − x̄2 = 184 − 178 = 6.
77 / 105
Exemple 2.3.2 - Solution - suite
I Intervalle de confiance de niveau 95% de (µ1 − µ2 ) :
6 − 9.6 = −3.6 ≤ (µ1 − µ2 ) ≤ 6 + 3.6 = 15.6
(µ1 − µ2 ) ∈ [−3.60, 15.60]
I Conclusion : 0 ∈ I.C.95% , donc la différence de 6 points
observée sur les appréciations moyennes n’est pas
significative (avec un risque d’erreur de 5%), on peut donc
considérer que deux groupes de cadres ont des
appréciations globales identiques.
I Réponse à la question : oui, en moyenne, la performance
est identique entre ces deux groupes de cadres. L’écart
observé de 6 points est attribuable aux fluctuations
d’échantillonnage.
78 / 105
Intervalle de confiance de la différence de 2 moyennes
Petits échantillons n (et/ou) p < 30. Populations normales.
Variances inconnues mais supposées égales σx2 = σy2 = σ 2 .
I Estimation des variances inconnues σx2 = σy2 = σ 2 par les
variances impériques sx02 et sy02 calculées sur chacun des
échantillons - peu précise.
I Obtention d’une estimation unique s02 , de la variance σ 2 à
la base de l’information des deux échantillons :
nSx2 + pSy2
02
- un bon estimateur de σ 2
S =
n+p−2
q
I Distribution (X̄ − Ȳ ) → N µx − µy ; s0 n1 + p1
I Statistique de test :
(X̄ −Ȳ )−(µx −µy )
q
s0 n1 + p1
→ T(n+p−2) d.d.l.
I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) :
s
s
1
1
1 1
(x̄ − ȳ )−tSt α2 s0
+ ≤ µx −µy ≤ (x̄ − ȳ )+tSt α2 s0
+
n p
n p
79 / 105
Cas particulier
I Si n = p (échantillons indépendants de même taille), on a
plus simplement : S 02 =
I Statistique de test :
n(Sx2 +Sy2 )
2(n−1)
=
(X̄ −Ȳ )−(µx −µy )
q
S 0 n2
SCEx +SCEy
2(n−1)
→ T2(n−1) d.d.l.
I Limites de l’intervalle de confiance de (µx − µy ) :
r
2
0
(x̄ − ȳ ) ± tSt α2 s
n
Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas
différentes.
Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes.
80 / 105
Intervalle de confiance de la différence de 2 moyennes
Petits échantillons n = p < 30. Populations normales. Variances
inconnues et différentes σx2 6= σy2 .
L’estimation approximée suivante est valable
q 2
0
I Distribution (X̄ − Ȳ ) → N µx − µy ; sn1 +
I Statistique de test :
(X̄ −Ȳ )−(µx −µy )
r
s0 2
s0 2
1 + 2
n
n
s20 2
n
→ T(n+p−2)=2(n−1) d.d.l.
I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) :
s
s
2
2
0
0
s1
s
s10 2 s20 2
(x̄−ȳ )−tSt α2
+ 2 ≤ µx −µy ≤ (x̄−ȳ )+tSt α2
+
n
n
n
n
81 / 105
Intervalle de confiance de la différence de 2 moyennes
Petits échantillons n (et/ou) p < 30 et n 6= p. Populations
normales. Variances inconnues et différentes σx2 6= σy2 .
I n 6= p : L’estimation approximée suivante est valable
!
r
I Distribution (X̄ − Ȳ ) → N µx − µy ;
I Statistique de test :
2
02
s1
s0
+ 2p
n
I ν=
2
s0 2
 1 
n
n−1

+
s0 2
s0 2
1 + 2
n
p
+
s20 2
p
→ Tν d.d.l.
!2
2
s0 2
 2 
p

(X̄ −Ȳ )−(µx −µy )
r
s10 2
n
- n’est pas un nombre entier, en
p−1
général. On arrondit en valeur inférieure.
I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) :
s
s
2
2
0
0
s2
s1
s10 2 s20 2
α
α
+
≤ µx −µy ≤ (x̄−ȳ )+tSt 2
+
(x̄−ȳ )−tSt 2
n
p
n
p
82 / 105
Exemple 2.3.3 /Feuille 2/
Un laboratoire indépendant a effectué, pour le compte d’une revue sur la protection du
consommateur, un essai de durée de vie sur un type d’ampoules électriques d’usage
courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le
secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur
un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats
suivants :
La durée de vie d’une ampoule est supposée normalement distribuée.(les variances
des populations sont supposées égales).
Nombre d’essais
Durée de vie moyenne observée (h)
Somme des Carrés des Écarts
Fabricant 1
21
1025
2400
Fabricant 2
21
1070
2800
1. Déterminer un intervalle de confiance de niveau 95% de la différence des durées de
vie moyennes des ampoules de ces deux fabricants.
2. Question : Est-ce que la revue peut affirmer, qu’en moyenne, les durées de vie des
ampoules des deux fabricants sont identiques (ou différentes) ?
En d’autres termes, est-ce que la différence observée lors des essais est
significative ?
83 / 105
Exemple 2.3.3 - Solution
I Remarques : petits échantillons n1 = n2 = n = 21
indépendants. Les variances σ12 et σ22 sont inconnues mais
supposées égales σ12 = σ22 = σ 2 .
X̄ −X̄ −(µ −µ )
I Statistique de test : ( 1 2 )q 1 2 → T2(n−1)=40 d.d.l. .
2
s0
n
I Les données :
n1 = n2 = n = 21.
Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur :
α = 5%.
tSt α2 = t2.5% = ±2.021 cf. Table de la loi de Student à 40
d.d.l.
Estimation de la variance commune : nS 2 = SCE,
1 +SCE2
s02 = SCE
= 2400+2800
= 11.402 .
2(n−1)
40
Marge d’erreur
q dans l’estimationqde (µ1 − µ2 ) :
2
E = tSt α2 s0 n2 = 2.021 × 11.40 21
= 7.11 h
Estimation ponctuelle de la différence (µ1 − µ2 ) :
x̄1 − x̄2 = 1025 − 1070 = −45 h.
84 / 105
Exemple 2.3.3 - Solution - suite
I Intervalle de confiance de niveau 95% de (µ1 − µ2 ) :
−45 − 7, 11 = −52, 11 ≤ (µ1 − µ2 ) ≤ −45 + 7, 11 = −37, 89
(µ1 − µ2 ) ∈ [−52, 11; −37, 89 h]
I Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 45 h
observé sur les durées de vie moyennes est significatif
(avec un risque d’erreur de 5%). Cet écart n’est donc pas
attribuable aux fluctuations d’échantillonnage.
I Réponse de la question : oui, la revue doit conclure, avec
un risque d’erreur de 5%, que les durées de vie des
ampoules de ces deux fabricants ne sont pas identiques.
85 / 105
Différence de 2 moyennes : Échantillons appariés
Échantillons dépendants (Données associées par paires)
Exemple 1 : On compare 2 méthodes de mesures en
soumettant à ces méthodes les mêmes individus. Les 2
échantillons sont issus de deux lois différentes, mais ne sont
pas indépendants (en général !).
Exemple 2 : Lorsque nous avons, pour chaque élément de
l’échantillon, deux valeurs obtenues à des périodes différentes
(avant / après ) ou selon des traitements différents.
• Les deux séries de mesures Xi et Yi ne sont pas
indépendantes l’une de l’autre.
Il serait incorrect de procéder à un test de comparaison de
moyennes tel que décrit précédemment.
•
Les mesures Zi = (Xi − Yi ); i = 1, . . . , n - indépendantes
2
Z ∼ N(µz = µx − µy ; σz2 = σx−y
)
les différences de chaque paire d’observations suivent des lois
normales.
86 / 105
Différence de 2 moyennes : Échantillons appariés
Échantillons dépendants (Données associées par paires)
I On revient à un seul échantillon différence (z1 ; z2 ; . . . ; zn ).
σz2 - généralement inconnue, on l’estime à partir :
n
S 02 =
X
2
SCE
1
Zi − Z̄ =
(n − 1)
n−1
i=1
I Conditions d’application : estimation par intervalle de
confiance d’une moyenne µz , la variance σz2 - inconnue :
√z → Tn−1 d.d.l.
I Statistique de test : Z̄0−µ
S/ n
I Intervalle de confiance de niveau (1 − α) I.C(1−α) de
µz = (µx − µy ) :
s0
s0
z̄ − tSt α2 √ ≤ µz ≤ z̄ + tSt α2 √
n
n
0 ∈ I.C(1−α) =⇒ les deux moyennes ne sont pas
différentes.
0 6∈ I.C(1−α) =⇒ les moyennes sont significativement
différentes.
87 / 105
Exemple 2.3.4 /Feuille 2/
On mesure 12 pièces avec des méthodes différentes. On a
obtenu les résultats suivants :
x̄ = 1; ȳ = 2, 08;
SCEx /somme des carrés des écarts/ = sx = 106, 16;
SCEy = sy = 118, 19
SCEx−y = sx−y = 14, 58.
Déterminer un intervalle de confiance de niveau 95% de la
différence des deux méthodes de mesures.
88 / 105
Exemple 2.3.4 - Solution
I Remarques : Échantillons appariés (dépendants).
Conditions d’application : la mesure différence Z = X − Y
est supposée normalement distribuée.
Z̄ −µ
I Statistique de test : ( 0 √z ) → Tn−1=11 d.d.l. .
S/ n
I Les données :
n = 12 ⇒ ν = n − 1 = 11 d.d.l.
z̄12 = x̄12 − ȳ12 = 1 − 2.08 = −1.08 : moyenne calculée sur
l’échantillon différence de taille n = 12 (estimation
ponctuelle de µz )
02
s12
=
SCEz=x−y
14.58
=
= 1.3254 = 1.1512
n−1
11
Seuil de signification : α = 5%.
tSt α2 = t2.5% = ±2.201 cf. Table de la loi de Student à
ν = n − 1 = 11 d.d.l.
I Marge d’erreur dans l’estimation de µ :
s0
√
E = tSt α2 √12n = 2.201 1.151
= 0.7315.
12
89 / 105
Exemple 2.3.4 Solution - suite
I Intervalle de confiance de niveau 95% de µ (variance σ 2
inconnue) :
−1, 08 − 0, 7311 = −1, 811;
−1, 08 + 0, 7315 = −0, 3485
−1, 811 ≤ µz = µx − µy ≤ −0, 3485
µz = (µx − µy ) ∈ [−1, 811, −0, 3485]
I Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 1.08
observé est significatif (avec un risque d’erreur de 5%). On
peut donc conclure que µz = (µx − µy ) 6= 0 ⇔ µx 6= µy ; les
deux méthodes de mesures sont différentes..
I Remarque importante : Si on fait l’erreur de considérer
ces deux échantillons de mesures comme des échantillons
indépendants, on trouve un intervalle de confiance de
niveau 95% de (µx − µy ) ∈ [−9.72; 7.56]. Dans ce cas,
0 ∈ I.C.95% c’est-à-dire que µx ≈ µy ; les deux méthodes
de mesures sont identiques.
90 / 105
2.3.3 Différence de 2 proportions.
Grands échantillons (n1 ≥ 30 et n2 ≥ 30) prélevés au
hasard et indépendamment de deux populations
Application : pour décider si l’écart observé entre deux
proportions échantillonnales est significatif ou s’il est plutôt
attribuable au hasard de l’échantillonnage.
q
p2 (1−p2 )
1)
I Distribution : F1 − F2 ∼ N p1 − p2 , p1 (1−p
+
n1
n2
I Statistique de test :
(F −F )−(p− p2 )
r 1 2
f1 (1−f1 )
f (1−f )
+2 n 2
n
1
→ N(0; 1)
2
I Intervalle de confiance de niveau (1 − α) de (p1 − p2 ) :
s
f1 (1 − f1 ) f2 (1 − f2 )
(f1 − f2 ) − t α2
+
≤ p1 − p2
n1
n2
s
f1 (1 − f1 ) f2 (1 − f2 )
≤ (f1 − f2 ) + t α2
+
n1
n2
91 / 105
Différence de 2 proportions
Grands échantillons : n1 ≥ 30 et n2 ≥ 30. Hypothèse supposée :
p1 = p2 = p
I On estime p par f en combinant les proportions observées
2 f2
dans chaque échantillon : f = n1nf11 +n
+n2
I Statistique de test :
(F −F )−(p −p )
r 1 2 1 2
f (1−f ) n1 + n1
1
→ N(0; 1)
2
I L’intervalle de confiance de niveau (1 − α) de (p1 − p2 ) :
s
1
1
α
(f1 − f2 ) − t 2 f (1 − f )
+
≤ p1 − p2
n1 n2
s
1
1
+
≤ (f1 − f2 ) + t α2 f (1 − f )
n1 n2
Si 0 ∈ I.C.α (p1 − p2 ) =⇒ les deux proportion ne sont pas
différentes.
Si 0 6∈ I.C.α (p1 − p2 ) =⇒ les deux proportions sont significativement différentes.
92 / 105
Exemple 2.3.5 /Feuille 2/
Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître
l’opinion des contribuables sur un projet d’aménagement d’un site. Les résultats de
l’enquête se résument comme suit :
Nombre de personnes interrogées
En faveur du projet
Municipalité 1
250
110
Municipalité 2
250
118
1. Quelle est l’estimation ponctuelle de la différence de proportions des contribuables de
chaque municipalité favorisant l’aménagement du site ?
2. Déterminer l’intervalle de confiance de niveau (1 − α) = 95% de contenir la valeur
vraie de la différence des proportions, (p1 − p2 ) ?
3. Question : Avec l’intervalle calculé en 2), est-ce que l’on rejetterait, au seuil de
signification α = 5%, l’hypothèse selon laquelle les contribuables des deux
municipalités favorisent dans la même proportion l’aménagement du site sur leur
territoire ?
Solution
93 / 105
93 / 105
93 / 105
93 / 105
93 / 105
2.3.4 Rapport de 2 variances
( comparaison de 2 variances )
I La comparaison de 2 populations normales peut porter
non seulement sur leur valeur centrale ( moyenne ), mais
également sur leur dispersion. La caractéristique de
dispersion la plus utilisée est la variance.
I Une des conditions d’application de la loi de Student dans
le cas de comparaison de moyennes est que les
échantillons proviennent de 2 populations normales de
variances identiques : σ12 = σ22 . Cette hypothèse peut être
maintenant vérifiée à l’aide de l’intervalle de confiance du
rapport des 2 variances : Test d’égalité de 2 variances.
I On suppose que l’on a prélevé deux échantillons
indépendants de tailles n1 et n2 de deux populations
normales N(µ1 ; σ1 ) et N(µ2 ; σ2 ) de paramètres inconnus.
94 / 105
2.3.3 Rapport de 2 variances
( comparaison de 2 variances )
I Distributions :
n1
X
S102
(Xi − X̄1 )2
=
(n
−
1)
→ χ2(n1 −1) d.d.l.
1
2
2
σ
σ
1
1
i=1
n2
X
S202
(Xi − X̄2 )2
=
(n
−
1)
→ χ2(n2 −1) d.d.l.
2
2
2
σ2
σ2
i=1
I Statistique de test :
σ22 S102
→ F(n1 −1),(n2 −1) d.d.l.
σ12 S202
95 / 105
Rapport de 2 variances
( comparaison de 2 variances )
Intervalle de confiance au niveau (1 − α) pour le rapport
f1
où,
σ22
σ12
:
S202
σ22
S202
≤
≤
f
2 02
S102
σ12
S1
α
2
α
= P (F (n1 − 1, n2 − 1) > f1 ) = 1 −
2
f2 = fsup = f α2 = P (F (n1 − 1, n2 − 1) > f2 ) =
f1 = finf = f1− α2
sont les fractiles de la loi de Fisher-Snédécor à (n1 − 1) et
(n2 − 1) degrés de liberté (cf. table).
Si 1 ∈ I.C.(1−α)% , il n’y a pas de différence significative
(avec un risque d’erreur de α%) entre les deux variances.
On peut donc les supposer égales : σ12 ≈ σ22 .
96 / 105
Exemple 2.3.6 /Feuille 2/
Reprenons l’exemple de la durée de vie moyenne de 2 types
d’ampoules électriques d’usage courant (60 Watts , 120 Volts)
fabriquées par deux entreprises concurrentielles, dans le secteur de
produits d’éclairage. Les essais effectués dans les mêmes
conditions, sur un échantillon de 16 lampes provenant de l’un des
fabricants et un échantillon de 15 lampes provenant de l’autre
fabricant, donnent les résultats suivants : La durée de vie d’une
ampoule est supposée normalement distribuée.
On ne dispose d’aucune information sur les variances des deux
populations.
Nombre d’essais
Durée de vie moyenne observée (h)
Somme des Carrés des Écarts
Fabricant 1
16
1025
1800
Fabricant 2
15
1070
1960
1. Déterminer un intervalle de confiance de niveau 95% du rapport
des variances des populations d’ampoules de ces deux
fabricants.
2. Question : Peut-on considérer l’égalité des variances σ22 = σ12 ?
97 / 105
Exemple 2.3.6 - Solution
I Remarques : petits échantillon n1 = 16; n2 = 15
indépendants.
I Statistique de test :
σ22 S102
σ12 S202
→ F(n1 −1=20;n2 −1=20) d.d.l.
I Les données :
n1 = 16; n2 = 15.
Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur :
α = 5%.
f2 = f2.5%,15,14 = 2, 95 et
1
1
f1 = f97.5%,15,14 = f2.5%,14,15
= 2,89
= 0, 346 cf. Table de la loi
de Fisher-Snedecor F(15;14) et F(14;15) ayant la probabilité
0.025 d’être dépassée.
SCE1
Estimation des variances : s102 = (n−1)
= 1800
15 = 120 et
s202 =
SCE2
(n−1)
=
1960
14
= 140.
98 / 105
Exemple 2.3.6 - Solution - suite
I Intervalle de confiance de niveau 95% de
s02
2
0.404 = 0.346 140
120 = f1 s02 ≤
1
σ22
σ12
σ22
σ12
σ22
σ22
:
s02
140
≤ f2 s202 = 2.95 120
= 3.44
1
∈ [0.404, 3.44]
I Conclusion : 1 ∈ I.C.95% , il n’y a pas de différence
significative (avec un risque d’erreur de 5%) entre les deux
variances. On peut donc les supposer égales : σ12 ≈ σ22 .
99 / 105
Exercice
27. On administre des somnifères sous forme de piles à deux
groupes de malades, A et B, comprenant respectivement 50 et
100 individus. On a donné au groupe A des piles d’un type
nouveau et au groupe B des piles classiques. Les patients du
groupe A ont dormi 7,82 heures en moyenne, ceux du groupe
B 6,75 heures.
a) L’écart-type étant pour le groupe A 0,24 heures, pour le
groupe B 0,30 heures, calculer les limites de confiance à
95 % pour la différence des moyennes d’heures de
sommeil provoquées par les deux types de somnifères.
b) L’écart-type étant estimé pour le groupe A 0,20 heures,
pour le groupe B 0,28 heures, calculer les limites de
confiance à 99 % pour la différence des moyennes
d’heures de sommeil provoquées par les deux types de
somnifères.
100 / 105
c) Soit le groupe A composé de 10 individus et le groupe B
de 15 individus, dont le sommeil moyen des individus du
groupe A fut 7,55 heures, celui du groupe B fut 6,65 heures
avec un écart-type observé de 0,22 heures et 0,28 heures
respectivement. Calculer l’intervalle de confiance de la
différence à 90 % des moyennes d’heures de sommeil.
d) On dispose seulement d’un groupe de 51 individus pour le
test de l’efficacité des deux types de somnifères. On a
donné une semaine des piles du type nouveau et les
patients ont dormi x̄ = 7.55 heures en moyenne. Après
deux semaines de repos, on a administré les piles du type
classique et cette fois-ci les patients ont dormi ȳ = 6, 28
heures en moyenne. La somme des carrés des écarts est
SCEx−y = 12.25 heurs. Déterminer un intervalle de
confiance à 99 % de la différence des moyennes de
sommeil en résultats des deux somnifères.
Solution
101 / 105
a) A : nA = 50; x̄A = 7, 82 h. ; σA = 0, 24 h.
B : nB = 100; x̄B = 6, 75 h. ; σB = 0, 30 h.
σA2 , σB2 connues
I.C.95% (µA − µB ) =?
Statistique de test :
(X̄A − X̄B ) − (µA − µB )
r
→ N(0, 1)
2
σA
nA
+
2
σB
nB
s
Marge d’erreur :
σ2
σA2
α
+ B ; α = 0, 05;
= 0, 025
nA
nB
2
α
1 − α = 0, 95; 1 − = 1 − 0, 025 = 0, 975; t α2 =?
2
E = t α2
Intervalle centré en 0 de probabilité donnée
Soit α un niveau de probabilité (0 < α < 1).
Recherchons l’intervalle [−t, t] centré en 0 tel que
P(−t < Z < t) = 1 − α.
Solution
Comme P(−t < Z < t) = 2π(t) − 1,
pour P(−t < Z < t) = 1 − α on obtient :
α
2π(t) − 1 = 1 − α =⇒ π(t) = 1 −
2
101 / 105
A l’aide des tables on détermine Z = tα tel que π(tα ) = 1 −
Cas particuliers :
α
.
2
α
Z ∼ N(0.1)
1−
0.20
0.10
0.05
0.01
P(−1.282 < Z < 1.282) = 0.80
P(−1.645 < Z < 1.645) = 0.90
P(−1.96 < Z < 1.96) = 0.95
P(−2.576 < Z < 2.576) = 0.99
0.9
0.95
0.975
0.995
α
2
t α2 = 1, 96
r
µ̂A − µ̂B
=
0, 32
0, 242
+
= 0, 0088786
50
100
x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h.
I.C.0.95 (µA − µB )
=
(x̄A − x̄B ) ± E = 1, 07 ± 0, 09
I.C.0.95 (µA − µB )
=
[0, 98
E
=
1, 96
1, 16]
Comme 0 6∈ I.C.0.95 (µA − µB ) = [0, 98 1, 16] =⇒ les heures moyennes de
sommeil sont significativement différentes. Les deux types de somnifères
influencent de façons différentes les patients.
101 / 105
b) A : nA = 50; x̄A = 7, 82; sA0 = 0, 20 h.
B : nB = 100; x̄B = 6, 75; sB0 = 0, 28 h.
σA , σB inconnus ;
I.C.0,99 (µA − µB ) =?, nA , nB > 30
(X̄A − X̄B ) − (µA − µB )
r
→ N(0, 1)
Statistique de test :
0
sA2
nA
0
+
sB2
nB
α
α = 0, 01;
= 0, 005; 1 − α/2 = 0, 995; t α2 = 2, 576
2
s
r
0
0
sA2
sB2
0, 282
0, 202
E = t α2
+
= 2, 576
+
= 0, 103
nA
nB
50
100
Fractile t α2 :
Marge d’erreur :
µ̂A − µ̂B
=
x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h.
I.C.0,99 (µA − µB )
=
(x̄A − x̄B ) ± E = 1, 07 ± 0, 103
I.C.0,99 (µA − µB )
=
[0, 967
1, 173]
Comme 0 6∈ I.C.0,99 (µA − µB ) = [0, 967 1, 173] =⇒ les heures moyennes
de sommeil sont significativement différentes. Les deux types de somnifères
influencent de façons différentes les patients.
101 / 105
c) A : nA = 10; x̄A = 7, 55 h. ; sA = 0, 22 h.
B : nB = 15; x̄B = 6, 65 h. ; sB = 0, 28 h.
σA2 , σB2 inconnues
nA < 30, nB < 30
I.C.90% (µA − µB ) =?
Comme nA = 10 et nB = 15 ne satisfaitent nA << 30 et nB << 30, on ne
peut pas appliquée l’estimation approximée. Il faut tester si σA = σB = σ?
0
Statistique de test :
Fractiles :
σB2 sA2
→ F(nA −1),(nB −1) d.d.l.
0
σA2 sB2
nA −1
n −1
fSup = f α2 = F αB
2
9
= F α14 = 2, 65
2
Table de la loi de Fisher-Snedecor p = 0.05 (risque global de α = 0, 1)
1
1
= 0, 33
fInf = f1− α2 = 14 =
3, 03
9
F
α
0
2
0, 282 × 15 × 9
s2
= 2, 65 × 1, 56 = 4, 14
Marges d’erreur : fSup B0 2 = 2, 65
0, 222 × 14 × 10
sA
0
sB2
0, 282 × 15 × 9
= 0, 33 × 1, 56 = 0, 515
= 0, 33
02
0,
222 × 14 × 10
sA
2
σA
I.C.0.90
= [0.515 4, 14]
σB2
2
σ
Comme 1 ∈ I.C.0.90 σA2 = [0.515 4, 14] =⇒ σA ≈ σB
fInf
B
101 / 105
σA2 , σB2 inconnues et supposée égales σA = σB
nA < 30, nB < 30
I.C.90% (µ1 − µ2 ) =? (Table 6)
(X̄A − X̄B ) − (µA − µB )
q
→ T(nA +nB −2)d.d.l.
s0 2 n1 + n1
Statistique de test :
A
B
I.C.0,90 (µA − µB )
=
+ nB sB2
10 × 0, 222 + 15 × 0, 282
=
= 0, 072
na + nB − 2
10 + 15 − 2
t 0,1 ;(10+15−2) = t0,05; (23) = 1, 7139
2
r
1
1
E = tSt α2 s0
+
na
nB
r
p
1
1
+
= 1, 19
= 1, 7139 × 0, 072
10
15
(x̄A − x̄B ) ± E = 0, 9 ± 1, 19
I.C.0,90 (µA − µB )
=
[−0, 71
s
Fractile tSt α2 :
Marge d’erreur :
0
2
=
nA sA2
1, 09]
Comme 0 ∈ I.C.0,90 (µA − µB ) = [−0, 71
1, 09] =⇒ µA ≈ µB
101 / 105
d) échantillons appariés
n = 51 ; x̄A = 7, 55 ; x̄B = 6, 28 ; SCEXA −XB = 12, 25
I.C.99% (µA − µB ) =?
Z = XA − XB ; Z̄ = X̄A − X̄B = 7, 55 − 6, 28 = 1, 27h.
r
r
p
SCE
12, 25
S0 =
=
= 0, 2851 = 0, 495h.
n−1
50
Statistique de test :
Feractile tSt α2 :
Marge d’erreur :
(Z̄ − µZ )
√
→ T(n−1)d.d.l.
s0 / n
tSt α2 = t[ 0,01 ;50] = 2, 6778
2
s0
s0
E = tSt α2 √ = 2, 6778 √
n
n
0, 495
= 2, 6778 √
= 0, 186.
51
I.C.0,99 (µA − µB )
=
z̄ ± E = 1, 27 ± 0, 186
I.C.0,99 (µA − µB )
=
[1, 27 − 0, 186
1, 27 + 0, 186] = [1, 084
1, 46]
Comme 0 6∈ I.C.0,99 (µA − µB ) = [1, 084 1, 46] =⇒ µA 6= µB . La différence
des deux moyennes est statistiquement significative. Les deux moyennes ne
peuvent être considérées comme égales.
101 / 105
41.
La SGM souhaite mieux connaitre la répartition des impayés
dans son portefeuille de clients. Sur l’ensemble des 20000
dossiers traités annuellement au service contentieux, un
échantillon aléatoire de 30 dossiers a été prélevé aux fins
d’étude, qui a permis d’obtenir un montants moyen observé
d’impayés de 2660,50 Ke et un écart-type observé des
impayés de 279,66 Ke.
a) Quelle serait la probabilité pour que, sur l’ensemble des 30
dossiers, le montant moyen d’impayés soit inférieur à 2300
Ke ?
b) Quel serait l’intervalle de confiance à 95% de cette moyenne
et quelle en serait l’interprétation ?
c) Quel serait l’intervalle de confiance à 95% de l’écart-type
des impayés et quelle en serait l’interprétation ?
102 / 105
d) Quel est le risque d’erreur que l’on attribue à l’intervalle de
confiance, bilatéral symétrique du montant moyen d’impayés :
[2539,5 - 2781,497] obtenu à pratir de cette série de 30
dossiers.
e) Quel serait l’intervalle de confiance à 95% de la moyenne de
la population, obtenu à la base des observations d’un
échantillon de 25 dossiers, dont la moyenne observée
d’impayés est de 2600 Ke et l’écart-type observé est de 277
Ke.
f) Quel serait l’intervalle de confiance à 99% de l’écart-type des
dossiers impayés de la population, obtenu à la base des
observations d’un échantillon de 200 dossiers, dont la moyenne
observée d’impayés est de 2650 Ke et l’écart-type observé est
de 280 Ke.
g) Quel serait l’intervalle de confiance à 90% de l’écart-type
des dossiers impayés de la population, obtenu à la base des
observations d’un échantillon de 25 dossiers, dont la moyenne
observée d’impayés est de 2650 Ke et l’écart-type observé est
de 280 Ke.
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
103 / 105
42.
96% des ménages français possèdent un réfrigérateur.
a) Quelle est la probabilité pour que, dans un échantillon de 1
200 ménages, la fréquence relative soit comprise entre 0,95 et
0,97. Que pourrait-on dire si la fréquence relative de
l’échantillon était de 0,99 ?
b) Quelle doit être la taille de l’échantillon pour que la
probabilité de trouver une fréquence relative de l’échantillon
comprise entre 0,95 et 0,97 soit de 99%.
104 / 105
104 / 105
104 / 105
104 / 105
Pour tester l’efficacité d’un nouveau produit médical, on a
effectué une analyse en choisissant 10 patients aléatoires. Cinq
patients ont reçu le produit conventionnel et les autres cinq
patients ont reçu le nouveau produit. Chaque patient a exercé
le niveau de satisfaction du produit en utilisant les numéraux de
0 à 100. Les résultats sont donnés dans la table si-jointe.
Standard
n1 = 5
x̄ = 60.33
s1 = 15.82
Nouveau
n2 = 5
x̄ = 32.21
s2 = 12.27
1. Quelle supposition on doit faire pour pouvoir appliquer la
statistique pour la comparaison de deux moyennes des
échantillon de faible taille ?
2. Construire l’intervalle de confiance à 95% de la différence
µ1 − µ2 et interpréter le résultat.
105 / 105
Solution
La supposition nécessaire est :
- Les niveaux de satisfaction des deux groupes de patients sont
normalement distribués
Comme n1 = n2 = 5 on peut appliquer la statistique pour
comparaison de deux moyennes, faibles échantillons de
mêmes tailles. Dans ce cas, si on ne suppose pas l’égalité des
deux variances, l’estimation approximée doit être appliquée.
Statistique de test :
(X̄1 − X̄2 ) − (µ1 − µ2 )
q
→ T2(n−1)d.d.l.
02
02
s1 +s2
n
Fractile tSt α2 :
t0,05/2;(2×(5−1)) = t0,025; (8) = 2, 306
105 / 105
s
Marge d’erreur :
s102 + s202
n
r
12, 272 × 5/4 + 15, 822 × 5/4
= 2, 306 ×
5
= 2, 306 × 10, 01 = 23, 08
E = tSt α2
I.C.0,95 (µ1 − µ2 ) = (x̄1 − x̄2 ) ± E = 28.12 ± 23, 08
I.C.0,95 (µ1 − µ2 ) = [5.04
51, 21]
Comme 0 6∈ I.C.0,95 (µ1 − µ2 ) = [5.04
51, 21] =⇒ µ1 6= µ2
105 / 105
Download