Statistique Appliquée STATISTIQUE INFERENTIELLE Sofia 2021 Statistique ↓ & Analyser Interpréter Réunir des données chiffrées sur des observables variations . Objet de la statistique : Données statistiques . & Séries Séries chronologiques statistiques Phases de la méthode statistique : Statistique % Rassembler - (enquêtes, recensements) descriptive → Organiser - (tableaux, diagrammes, graphiques) résumer un tableau à l’aide d’un & Analyser (BS2) petit nombre de paramètres Statistique estimation des % inductive paramètres I Interpréter Méthodes : (inférative) & tests d’hypothèses (SA) construction des modèles et étude Théorie des proba→ de leurs relations et propriétés bilités (BS1) 1. Echantillonnage - rappel Echantillonnage : ensemble des opérations qui ont pour objet de prélever un certain nombre d’individus dans une population donnée. Statistique descriptive 2 / 105 Population Échantillon Définition ensemble des unités considérées par le statisticien sous-ensemble de la population choisie pour étude Caractéristiques paramètres statistiques Notations N = taille de la population (si elle est finie) n = taille de l’échantillon caractère quantitatif moyenne µ moyenne x̄ µ= 1 N PN i=1 xi 2 variance σP 2 1 σ = N Ni=1 (xi − µ)2 caractère qualitatif proportion p x̄ = 1 n Pn i=1 xi variance empirique s2 P s2 = n1 ni=1 (xi − x̄)2 variance empirique corrin s2 gée s02 = n−1 proportion f 3 / 105 Distribution d’échantillonnage Distribution de X̄ (µ et σ connus) A) Population infinie ou échantillonnage non exhaustif (tirage avec remise) : Si X ∼ N(µ, σ) ou bien lorsque X ne suit pas une loi normale, mais n ≥ 30 (en vertu du théorème central limite), alors σ X̄ ∼ N(µ, √ ). n B) Échantillonnage exhaustif (tirage sans remise) dans une population finie (avec n > 0.05N) Si X ∼ N(µ, σ) ou bien si n ≥ 30 et n > 0.05N) ! r σ N −n X̄ ∼ N µ, √ n N −1 4 / 105 C) Distribution de X̄1 − X̄2 (µ et σ connu) Populations : P1 : X1 , N1 , µ1 , σ1 et P2 : X2 , N2 , µ2 , σ2 Si X1 ∼ N(µ1 , σ1 ), X2 ∼ N(µ2 , σ2 ) ou bien si n1 , n2 ≥ 30 Tirage avec remise : X̄1 − X̄2 ∼ N µ1 − µ2 , s σ12 σ22 + n1 n2 Tirage sans remise avec ni > 0, 05Ni s σ12 N − n1 σ22 N − n2 X̄1 − X̄2 ∼ N µ1 − µ2 , + n1 N − 1 n2 N − 1 5 / 105 Distribution de X̄ (σ inconnue) déduire une valeur fiable pour σ 2 = s02 = n 1 X n (xi −x̄)2 s2 = n−1 n−1 i=1 A. Grand échantillon (n ≥ 30) s avec remise : X̄ ∼ N µ, √ n−1 ! r s N −n sans remise, n > 0.05N : X̄ ∼ N µ, √ n−1 N −1 B. Cas des petits échantillons : n < 30 Exigence : X suit une loi normale dans la population T = X̄ − µ √ ∼ Tn−1 s/ n − 1 6 / 105 1.2.2 Distribution de la variance d’échantillon n n 1 X 02 2 SX̄ = Sx = (Xi − X̄ )2 n−1 n−1 i=1 Si X suit une loi normale et n ≤ 30, Y = (n − 1)SX̄02 σ2 ∼ χ2n−1 . √ Lorsque n est grand (n ≥ 30), χ2ν → N(ν, 2ν). Si X suit une loi normale et n ≥ 30, ! r 2 02 2 2 SX̄ ∼ N σ , σ n−1 en première approximation. 7 / 105 1.2.3. Distribution d’échantillonnage d’une proportion F (n est grand (n ≥ 30) et np ≥ 15, nq ≥ 15) A) Population infinie ou échantillonnage non exhaustif (tirage avec remise) r ! pq F ∼ N p, n B) Échantillonnage exhaustif (tirage sans remise) dans une population finie (avec n > 0.05N) : ! r r pq N − n F ∼ N p, n N −1 C) Distribution de F1 − F2 , lorsque n1 et n2 sont grands : r p1 q1 p2 q2 (F1 − F2 ) ∼ N p1 − p2 ; + n1 n2 8 / 105 Exercice 2. Le magazine Barron’s a rapporté que le nombre moyen de semaines passées au chômage par un individu est égale à 17,5. Supposez que pour la population de tous les chômeurs, la durée moyenne de chômage de la population soit de 17,5 semaines et que l’écart-type de la population soit de 4 semaines. Supposez que vous vouliez sélectionner un échantillon aléatoire de 50 chômeurs pour effectuer une étude. a) Représenter la distribution d’échantillonnage de X̄ , la moyenne d’échantillon pour un échantillon de 50 chômeurs. b) Quelle est la probabilité qu’un échantillon aléatoire simple de 50 chômeurs fournisse une moyenne d’échantillon qui s’écarte au plus de ±1 semaine de la moyenne de la population ? 9 / 105 9 / 105 4. Les producteurs de biens d’épicerie américains ont indiqué que 76% des consommateurs lisent les étiquettes indiquant la composition des produits. Supposez que la proportion de la population soit p = 0, 76 est qu’un échantillon de 400 consommateurs soit issu de cette population. a) Déterminer la distribution d’échantillonnage de la proportion d’échantillon F correspondant à la proportion des consommateurs de l’échantillon qui lisent l’étiquette de composition des produits. b) Quelle est la probabilité que la proportion d’échantillon s’écarte d’au plus ±0, 03 de proportion de la population ? c) Répondre à la question (b) pour un échantillon de 750 clients. 10 / 105 10 / 105 7. Les ampoules électriques d’un fabricant A ont une durée de vie moyenne de 1400 heures avec un écart-type de 200 heures, et celle d’un fabricant B ont une durée de vie moyenne de 1200 heures avec un écart-type de 100 heures. Si l’on teste des échantillons de 125 ampoules pour chaque marque, quelle est la probabilité pour que la marque d’ampoules A ait une durée de vie moyenne qui soit au moins supérieure de 160 heures à celle de la marque d’ampoules B ? 11 / 105 11 / 105 Statistique inférentielle 2. Estimation L’estimation répond au problème réciproque à celui de l’échantillonnage : obtenir de l’information sur la population à partir d’échantillons. Ce problème comporte des incertitudes et ne pourra être résolu que moyennant un certain "risque d’erreur". Objectif : obtenir une bonne estimation de µ, p et σ à partir de x̄, f et s, compte tenu de l’existence d’une dispersion dans la distribution d’échantillonnage. 12 / 105 Méthodes d’estimation - catégories Population P de paramètres θ ∈ {µ, σ, p} inconnus Echantillon E de caractéristiques x̄, s, f observées Estimation : estimer θ par θb ∈ {x̄, s, f } ; θ 6= θb en général — estimation ponctuelle : θ = θb b ”On estime que θ a une valeur voisine de θ”. Estimer la valeur d’un paramètre inconnu de la population mère par un seul nombre à partir de l’information fournie par l’échantillon. — estimation par intervalle de confiance : θ ∈ [θb1 , θb2 ] de seuil α ”On estime que θ est compris entre θb1 et θb2 de niveau de confiance 1 − α. Estimer la valeur d’un paramètre inconnu de la population mère par deux nombres qui forment un intervalle et indiquer la probabilité pour que le paramètre de la population se trouve à l’intérieur de cet intervalle ; Préférable à une estimation ponctuelle à cause de l’indication de la précision. 13 / 105 2.1 Estimation ponctuelle θ = θb 2.1.1 Qualités d’un estimateur Soit θ un paramètre de la population P, qu’on veut estimer par l’estimateur θ̂n - statistique du n−échantillon E : • estimateur sans biais : E(θ̂n ) = θ. • estimateur convergent en probabilité : θ̂n →n→∞ θ ⇔ Var (θ̂n ) →n→∞ 0. • estimateur efficace : soient θ̂n et θˆ0 n deux estimateurs sans biais de θ, θ̂n est dit plus efficace que θˆ0 n si Var (θ̂n ) ≤ Var (θˆ0 n ). 14 / 105 Estimation ponctuelle de la moyenne : µ b = x̄ I Soit E un échantillon constitué de n éléments (X1 ; X2 ; . . . ; Xn ) indépendants et identiquement distribués (i.i.d.) de moyenne x̄. L’échatillon E est extrait d’une population P, dont la moyenne µ est inconnue. I Estimation ponctuelle de la moyenne µ de la population P : n n 1X 1X xi /D.O.1/ = ni xi /D.G.1/, µ b = x̄ = n n i=1 I estimateur : X̄ = i=1 1 n Pn i=1 Xi 15 / 105 Estimation ponctuelle de la moyenne. Démonstration 1. Estimateur sans biais : ! n n n 1X 1X nµ 1X Xi = E(Xi ) = µ= =µ. E(X̄ ) = E n n n n i=1 i=1 i=1 2. Estimateur convergent en probabilité : Cas : population infinie ou tirage non exhaustif : ! n n n 1X 1 X 1 X 2 nσ 2 V (X̄ ) = V Xi = 2 V (Xi ) = 2 σ = 2 n n n n i=1 i=1 i=1 2 σ → 0 ⇒ V (X̄ ) → 0 quand n → +∞. n Cas : population finie et tirage exhaustif (sans remise) et taux de sondage t = Nn > 5% : = V (X̄ ) = σ2 N − n n N −1 ⇒ V (X̄ ) → 0 quand n → +∞. I La moyenne x̄ observée sur l’échantillon est une estimation ponctuelle sans biais et convergent en probabilité de la moyenne µ de la population : µ b = x̄. 16 / 105 b=f Estimation ponctuelle de la proportion : p Soient A1 ; . . . ; Ai ; . . . ; An n événements indépendants de probabilité p. Pour estimer la proportion p de la population, on utilise la proportion f de réalisation des événements Ai dans l’échantillon : n 1X F = nAi n i=1 (nAi - réalisations de Ai ) 17 / 105 Estimation ponctuelle de la proportion. Démonstration 1. Estimateur sans biais : Estimation de la moyenne d’une loi de Bernoulli. Pn Y = i Xi ∼ B(n, p) Binomiale E(Y ) = np ⇒ V (Y ) = npq avec q = 1 − p q F ∼ N(p, pq ) n E(F ) = p et V (F ) = ⇒ (n grand : N ≥ 30) si n > 0.05N q F ∼ N(p, pq N−n ) (X1 ; . . . ; Xi ; . . . ; Xn ) i.i.d. Xi ∼ B(p) Bernoulli ∀i E(Xi ) = p et V (Xi ) = pq Pn 1 Y F = n = n i Xi E(F ) = n1 E(Y ) = p V (F ) = n12 V (Y ) = pq n E(F ) = p pq n n N−1 2. Estimateur convergent en probabilité : pq N − n pq −−−→ 0; Var (F ) = −−−→ 0. Var (F ) = n n→∞ n N − 1 n→∞ La proportion f observée sur l’échantillon est une estimation ponctuelle sans biais et convergent de probabilité de b = f. la proportion p de la population : p 18 / 105 Exemple 2.1.1 /Feuille 2/ Supposons qu’une entreprise compte 200 employés et que l’échantillon de 50 employés a été prélevé au hasard parmi les deux cents. Cat. salariale/mois Moins de 2 M. e [2 − 4[ 4 M. e et plus Total Nombre de salariés 18 20 12 50 1. Donner une estimation de la proportion de l’ensemble des employés dont le salaire mensuel est de 2 M. e et plus. 2. Quel est le taux de sondage ? 3. Déterminer la probabilité qu’au moins 30 employés de cet échantillon possèdent un salaire mensuel de 2 M. e et plus lorsque la population échantillonnée en contient 64%. 19 / 105 Exemple 2.1.1 - Solution : 32 b = f = 20+12 1. p 50 = 50 = 0.64 → 64%. 50 2. t = Nn = 200 = 0.25 > 0.05. 3. Soit F la v.a. proportion d’échantillon dans le cas de taux de sondage supérieur à 0.05 et proportion q q dela population pq n p = 64% connue. On a F ∼ N p, On cherche la probabilité P F ≥ P F ≥ 30 50 = 1−P F ≤ 30 50 30 50 N−n N−1 . =? 30/50 − p = 1 − π q q pq n N−n N−1 30/50 − 0.64 = 1 − π q q 0.64∗0.36 50 200−50 200−1 = 1 − π(−0.06781) = 1 − 1 + π(0.06781) = 0.52 → 52% 20 / 105 Estimation ponctuelle de la variance σ 2 (µ connue) Soit X1 ; X2 ; . . . ; Xn - n observations indépendantes de même loi de moyenne µ connue et de variance σ 2 - inconnue. I Estimation ponctuelle de la variance σ 2 , (µ connue) : n σ̂ 2 = s2 = 1X (xi − µ)2 n i=1 I Estimateur : S 2 = 1 Pn n i=1 (Xi − µ)2 Estimation ponctuelle de l’écart-type σ (µ connue) v u n u1 X σ̂ = s = t (xi − µ)2 n i=1 21 / 105 Estimation ponctuelle de la variance (µ connue). Démonstration 1. Estimateur sans biais : 2 E(S ) = E n n n 1 X 1 X 1 X 2 2 2 (Xi − µ) = E (Xi − µ) = V (Xi ) = σ n i=1 n i=1 n i=1 2. Estimateur convergent : 2 V (S ) = = V 1 n n n 2 1 1 X 1 X 2 2 4 2 V (Xi − µ) = (Xi − µ) = E (X − µ) − E (X − µ) 2 n i=1 n i=1 n 4 (µ4 − σ ) −−−−→ 0, n→∞ µk = E k (X − µ) . P La variance s2 = n1 ni=1 (xi − µ)2 observée sur l’échantillon est une estimation ponctuelle de la variance σ 2 de la population échantillonnée lorsque la moyenne µ de la population est connue. 22 / 105 Estimation ponctuelle de la variance σ 2 (µ inconnue) I Lorsque la moyenne µ est inconnue (cas le plus fréquent), pour estimer σ 2 , on pourrait utiliser naturellement P l’estimateur : S 2 = n1 ni=1 (Xi − X̄ )2 après avoir estimé µ. 2 Cependant, l’estimateur S 2 est biaisé : E(S 2 ) = n−1 n σ , on préfère alors utiliser l’estimateur : n S 02 = S 2 - variance empirique corrigée de l’échantillon n−1 1. Estimateur sans biais: n n n−1 2 n 02 S2 = E S2 = σ =σ 2 E(S ) = E n−1 n−1 n−1 n 2. Estimateur convergent : n n2 02 2 Var (S ) = V S = V (S 2 ) ≈ V (S 2 )→ 0. n−1 (n − 1)2 Estimation ponctuelle de la variance (µ inconnue) n σ̂ 2 = s02 = 1 X n (xi − x̄)2 = s2 n−1 n−1 i=1 23 / 105 Estimation ponctuelle de l’écart-type σ (µ inconnue) S0 = S q n n−1 - estimateur sans biais de σ. q n - estimation ponctuelle de l’écart-type σ σ̂ = s0 = s n−1 de la population. Pour la distribution de la moyenne de l’échantillon, lorsqu’on ne connaît pas l’écart-type σ de la population mère, on le remplace par s0 : Si on ne connaît pas σ on le remplace par s0 : σ s0 √ =√ où s0 = s n n donc r n n 1X et s2 = (xi − x̄)2 , n−1 n i=1 σ s0 s √ =√ =√ n n n−1 24 / 105 Exemple 2.1.2 /Feuille 2/ Les prix d’un article en 5 différents marchés d’une région donnée sont : i xi 1 75 2 82 3 83 4 78 5 80 Calculer les estimations ponctuelles de la moyenne µ et de l’écart-type σ de la population. Solution : Effectif de l’échantillon n = 5 ; µ et σ inconnus : P Moyenne : µ̂ = x̄ = 15 5i=1 xi = 398 = 79.6 q5Pn q 2 n i=1 (x−x̄) Ecart-type : σ̂ = s0 = s n−1 = n−1 q P5 q Pn 2 q 2 2 2 31722−5∗6336.16 i=1 xi −nx̄ i=1 xi −5x̄ = = = n−1 4 4 = 3.209361 ≈ 3.21 25 / 105 Exemple 2.1.3 /Feuille 2/ La table de distributions des salaires en e de 100 employés d’une entreprise est donnée ci-dessous : Classe 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 Centre de la classe xi∗ 450 550 650 750 850 Effectif ni 11 30 39 18 2 Calculer les estimations ponctuelles de la moyenne et de l’écart-type. 26 / 105 Exemple 2.1.3 - Solution Comme les données sont groupées en classes, on utilise les expressions pour D.G.1. On ajoute encore deux colonnes et une ligne à la table : Classe 400 - 500 500 - 600 600 - 700 700 - 800 800 - 900 Totale Centre de la classe xi∗ 450 550 650 750 850 Effectif ni 11 30 39 18 2 100 ni xi∗ 4950 16500 25350 13500 1700 62000 ni xi∗2 2227500 9075000 16477500 10125000 1445000 39350000 Moyenne : P 1 P5 62000 ∗ µ̂ = x̄ = n1 ki=1 ni xi∗ = 100 i=1 ni xi = 100 = 620 e. Ecart-type : r q Pk q ∗2 n 39350000−38440000 i=1 ni xi −nx̄ σ̂ = s n−1 = = = 95.87 e. n−1 99 27 / 105 Estimation ponctuelle. Synthèse Population mère P de taille N et de paramètres inconnus : moyenne µ, proportion p et variance σ 2 Echantillon E de taille n et de caractères observés : moyenne x̄, fréquence f et variance s2 Estimations ponctuelles de µ, p et σ 2 : n k 1X 1X xi = ni xi - moyenne de E µ b = x̄, x̄ = n n i=1 i=1 n µ connue σ b2 = s2 , s2 = 1X (xi − µ)2 - variance de E n i=1 µ inconnue σ b2 = s02 = n s2 , n−1 n s2 = 1X (xi − x̄)2 n i=1 02 s - variance empirique corrigée de E b = f, p fA = nA - fréquence de E n 28 / 105 Exercices 8. Dans une ville comportant 20 000 salariés, un institut fait un sondage portant sur 100 salariés et trouve comme moyenne des salaires mensuels 7 100 e avec un écart-type de 700 e. Cet institut désire estimer la moyenne et l’écart-type de l’ensemble des salariés. Solution De l’énoncé on a : Population P de taille N = 20000 salariés ; Echantillon E de taille n = 100 salariés avec moyenne de l’échantillon x̄ = 7100 e et écart-type empirique s = 700 e. µ̂ = x̄ = 7100 e q q √ √ n 2 s2 = 100 σ̂ = σ̂ 2 = s02 = n−1 99 700 = 703.5 salariés. 29 / 105 9. Pour connaître le nombre de garages qu’il fallait construire dans un immeuble afin que les locataires puissent y garer leurs voitures, une enquête avait été faite : sur 100 ménages consultés, 40 avaient une voiture (on suppose, pour simplifier, une seule voiture par ménage). Estimer la proportion p de manages qui avaient une voiture. Solution De l’énoncé on a : Echantillon de taille n = 100 ménages, dont ns = 40 ont une voiture. p̂ = f = ns n = 40/100 = 0.4. 29 / 105 10. On a effectué cinq mesures du diamètre d’une sphère qui ont respectivement donné 6.33 ; 6.37 ; 6.36 ; 6.32 et 6.37 cm. Déterminer des estimateurs sans biais et efficaces a) de la moyenne vraie, b) de la variance vraie. Solution a) Un estimateur sans biais et efficace de la moyenne vraie (c’est-à-dire de la moyenne de la population) est donné par P5 xi 6.33 + 6.37 + 6.36 + 6.32 + 6.37 = 6.35 x̄ = i=1 = n 5 b) Un estimateur sans biais et efficace de la variance vraie est donné par σ̄ 2 = = = n n−1 s 02 P5 = i=1 (xi − x̄)2 n−1 (6.33 − 6.35)2 + (6.37 − 6.35)2 + (6.36 − 6.35)2 + (6.32 − 6.35)2 + (6.37 − 6.35)2 5−1 0.00055cm 2 29 / 105 Exemple 2.0.1 - Convergence de la moyenne empirique vers la moyenne théorique X = ”face obtenue en lançant le dé” Répartitions obtenues en relançant le dé 100 fois puis 1000 fois : Faces xi Probabilités pi Proportions (100 valeurs) fi Proportions (1000 valeurs) fi 1 1/6 0.16 0.175 2 1/6 0.12 0.162 3 1/6 0.16 0.154 4 1/6 0.14 0.164 5 1/6 0.21 0.162 6 1/6 0.21 0.183 Moyennes : • Moyenne théorique : µ = 6 X pi xi = 3, 5 i=1 • Moyenne observée : x̄ = 6 X fi xi i=1 sur les 100 valeurs : x̄100 = 3, 75 sur les 1000 valeurs : x̄1000 = 3, 525 30 / 105 Exemple 2.0.1 - suite µ = 3, 5 x̄100 = 3, 75 x̄1000 = 3, 525 La proximité entre la moyenne théorique (3.5) et les moyennes observées (3.75 et 3.525) est due à la convergence des proportions observées fi vers les probabilités pi . Plus les effectifs sont importants, plus ces proportions sont proches des probabilités, et plus la moyenne observée est proche de la moyenne théorique (au sens de la convergence en probabilité). 31 / 105 Exemple 2.0.1- Convergence de la variance empirique vers la variance théorique 2 • Variance théorique : σ = 6 X pi xi2 − µ2 = 2, 917 i=1 2 • Variance observée (empirique) : s = 6 X fi xi2 − x̄ 2 i=1 2 s100 = 3, 0008 2 s1000 = 3, 045. 2 2 s100 est plus proche de la variance théorique σ 2 que s1000 Il est fondamental de fiabiliser l’estimation en assurant un degré de confiance - d’une part et en évaluant la marge d’erreur - d’autre part. Ceci est objet de l’estimation par intervalle de confiance. 32 / 105 2.2 Estimation par intervalle de confiance θb ∈ [θb1 , θb2 ] I On se donne à l’avance un petit nombre α - le seuil des probabilités significatives ou simplement le seuil I On cherche 2 statistiques Λ1 = f (X1 , . . . , Xn ) et Λ2 = f (X1 , . . . , Xn ) telles que l’on ait P(Λ1 ≤ θ ≤ Λ2 ) ≥ 1 − α =⇒ Il y a une probabilité forte (supérieure ou égale à 1 − α) pour que l’intervalle aléatoire [Λ1 , Λ2 ] contient le nombre inconnu θ. I A la suite de prélèvement de l’échantillon Λ1 prend la valeur θb1 et Λ2 la valeur θb2 . L’intervalle I.C.α = [θb1 , θb2 ] est un intervalle de confiance pour θ de seuil α ou de niveau de confiance 1 − α 33 / 105 Obtention d’un intervalle de confiance Soient Y = f (X1 , . . . , Xn ) et Z = g(X1 , . . . , Xn ) 2 statistiques, telles que la v.a. T = Y Z−θ obéisse à la loi normale centrée réduite ou à la loi de Studnet. On cherche dans les tables un nombre t α2 tel que : P(|T | > t α2 ) ≤ α c’est-à-dire encore P(|T | ≤ t α2 ) ≥ 1 − α Y −θ On aura donc P ≤ t α2 ≥ 1 − α Z ce qui s’écrit encore P(Y − t α2 Z ≤ θ ≤ Y + t α2 Z ) ≥ 1 − α. L’intervalle [Y − t α2 Z , Y + t α2 Z ] est, pour θ un intervalle de confiance de seuil α. 34 / 105 Choix du fractile t α2 I Pour un intervalle bilatérale : on choisie dans la table le fractile t α2 qui vérifie l’égalité P(|T | > t α2 ) = α, qui est équivalent aux P(T > t 0α ) = 2 α α et P(T < t 00α ) = 2 2 2 I pour un intervalle unilatéral à droite : P(T > tα ) = α; I pour un intervalle unilatéral à gauche : P(T < tα ) = α. I Si on diminue α, c’est-à-dire augmente la confiance, on augmente t α2 et, par suite augmente l’intervalle de confiance (plus un intervalle est grand, plus on peut avoir confiance en lui) 35 / 105 Valeurs critiques tα et t α2 de z pour des intervalles uni et bilatéraux de la distribution normale centrée réduite à des seuils différents Niveau de signification α 0,10 0,05 0,01 0,005 0,002 Niveau de confiance 1 − α 0,90 0,95 0,99 0,995 0,998 Valeurs critiques tα de z pour les intervalles unilatéraux -1,28 ou 1,28 -1,645 ou 1,645 -2,33 ou 2,33 -2,576 ou 2,576 -2,88 ou 2,88 Valeurs critiques t α2 de z pour les intervalles bilatéraux -1,645 et 1,645 -1,96 et 1,96 -2,576 et 2,576 -2,81 et 2,81 -3,09 et 3,09 36 / 105 2.2.1 Intervalle de confiance de la moyenne µ (σ 2 connue) I Conditions d’application : Population distribuée normalement ou fortement symétrique et n ≥ 30 ; variance de la population σ 2 connue I Distribution d’échantillonnage : X̄ ∼ N(µ, √σ ) , de n moyenne E(X̄ ) = µ et de variance connue sX̄2 = I Statistique de test : X̄ −µ √ σ/ n σ2 n . → N(0, 1) I On peut alors écrire : P −t α ≤ 2 X̄ −µ √ σ/ n ≤ t α2 = 1 − α. On détermine les fractiles t α2 de la loi N(0, 1) : X̄ −µ X̄ −µ √ ≤ tα = P √ α P −t α2 ≤ σ/ =1−α ≤ t n σ/ n 2 2 α 0,1 0,05 0,01 1−α 0,9 0,95 0,99 t α2 1,645 1,960 2,576 tα 1,2816 1,645 2,3263 37 / 105 Intervalle de confiance de la moyenne µ (σ 2 connue) suite I On en déduit l’intervalle de confiance de niveau (1 − α) de σ σ µ: x̄ − t α2 √ < µ < x̄ + t α2 √ n n I Marge d’erreur dans l’estimation de µ : E = t α √σ . n 2 I L’intervalle [x̄ − t α √σ ; x̄ + t α √σ ] est ”bilatéral symétrique” n n 2 2 de niveau 1 − α de la moyenne µ centré en x̄. Intervalle de confiance est l’intervalle de valeurs tel que l’on a une probabilité de (1 − α) (fixée à l’avance) d’avoir la moyenne µ comprise entre les 2 bornes x̄ −t α2 √σn et x̄ + t α2 √σn : σ σ P(x̄ − t α2 √ < µ < x̄ + t α2 √ ) = 1 − α n n Ceci n’est strictement valable que si la population est distribuée normalement ou si n ≥ 30. 38 / 105 Intervalle de confiance de la moyenne µ (σ 2 inconnue) I Conditions d’application : Population distribuée normalement de variance σ 2 inconnue Population supposée fortement asymétrique ou contenir des valeurs aberrantes - un échantillon de taille (n ≥ 50) est recommandé. I Estimation ponctuelle de la variance σ 2 1 Estimateur sans biais de σ 2 : S 02 = n−1 P n 2 1 Estimation : s02 = n−1 i=1 (xi − x̄) Pn i=1 Xi − X̄ 2 I Distribution d’échantillonnage : X̄ ∼ Tn−1 de moyenne 02 E(X̄ ) = µ et de variance estimée Var (X̄ ) = sn . √ → Tn−1 d.d.l. I Statistique de test : X̄0 −µ S/ n I Fractiles tSt α de la loi de Student à n − 1 d.d.l. : 2 P −tSt α2 X̄ − µ ≤ 0 √ ≤ tSt α2 s/ n =P X̄ − µ √ ≤ tSt α n s0 / n =1−α 39 / 105 Intervalle de confiance de la moyenne µ (σ 2 inconnue) - suite I Intervalle de confiance de niveau (1 − α) de µ : s0 s0 x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √ n n 0 I Marge d’erreur dans l’estimation de µ : E = tSt α √s . n 2 h i 0 0 L’intervalle x̄ − tSt α2 √s n ; x̄ + tSt α2 √s n est ”bilatéral symétrique” de niveau 1 − α de la moyenne µ centré en x̄. Population distribuée normalement et σ inconnu Intervalle de confiance de probabilité (1 − α) (fixée à l’avance) d’avoir la moyenne µ comprise entre les 2 0 0 bornes x̄ − tSt α2 √s n et x̄ + tSt α2 √s n lorsque la variance σ 2 est inconnue : s0 s0 P(x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √ ) = 1 − α n n 40 / 105 Intervalle de confiance de la moyenne µ (σ inconnue). Conseils pratiques Population distribuée normalement, σ inconnu : on se réfère à la loi de Student. s0 s0 x̄ − tSt α2 √ ≤ µ ≤ x̄ + tSt α2 √ n n Approximation : grande taille de l’échantillon (n ≥ 30) : on peut remplacer la valeur du fractile tSt α2 de Student à (n − 1) d.d.l. par celle du fractile t α2 de la loi normale centrée-réduite N(0, 1). On en déduit l’intervalle de confiance de niveau (1 − α) de µ : s0 s0 x̄ − t α2 √ ≤ µ ≤ x̄ + t α2 √ . n n 41 / 105 Exemple 2.2.1 /Feuille 2/ 1. Soit X la v.a. «durée de vie d’une marque de tubes cathodiques». On ne connaît pas la moyenne des durées de vie des tubes bien que l’on sache qu’elles sont distribuées normalement. L’écart-type de la distribution des durées de vie σ = 450. Dans un échantillon de 55 tubes on a calculé que la durée de vie moyenne était de 9 500 heures. Déterminer l’intervalle de confiance à 90 % de la durée de vie moyenne de la population des tubes. 42 / 105 Exemple 2.2.1 - 1 Solution Les données : Population P : X ∼ N(µ, 450) ; σ connue ; Échantillon : E : n = 55 ; x̄ = 9500. ; Intervalle de confiance de la moyenne de seuil α = 0.1 I Conditions d’application : population normale et σ connue √ → N(0, 1) I Statistique de test : X̄ −µ σ/ n I Fractiles t α déterminés de la loi N(0, 1) : t α = 1.645 2 2 X̄ −µ X̄ −µ √ √ α α α P −t 2 ≤ σ/ n ≤ t 2 = P σ/ n ≤ t 2 = 1 − α = 0.90 I Intervalle de confiance de niveau (1 − α) = 0.90 de µ : σ σ x̄ − t α2 √ ; x̄ + t α2 √ n n I Marge d’erreur dans l’estimation de µ : σ 450 E = t α2 √ = 1, 645∗ √ = 1, 645∗60, 678 = 99, 82 heures. n 55 L’intervalle de confiance de la moyenne à 90 % est : [9500 − 99, 82; 9500 + 99, 82] = [9400.18; 9599.81] 43 / 105 Exemple 2.2.1 - 1 Remarque Dans ce cas, même si la population n’était pas distribuée normalement, on aurait trouvé le même intervalle de confiance à 90 % en vertu du théorème central limite qui nous assure que, pour n ≥ 30 (ici n = 55), la distribution d’échantillonnage de la moyenne peut être supposée normale même si la population ne l’est pas. σ E = t α2 √ n = CONFIDENCE(0.1; 450; 55) = 99.8064 = Intervalle.confiance(0.1; 450; 55) = 99.8064 44 / 105 Exemple 2.2.1 - 2 Énoncé Reprenons le même exemple, mais cette fois l’échantillon est de taille n = 25. Déterminons l’intervalle de confiance à 99 % de la durée de vie moyenne des tubes, sachant que x̄ = 9500 heures. X ∼ N(µ, 450); n = 25, X̄ = 9500, 1 − α → 99% 45 / 105 Exemple 2.2.1 - 2 Solution Les données : P : X ∼ N(µ, 450) σ connue ; E : n = 25 ; x̄ = 9500. ; 1 − α = 0.99 I Conditions d’application : population normale et σ connu √ → N(0, 1) I Statistique de test : X̄ −µ σ/ n I Détermination des fractiles t α de la loi N(0, 1) : t α = 2.576 2 2 X̄ −µ X̄ −µ √ ≤ tα = P √ α P −t α2 ≤ σ/ ≤ t = 1 − α = 0.99 n σ/ n 2 2 I Intervalle de confiance de niveau (1 − α) = 0.99 de µ : σ σ [x̄ − t α2 √ ; x̄ + t α2 √ ] n n I Marge d’erreur dans l’estimation de µ : σ 450 E = t α2 √ = 2, 576 ∗ √ = 2.576 ∗ 90 = 231, 84 heures. n 25 L’intervalle de confiance à 99 % est : [9500 − 231, 84; 9500 + 231, 84] = [9268, 16; 9731, 84] 46 / 105 Exemple 2.2.1 - 3 Énoncé Supposons que la population soit distribuée normalement, mais que σ ne soit pas connu. A partir d’un échantillon de taille n = 60, nous avons x̄ = 9450 et s = 446.234. Estimons à l’aide d’un intervalle de confiance à 95 % la moyenne de la population. X ∼ N(µ, σ); n = 60, X̄ = 9450, s = 446.234, 1 − α = 95% 47 / 105 Exemple 2.2.1 - 3 Solution Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 60 ; x̄ = 9450, s = 446.234 ; 1 − α = 0.95 I Conditions d’application : population normale, σ inconnue, n = 60 > 30, approximation de la loi de Student par la loi normale √ → Tn−1 −−−−−−→ N(0, 1) I Statistique de test : X̄0 −µ S/ n n=60>30 I Détermination des fractiles t α de la loi N(0, 1) : t α = 1.96 2 2 X̄ −µ X̄ −µ √ √ α α α P −t 2 ≤ s0 / n ≤ t 2 = P s0 / n ≤ t 2 = 1 − α = 0.95 I Intervalle de confiance de niveau (1 − 0α) = 0.95 de µ : s0 s x̄ − t α2 √ ; x̄ + t α2 √ n q n q 450 n s0 √ = 446, 234 60 = 450 =√ = 58, 094 s0 = s n−1 59 n 60 0 I Marge d’erreur dans l’estimation de µ : E = t α √s n 2 E = 1, 96 ∗ 58, 094 = 113, 86 heures. L’intervalle de confiance de niveau 0,95 est : [9450 − 113, 86; 9450 + 113, 86] = [9336, 13; 9563, 86] 48 / 105 Exemple 2.2.1 - 4 Énoncé Supposons que la distribution soit normale, que σ ne soit pas connu, et que l’écart type s d’un échantillon de taille n = 25 soit égal à 440,908, x̄ étant égale à 9 500. Déterminons l’intervalle de confiance à 99 % et comparons le à celui de l’exemple 2.2.1 - 2. X ∼ N(µ, σ); n = 25, x̄ = 9500, s = 440.908, 1 − α = 99% 49 / 105 Exemple 2.2.1 - 4 Solution Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 25 ; x̄ = 9500, s = 440, 908 ; 1 − α = 0.99 I Conditions d’application : n = 25 < 30, σ inconnu I Statistique de test : X̄ −µ √ S0 / n → Tn−1 d.d.l. I Détermination des fractiles tSt α de la loi de Student à n − 1 2 d.d.l. : X̄ −µ √ ≤ tSt α = P √ α ≤ t =1−α= P −tSt α2 ≤ sX̄0 /−µ St 2 n s0 / n 2 0.99 nombre de d.l. = n − 1 = 25 − 1 = 24 ⇒ tSt α2 = 2.797 le risque accepté = α = 1 − 0.99 = 0.01 I Intervalle de confiance de niveau (1 − α) = 0.99 de µ : s0 = s q n n−1 s0 s0 [x̄ − t α2 √ ; x̄ + t α2 √ ] n n q s0 √ = 440.908 25 24 = 450 ; n = 450 √ 25 = 90 50 / 105 Exemple 2.2.1 - 4 suite 0 I Marge d’erreur dans l’estimation de µ : E = tSt α √s n 2 = 2, 797 ∗ 90 = 251, 73 heures. L’intervalle de confiance à 99 % est : [9500 − 2, 797 × 90; 9500 + 2, 797 × 90] = [9248, 27; 9751, 73] Cet intervalle de confiance est plus étendu que celui de l’exemple 2.2.1 - 2 (à conditions à peu près identiques, à l’utilisation de la loi de Student près), Ceci s’explique par l’aléa plus important dû à l’estimation de l’écart type de la population sur un échantillon de petite taille. A cause de manque d’information (σ inconnue), pour garder le risque, on élargit l’intervalle. 51 / 105 Exercice 13. Supposons que les poids de 100 étudiants de l’université X représentent un échantillon aléatoire des poids des étudiants de cette université de moyenne x̄ = 67.45 kg et variance s2 = 8.5275. a) Déterminer des estimateurs non biaisés et efficaces a.i) de la moyenne vraie, a.ii) de la variance vraie. b) Déterminer un intervalle de confiance b.i) à 95 %, b.ii) à 99 % pour estimer le poids moyen des étudiants de l’université X 52 / 105 Solution Population énorme. Echantillon : n = 100, x̄ = 67.45 kg, s2 = 8.5275. a.i) L’estimateur sans biais et efficace de la moyenne de la population est la moyenne de l’échantillon. Alors µ̂ = x̄ = 67.45 kg. a,ii) L’estimateur sans biais et efficace de la variance vraie est la variance empirique corrigée de l’échantillon n s2 = 100 σ̂ 2 = s02 = n−1 99 8.5275 = 8.6136. 52 / 105 bi.) Intervalle de confiance à 95 % de la moyenne de la population Les données : X ∼ N(µ, σ), σ inconnu ; E : n = 100 ; x̄ = 67.45, s2 = 8.5275 ; 1 − α = 0.95 I Conditions d’application : σ inconnue, n = 100 > 30, approximation de la loi de Student par la loi normale I Statistique de test : X̄ −µ √ S0 / n −−−−−−→ N(0, 1) → Tn−1 − n=100>30 I Détermination des fractiles t α de la loi N(0, 1) : t α = 1.96 2 2 X̄ −µ √ ≤ tα = P √ α P −t α2 ≤ sX̄0 /−µ ≤ t = 1 − α = 0.95 n s0 / n 2 2 I Intervalle de confiance de niveau (1 − α) = 0.95 de µ : s0 s0 x̄ − t α2 √ ; x̄ + t α2 √ n n q q 0 n s0 = s n−1 = 100∗8.5275 = 2.93; √s n = √2.93 = 0.293 99 100 0 I Marge d’erreur dans l’estimation de µ : E = t α √s n 2 E = 1, 96 ∗ 0.293 = 0.57 kg. 52 / 105 √ Les limites de √ sont X̄ ± 1, 96σ/ n = √ confiance à 950 % X̄ ± 1, 96σ̂/ n = X̄ ± 1, 96s / n = 67, 45 ± 0, 57 kg. Ainsi l’intervalle de confiance à 95 % de la moyenne de la population µ est (66,88 - 68,02), c’est-à-dire que 66, 88 < µ < 68, 02. L’intervalle de confiance signifie, que la probabilité de voir varier la moyenne µ entre 66,88 et 68,02 kg est égale à 0,95 : P(66, 88 < µ < 68, 02) = 0, 95, ce qui revient à dire qu’on a une assurance de 95 % que la moyenne de la population (la moyenne vraie) varie entre 66,8 et 68,02 kg. √ n= (b.ii) Les limites de confiance à 99 % sont X̄ ± 2, 58σ̂/ √ √ X̄ ± 2, 58s0 / n = 67, 45 ± 2, 58(2, 93/ 100) = 67, 45 ± 0, 76 kg. Ainsi l’intervalle de confiance à 99 % de la moyenne de la population µ = (66, 69 − 68, 21), ce que l’on peut encore écrire 66, 69 < µ < 68, 21. On voit qu’avec la diminution du risk de 0.05 à 0.01, on élargie intervalle. 52 / 105 Exercice 14. Une firme a 2342 employés. Pour faire une évaluation rapide du nombre total a des enfants de tous ces employés, on fait un sondage au cours duquel on interroge 150 employés et on obtient les résultats suivants, en notant ni le nombre des employés interrogés ayant xi = i, i = 0, 1, 2, . . . enfants : xi 0 1 2 3 ni 78 48 19 5 a) Donner une estimation de a. b) Donner pour a un intervalle de confiance de seuil 0,05. Aide : a = N ∗ µ = 2342 ∗ µ Rep. a ≈ 1577 ; I.C.95% (a) = [1267 : 1884] 53 / 105 53 / 105 53 / 105 53 / 105 2.2.2 Intervalle de confiance de p (n ≥ 30) I Distribution d’échantillonnage de la proportion : n F = 1X Xi ; n i (X1 ; . . . ; Xi ; . . . ; Xn ) - i.i.d. ; Xi ∼ B(p), n X Xi ∼ B(n, p) i=1 I n ≥ 30 : distribution d’échantillonnage F ∼ N(p, moyenne E(F ) = p et de variance Var (F ) = ) f (1−f ) par f (1−f n−1 ou en convergence par n . I Statistique de test : qF −p f (1−f ) n pq n q pq n ) de estimée → N(0; 1) ! I On peut alors écrire : P −t α2 ≤ qF −p f (1−f ) n ≤ t α2 =1−α 54 / 105 Intervalle de confiance de p (n ≥ 30) - suite I On en déduit l’intervalle convergent de confiance de niveau (1 − α) de p : r r f (1 − f ) f (1 − f ) f − t α2 ≤ p ≤ f + t α2 n nq ) I Marge d’erreur dans l’estimation de p : E = t α f (1−f n . 2 I Intervalle "bilatéral symétrique" de niveau 1 − α de la proportion p centré en f . Si n > 30, np > 5, nq > 5 l’approximation de la loi Binomiale par la loi Normale est valable. Au seuil de probabilité de (1 − α), l’intervalle convergent de confiance de p est : " # r r f (1 − f ) f (1 − f ) f − t α2 ; f + t α2 n n 55 / 105 Exemple 2.2.2 /Feuille 2/ Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Ils veulent déterminer l’intervalle de confiance à 95 % de la proportion des femmes de cette ville qui préfèrent la marque de lessive A. Solution : Les données : E : n = 500 > 30 ; f = 0, 35 ; 1 − α = 0.95 ; p =? ; I Conditions d’application : n = 500 > 30, approximation de la loi binomiale par la loi normale I Statistique de test : qF −p → N(0, 1) f (1−f ) n 56 / 105 Exemple 2.2.2 - suite On détermine les fractiles t α2 de la loi normale centrée réduite : ! ! P −t α2 ≤ qF −p f (1−f ) n ≤ t α2 =P qF −p f (1−f ) n ≤ t α2 = 1 − α = 0.95 t α2 = 1, 96 I Intervalle de confiance de niveau (1 − α) = 0.95 de p : # " r r f (1 − f ) f (1 − f ) ; f + t α2 f − t α2 n n q q f (1−f ) = 0,35×0,65 = 0, 02133; n 500 q ) I Marge d’erreur dans l’estimation de p : E = t α f (1−f = n 2 = 1, 96 ∗ 0, 02133 = 0, 041809 femmes. L’intervalle de confiance à 95 % est : [0, 35−1, 96×0.02133; 0, 35+1, 96×0.02133] = [0.3082; 0.3918] Il y a donc entre 30.82% et 39.18% des femmes de cette ville qui préfèrent la marque de lessive A (avec un risque de 5% de 57 / 105 Exercice 21. Le directeur financier d’une société sait par expérience que 12 % des factures émises ne sont pas réglées dans les 10 jours ouvrables suivant l’échéance. Le chiffre d’affaires s’étant accru sensiblement, il veut vérifier si la situation a évolué. Il fait prélever un échantillon aléatoire de 500 factures à partir duquel il constate que 14 % des factures ne sont pas réglées dans les délais. Déterminer l’intervalle de confiance à 95 % et commenter ce résultat sachant que l’ensemble des factures pouvant être étudiées est de plusieurs dizaines de milliers. 58 / 105 58 / 105 2.2.3 Précision - Taille d’échantillon - Risque d’erreur 1. La marge d’erreur E = t α2 sθ ou niveau de précision recherché dans l’estimation par intervalle de confiance, lorsqu’on utilise l’estimation θ̄ de l’échantillon pour estimer la vraie valeur θ de la population, est l’écart (en valeur absolue), noté E = |θ̄ − θ|. 2 En pratique, on peut fixer la marge d’erreur qu’on ne veut pas excéder et déterminer la taille minimale n de l’échantillon requise. 3 On peut déduire le risque d’erreur α ou le niveau de confiance attribué à une estimation par intervalle. 59 / 105 Précision - Taille d’échantillon - Risque d’erreur Paramètre Marge d’erreur Moyenne µ (σ 2 connue) E = tα Moyenne µ (σ 2 inconnue) E = tSt α Proportion p σ √ n n = tα s0 √ n 2 n = tSt α 2 E = tα 2 Taille d’échantillon q f (1−f ) n 2 σ E t α 2 E √ 2 s0 2 E n= Risque d’erreur n E σ tα = 2 2 tSt α = 2 2 f (1 − f ) tα = 2 q √ n E s0 n E f (1−f ) 60 / 105 Exemple 2.2.3 /Feuille 2/ Les responsables d’une étude de marché ont choisi au hasard 500 femmes dans une grande ville et ont constaté que 35 % des femmes retenues dans l’échantillon préfèrent utiliser une marque de lessive A plutôt que les autres. Supposons qu’avant de tirer l’échantillon, les responsables de l’étude aient décidé d’estimer la proportion p à ±2% près. Quelle devrait être dans ce cas la taille minimale de l’échantillon à tirer, en désirant toujours avoir un intervalle de confiance à 95 % et en considérant que f = 0, 35. Données : E : n = 500q> 30; f = 0, 35; 1 − α = 0, 95 n = ? ainsi que E = t αn f (1−f ) n = 0.02 61 / 105 Exemple 2.2.3 - Solution Données : E : n = 500q> 30; f = 0, 35; 1 − α = 0, 95 n = ? ainsi que E = t αn f (1−f ) n = 0.02 Marge q d’erreur dans l’estimation de p (n = 500) : E = t α2 f (1−f ) n = 0, 041846 femmes. n et E sont en rapport réciproque =⇒ pour diminuer la marge d’erreur on doit augmenter la taille de l’échantillon. =⇒ la statistique du test et les conditions d’application restent inchangées. Pour avoir la proportion à 2 % près, il faut que : r 0, 35 × 0, 65 0, 35 × 0, 65 1, 96 = 0, 02 ⇒ (1, 96)2 = (0, 02)2 n n (1, 96)2 × 0, 35 × 0, 65 ⇒n= = 2184, 91= 2185. (0, 02)2 62 / 105 18. Un échantillon de 100 votants choisis au hasard parmi tous les votants d’une circonscription donnée a montré que 55 % d’entre eux étaient favorables à un certain candidat. Déterminer les limites de confiance à 95% de la proportion de tous les votants favorables à ce candidat. Solution Les données : E : n = 100 > 30 ; f = 0, 55 ; 1 − α = 0.95 ; I.C.0.95 (p) =? ; I Conditions d’application : n = 100 > 30, approximation de la loi binomiale par la loi normale I Statistique de test : qF −p → N(0, 1) f (1−f ) n 63 / 105 On détermine les fractiles t α2 de la loi normale centrée réduite : ! ! P −t α2 ≤ qF −p f (1−f ) n ≤ t α2 =P qF −p f (1−f ) n ≤ t α2 = 1 − α = 0.95 t α2 = 1, 96 I Intervalle de confiance de niveau (1 − α) = 0.95 de p : # " r r f (1 − f ) f (1 − f ) ; f + t α2 f − t α2 n n q q f (1−f ) 0,55×0,45 = = 0, 0497; n 100 q ) I Marge d’erreur dans l’estimation de p : E = t α f (1−f = n 2 = 1, 96 ∗ 0, 0497 = 0, 1. L’intervalle de confiance à 95 % est : [0, 55 − 0.1; 0, 55 + 0.1] = [0.45; 0.65] Il y a donc entre 45% et 65% des votants favorables à ce candidat. (avec un risque de 5% de se tromper). 63 / 105 19. De quelle taille doit être l’échantillon de votants de l’exercice 18. si l’on veut être sur à 95% que le candidat sera élu ? Solution La proportion pest p̂ = f = 0.55. La marge d’erreur est E = f ± tα/2 f (1 − f )/n. Pour que le candidat soit élu, il faut avoir plus de 50 % des voix, il faut que la marge d’erreur E soit inférieure à 0.05. Pour être sûr à 95%, n= t α2 E 2 f (1 − f ) = 1.96 0.05 2 0.55 0.45 = 380.32 Il s’ensuit que n doit être au moins égal à 381. 63 / 105 2.2.4 Intervalle de confiance de σ 2 (µ connue) I Conditions d’application : Lorsque la moyenne µ est P connue, la variance S 2 = n1 ni=1 (Xi − µ)2 de l’échantillon, est un excellent estimateur de σ 2 2 P 2 I La statistique de test : ni=1 Xi σ−µ = n S2 → χ2n d.d.l. σ 2 I On peut alors écrire : P(k1 ≤ n S2 ≤ k2 ) = 1 − α. σ les fractiles de la loi khi-deux à n degrés de liberté k1 = χ2α 2 et k2 = χ21− α (cf. table du khi-deux) : 2 P(χ2n ≤ k1 ) = α 2 et P(χ2n ≤ k2 ) = 1 − α . 2 I On en déduit l’intervalle de confiance de niveau (1 − α) de σ2 : s2 s2 n ≤ σ2 ≤ n k2 k1 64 / 105 Intervalle de confiance de σ 2 (µ inconnue, X ∼ N(µ, σ)) I Lorsque la moyenne µ est inconnue, on estime σ 2 par n n 1 Pn 2 = SCE l’estimateur S 02 = n−1 S 2 = n−1 i=1 (Xi − X̄ ) n n−1 I La statistique de test : Pn Xi −X̄ 2 02 = (n − 1) Sσ2 → χ2(n−1) d.d.l. i=1 σ 02 I On peut alors écrire : P(k1 ≤ (n − 1) S 2 ≤ k2 ) = 1 − α. σ où, k1 = χ2α et k2 = χ21− α sont les fractiles de la loi 2 2 khi-deux à n − 1 degrés de liberté (cf. table du khi-deux). c’est-à-dire : P(χ2(n−1) ≤ k1 ) = α2 et P(χ2(n−1) ≤ k2 ) = 1 − α2 . I On en déduit l’intervalle de confiance de niveau (1 − α) de σ2 : s02 s02 (n − 1) ≤ σ 2 ≤ (n − 1) k2 k1 I Ou encore pour l’écart-type σ : s s 02 s s02 (n − 1) ≤ σ ≤ (n − 1) k2 k1 65 / 105 Exemple 2.2.4 /Feuille 2/ On suppose que le chiffre d’affaires mensuel d’une entreprise suit une loi normale de moyenne inconnue µ mais dont l’écart-type s a été estimé à 52 K.Euros. Sur les 16 derniers mois, la moyenne des chiffres d’affaires mensuels a été de 250 K.Euros. 1. Donner une estimation ponctuelle de l’écart-type σ du chiffre d’affaires mensuel de cette entreprise. 2. Établir un intervalle de confiance de niveau 95% de σ. 66 / 105 66 / 105 66 / 105 66 / 105 Intervalle de confiance de σ 2 (n > 100) I Lorsque la taille de l’échantillon n est grande n > 100, l’approximation est valable : √ χ2n ≈ N n; 2n n I Comme n−1 → 1, s0 ≈ s I On en déduit l’intervalle de confiance de niveau (1 − α) de σ2 : s2 s2 ≤ σ 2 ≤ s2 + t α2 s2 − t α2 2n 2n I Ou encore pour l’écart-type σ : s s s − t α2 √ ≤ σ ≤ s + t α2 √ 2n 2n 67 / 105 Exercice 22. On a calculé que l’écart-type des durées de vie d’un échantillon de 200 ampoules électriques valait 100 heures. a) Déterminer les limites de confiance à 95 % de l’écart-type de l’ensemble des ampoules de ce type. b) Déterminer les limites de confiance à 95 % de l’écart-type de l’ensemble des ampoules de ce type à la base d’un échantillon de 25 ampoules dont l’écart-type vaut 110 heures. 68 / 105 68 / 105 68 / 105 62. L’écart-type de la résistance de rupture de 110 câbles testés par une usine est de 180 kg. Calculer les limites de confiance à 95 % de l’écart-type de tous les câbles fabriqués par l’usine. Solution E : n = 110 > 100 ; s = 180 kg ; α = 0.05, µ inconnue √ Conditions d’application : χ2n ≈ N n; 2n n → 1, s0 ≈ s Comme n−1 L’intervalle de confiance de niveau (1 − α) de σ est : s s ≤ σ ≤ s + t α2 √ s − t α2 √ 2n 2n 180 180 180 − 1.96 √ ≤ σ ≤ 180 + 1.96 √ 2 ∗ 110 2 ∗ 110 180 − 23.79 ≤ σ ≤ 180 + 23.79 156.21 ≤ σ ≤ 203.79 68 / 105 2.3 Comparaisons I Il existe de nombreuses applications qui consistent, par exemple, à comparer deux groupes d’individus en regard d’un caractère particulier (poids, taille, rendement,...), ou comparer deux procédés de fabrication selon une caractéristique (résistance, diamètre, longueur,...), ou encore comparer les proportions d’apparition d’un caractère de deux populations (proportion de défectueux, proportion de gens favorisant un parti politique,...). I Les distributions d’échantillonnage qui sont alors utilisées pour effectuer ces comparaisons ’Tests d’hypothèses’ ou ’calcul d’intervalles de confiance’ sont celles correspondant aux fluctuations d’échantillonnage de la différence de 2 moyennes, de 2 proportions ou encore le rapport de 2 variances observées. 69 / 105 2.3.1 Estimation ponctuelle de la différence de 2 moyennes (2 proportions) • Deux populations de v.a.r : X ∼ N(µx , σx ) et Y ∼ N(µy , σy ). • Echantillons EX : x1 ; x2 ; . . . xn et Ey : y1 ; y2 ; . . . ; yp prélevés dans les deux populations distinctes de caractères : Ex : x̄, sx , fx ; Ey : ȳ , sy , fy 1. Estimation ponctuelle de la différence des moyennes (µx − µy ) : La différence des moyennes (x̄ − ȳ ) observée sur les échantillons est une estimation ponctuelle de la différence (µx − µy ) des moyennes des populations. 2. Estimation ponctuelle de la différence des fréquences (px − py ) : La différence des fréquences (fx − fy ) observée sur les échantillons est une estimation ponctuelle de la différence des proportions (px − py ) des populations. 70 / 105 2.3.2 Intervalle de confiance de la différence de 2 moyennes µx − µy . Variances σx2 et σy2 connues r I Distribution (X̄ − Ȳ ) → N µx − µy ; I Statistique de test : (X̄ −Ȳ )−(µx −µy ) r σ2 σx2 + py n σx2 n + σy2 p ! → N(0; 1) I Intervalle de confiance de niveau (1 − α) : s s σx2 σy2 σx2 σy2 (x̄ − ȳ ) − t α2 + ≤ µx − µy ≤ (x̄ − ȳ ) + t α2 + n p n p r 2 2 I Marge d’erreur : E = t α σnx + σpy 2 Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas différentes. Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes. 71 / 105 Exemple 2.3.1 /Feuille 2/ Le temps mis par une machine pour fabriquer une pièce est supposé suivre une loi normale de paramètres µ et σ 2 . Dans un atelier, deux machines A et B fabriquent la même pièce. Pour un échantillon de 9 pièces fabriquées, on a obtenu les résultats suivants : Nombre de pièces fabriquées Temps moyen observé (mn) Variances des populations Machine A 9 50 25 Machine B 9 45 36 1. Déterminer un intervalle de confiance, de niveau (1 − α) = 95%, de la différence des temps moyens des deux machines µa − µb . 2. Question : La machine A est-elle aussi performante que la machine B ? 72 / 105 Exemple 2.3.1 - Solution I Remarques : Petits échantillons nA = nB = 9 pièces mais le temps de fabrication est supposé normalement distribué. Les variances σA2 = 25 et σB2 = 36 sont connues. X̄ −X̄ −(µ −µ ) I Statistique de test : ( A rB )2 A2 B → N(0, 1). σ σ A+ B nA nB I Les données : nA = nB = n = 9. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1) Marge q d’erreur dans l’estimation de (µA − µB ) : q σA2 +σB2 25+36 E = t α2 = 1.96 = 5.10mn n 9 Estimation ponctuelle de la différence (µA − µB ) : x̄A − x̄B = 50 − 45 = 5mn. 73 / 105 Exemple 2.3.1 - Solution - suite I Intervalle de confiance de niveau 95% de (µA − µB ) : 5 − 5, 10 = −0.10 ≤ (µA − µB ) ≤ 5 + 5, 10 = 10, 10 (µA − µB ) ∈ [−0.10mn; 10, 10mn] I Conclusion : 0 ∈ I.C.95% , donc la différence de 5 mn observée sur les échantillons n’est pas significative (avec un risque d’erreur de 5%), on peut donc considérer que ces deux machines ont des performances identiques. I Réponse à la question : oui, la machine A est aussi performante que la machine B, l’écart observé de 5 mn n’est pas significatif, il est dû aux fluctuations d’échantillonnage. 74 / 105 Intervalle de confiance de la différence de 2 moyennes Variances σx2 et σy2 inconnues ; Grands échantillons : n ≥ 30 et p ≥ 30 Populations quelconques - pas forcément normales. r (Cas le!plus fréquent) I Distribution : (X̄ − Ȳ ) → N µx − µy ; I Statistique de test : (X̄ −Ȳ )−(µx −µy ) r s02 sx02 + py n r I Marge d’erreur : E = t α 2 sx02 n + sx02 n + sy02 p → N(0; 1) sy02 p I Intervalle de confiance de niveau (1 − α) : s s sx02 sy02 sx02 sy02 (x̄ − ȳ ) − t α2 + ≤ µx − µy ≤ (x̄ − ȳ ) + t α2 + n p n p Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas différentes. Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes. 75 / 105 Exemple 2.3.2 /Feuille 2/ On fait subir à des cadres intermédiaires de deux grandes entreprises (une œuvrant dans la fabrication d’équipement de transport et l’autre dans la fabrication de produits électriques) un test d’appréciation et d’évaluation. La compilation des résultats pour chaque groupe à l’issue de cette évaluation s’établit comme suit : Nombre de cadres Appréciation globale moyenne Somme des Carrés des Écarts /SCE/ 1 Équipement 34 184 15774 2 Produits Électriques 32 178 9858 1. Déterminer un intervalle de confiance qui a 95 chances sur 100 de contenir la valeur vraie de la différence des moyennes (µ1 − µ2 ) des deux groupes de cadres. 2. Question : Selon cet intervalle, que peut-on conclure quant à la performance des cadres de ces deux secteurs au test d’évaluation ? Est-ce qu’en moyenne, la performance est vraisemblablement identique ou semble-t-il une différence significative entre ces deux groupes ? 76 / 105 Exemple 2.3.2 - Solution I Remarques : Grands échantillons n1 = 34 et n2 = 32 indépendants. Les variances σ12 et σ22 sont inconnues. X̄ −X̄ −(µ −µ ) I Statistique de test : ( 1 r 2 )02 021 2 → N(0, 1). s I Les données : 1 n1 s + n2 2 n1 = 34 et n2 = 32. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. t α2 = t2.5% = ±1.96 cf. Table de la loi normale N(0, 1) Estimation des variances : s102 = s202 SCE2 n2 −1 SCE1 n1 −1 = 15774 33 = 478 et 9858 31 = = = 318. Marge q d’erreur dans l’estimation de (µ1 − µ2 ) : q s02 s02 318 E = t α2 n11 + n22 = 1.96 478 34 + 32 = 15.6 Estimation ponctuelle de la différence (µ1 − µ2 ) : x̄1 − x̄2 = 184 − 178 = 6. 77 / 105 Exemple 2.3.2 - Solution - suite I Intervalle de confiance de niveau 95% de (µ1 − µ2 ) : 6 − 9.6 = −3.6 ≤ (µ1 − µ2 ) ≤ 6 + 3.6 = 15.6 (µ1 − µ2 ) ∈ [−3.60, 15.60] I Conclusion : 0 ∈ I.C.95% , donc la différence de 6 points observée sur les appréciations moyennes n’est pas significative (avec un risque d’erreur de 5%), on peut donc considérer que deux groupes de cadres ont des appréciations globales identiques. I Réponse à la question : oui, en moyenne, la performance est identique entre ces deux groupes de cadres. L’écart observé de 6 points est attribuable aux fluctuations d’échantillonnage. 78 / 105 Intervalle de confiance de la différence de 2 moyennes Petits échantillons n (et/ou) p < 30. Populations normales. Variances inconnues mais supposées égales σx2 = σy2 = σ 2 . I Estimation des variances inconnues σx2 = σy2 = σ 2 par les variances impériques sx02 et sy02 calculées sur chacun des échantillons - peu précise. I Obtention d’une estimation unique s02 , de la variance σ 2 à la base de l’information des deux échantillons : nSx2 + pSy2 02 - un bon estimateur de σ 2 S = n+p−2 q I Distribution (X̄ − Ȳ ) → N µx − µy ; s0 n1 + p1 I Statistique de test : (X̄ −Ȳ )−(µx −µy ) q s0 n1 + p1 → T(n+p−2) d.d.l. I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) : s s 1 1 1 1 (x̄ − ȳ )−tSt α2 s0 + ≤ µx −µy ≤ (x̄ − ȳ )+tSt α2 s0 + n p n p 79 / 105 Cas particulier I Si n = p (échantillons indépendants de même taille), on a plus simplement : S 02 = I Statistique de test : n(Sx2 +Sy2 ) 2(n−1) = (X̄ −Ȳ )−(µx −µy ) q S 0 n2 SCEx +SCEy 2(n−1) → T2(n−1) d.d.l. I Limites de l’intervalle de confiance de (µx − µy ) : r 2 0 (x̄ − ȳ ) ± tSt α2 s n Si 0 ∈ I.C.α (µx − µy ) =⇒ les deux moyennes ne sont pas différentes. Si 0 6∈ I.C.α (µx − µy ) =⇒ les moyennes sont significativement différentes. 80 / 105 Intervalle de confiance de la différence de 2 moyennes Petits échantillons n = p < 30. Populations normales. Variances inconnues et différentes σx2 6= σy2 . L’estimation approximée suivante est valable q 2 0 I Distribution (X̄ − Ȳ ) → N µx − µy ; sn1 + I Statistique de test : (X̄ −Ȳ )−(µx −µy ) r s0 2 s0 2 1 + 2 n n s20 2 n → T(n+p−2)=2(n−1) d.d.l. I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) : s s 2 2 0 0 s1 s s10 2 s20 2 (x̄−ȳ )−tSt α2 + 2 ≤ µx −µy ≤ (x̄−ȳ )+tSt α2 + n n n n 81 / 105 Intervalle de confiance de la différence de 2 moyennes Petits échantillons n (et/ou) p < 30 et n 6= p. Populations normales. Variances inconnues et différentes σx2 6= σy2 . I n 6= p : L’estimation approximée suivante est valable ! r I Distribution (X̄ − Ȳ ) → N µx − µy ; I Statistique de test : 2 02 s1 s0 + 2p n I ν= 2 s0 2 1 n n−1 + s0 2 s0 2 1 + 2 n p + s20 2 p → Tν d.d.l. !2 2 s0 2 2 p (X̄ −Ȳ )−(µx −µy ) r s10 2 n - n’est pas un nombre entier, en p−1 général. On arrondit en valeur inférieure. I Intervalle de confiance de niveau (1 − α) pour (µx − µy ) : s s 2 2 0 0 s2 s1 s10 2 s20 2 α α + ≤ µx −µy ≤ (x̄−ȳ )+tSt 2 + (x̄−ȳ )−tSt 2 n p n p 82 / 105 Exemple 2.3.3 /Feuille 2/ Un laboratoire indépendant a effectué, pour le compte d’une revue sur la protection du consommateur, un essai de durée de vie sur un type d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur un échantillon de 21 lampes provenant de chaque fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée.(les variances des populations sont supposées égales). Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 1 21 1025 2400 Fabricant 2 21 1070 2800 1. Déterminer un intervalle de confiance de niveau 95% de la différence des durées de vie moyennes des ampoules de ces deux fabricants. 2. Question : Est-ce que la revue peut affirmer, qu’en moyenne, les durées de vie des ampoules des deux fabricants sont identiques (ou différentes) ? En d’autres termes, est-ce que la différence observée lors des essais est significative ? 83 / 105 Exemple 2.3.3 - Solution I Remarques : petits échantillons n1 = n2 = n = 21 indépendants. Les variances σ12 et σ22 sont inconnues mais supposées égales σ12 = σ22 = σ 2 . X̄ −X̄ −(µ −µ ) I Statistique de test : ( 1 2 )q 1 2 → T2(n−1)=40 d.d.l. . 2 s0 n I Les données : n1 = n2 = n = 21. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. tSt α2 = t2.5% = ±2.021 cf. Table de la loi de Student à 40 d.d.l. Estimation de la variance commune : nS 2 = SCE, 1 +SCE2 s02 = SCE = 2400+2800 = 11.402 . 2(n−1) 40 Marge d’erreur q dans l’estimationqde (µ1 − µ2 ) : 2 E = tSt α2 s0 n2 = 2.021 × 11.40 21 = 7.11 h Estimation ponctuelle de la différence (µ1 − µ2 ) : x̄1 − x̄2 = 1025 − 1070 = −45 h. 84 / 105 Exemple 2.3.3 - Solution - suite I Intervalle de confiance de niveau 95% de (µ1 − µ2 ) : −45 − 7, 11 = −52, 11 ≤ (µ1 − µ2 ) ≤ −45 + 7, 11 = −37, 89 (µ1 − µ2 ) ∈ [−52, 11; −37, 89 h] I Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 45 h observé sur les durées de vie moyennes est significatif (avec un risque d’erreur de 5%). Cet écart n’est donc pas attribuable aux fluctuations d’échantillonnage. I Réponse de la question : oui, la revue doit conclure, avec un risque d’erreur de 5%, que les durées de vie des ampoules de ces deux fabricants ne sont pas identiques. 85 / 105 Différence de 2 moyennes : Échantillons appariés Échantillons dépendants (Données associées par paires) Exemple 1 : On compare 2 méthodes de mesures en soumettant à ces méthodes les mêmes individus. Les 2 échantillons sont issus de deux lois différentes, mais ne sont pas indépendants (en général !). Exemple 2 : Lorsque nous avons, pour chaque élément de l’échantillon, deux valeurs obtenues à des périodes différentes (avant / après ) ou selon des traitements différents. • Les deux séries de mesures Xi et Yi ne sont pas indépendantes l’une de l’autre. Il serait incorrect de procéder à un test de comparaison de moyennes tel que décrit précédemment. • Les mesures Zi = (Xi − Yi ); i = 1, . . . , n - indépendantes 2 Z ∼ N(µz = µx − µy ; σz2 = σx−y ) les différences de chaque paire d’observations suivent des lois normales. 86 / 105 Différence de 2 moyennes : Échantillons appariés Échantillons dépendants (Données associées par paires) I On revient à un seul échantillon différence (z1 ; z2 ; . . . ; zn ). σz2 - généralement inconnue, on l’estime à partir : n S 02 = X 2 SCE 1 Zi − Z̄ = (n − 1) n−1 i=1 I Conditions d’application : estimation par intervalle de confiance d’une moyenne µz , la variance σz2 - inconnue : √z → Tn−1 d.d.l. I Statistique de test : Z̄0−µ S/ n I Intervalle de confiance de niveau (1 − α) I.C(1−α) de µz = (µx − µy ) : s0 s0 z̄ − tSt α2 √ ≤ µz ≤ z̄ + tSt α2 √ n n 0 ∈ I.C(1−α) =⇒ les deux moyennes ne sont pas différentes. 0 6∈ I.C(1−α) =⇒ les moyennes sont significativement différentes. 87 / 105 Exemple 2.3.4 /Feuille 2/ On mesure 12 pièces avec des méthodes différentes. On a obtenu les résultats suivants : x̄ = 1; ȳ = 2, 08; SCEx /somme des carrés des écarts/ = sx = 106, 16; SCEy = sy = 118, 19 SCEx−y = sx−y = 14, 58. Déterminer un intervalle de confiance de niveau 95% de la différence des deux méthodes de mesures. 88 / 105 Exemple 2.3.4 - Solution I Remarques : Échantillons appariés (dépendants). Conditions d’application : la mesure différence Z = X − Y est supposée normalement distribuée. Z̄ −µ I Statistique de test : ( 0 √z ) → Tn−1=11 d.d.l. . S/ n I Les données : n = 12 ⇒ ν = n − 1 = 11 d.d.l. z̄12 = x̄12 − ȳ12 = 1 − 2.08 = −1.08 : moyenne calculée sur l’échantillon différence de taille n = 12 (estimation ponctuelle de µz ) 02 s12 = SCEz=x−y 14.58 = = 1.3254 = 1.1512 n−1 11 Seuil de signification : α = 5%. tSt α2 = t2.5% = ±2.201 cf. Table de la loi de Student à ν = n − 1 = 11 d.d.l. I Marge d’erreur dans l’estimation de µ : s0 √ E = tSt α2 √12n = 2.201 1.151 = 0.7315. 12 89 / 105 Exemple 2.3.4 Solution - suite I Intervalle de confiance de niveau 95% de µ (variance σ 2 inconnue) : −1, 08 − 0, 7311 = −1, 811; −1, 08 + 0, 7315 = −0, 3485 −1, 811 ≤ µz = µx − µy ≤ −0, 3485 µz = (µx − µy ) ∈ [−1, 811, −0, 3485] I Conclusion : 0 n’appartient pas à I.C.95% , l’écart de - 1.08 observé est significatif (avec un risque d’erreur de 5%). On peut donc conclure que µz = (µx − µy ) 6= 0 ⇔ µx 6= µy ; les deux méthodes de mesures sont différentes.. I Remarque importante : Si on fait l’erreur de considérer ces deux échantillons de mesures comme des échantillons indépendants, on trouve un intervalle de confiance de niveau 95% de (µx − µy ) ∈ [−9.72; 7.56]. Dans ce cas, 0 ∈ I.C.95% c’est-à-dire que µx ≈ µy ; les deux méthodes de mesures sont identiques. 90 / 105 2.3.3 Différence de 2 proportions. Grands échantillons (n1 ≥ 30 et n2 ≥ 30) prélevés au hasard et indépendamment de deux populations Application : pour décider si l’écart observé entre deux proportions échantillonnales est significatif ou s’il est plutôt attribuable au hasard de l’échantillonnage. q p2 (1−p2 ) 1) I Distribution : F1 − F2 ∼ N p1 − p2 , p1 (1−p + n1 n2 I Statistique de test : (F −F )−(p− p2 ) r 1 2 f1 (1−f1 ) f (1−f ) +2 n 2 n 1 → N(0; 1) 2 I Intervalle de confiance de niveau (1 − α) de (p1 − p2 ) : s f1 (1 − f1 ) f2 (1 − f2 ) (f1 − f2 ) − t α2 + ≤ p1 − p2 n1 n2 s f1 (1 − f1 ) f2 (1 − f2 ) ≤ (f1 − f2 ) + t α2 + n1 n2 91 / 105 Différence de 2 proportions Grands échantillons : n1 ≥ 30 et n2 ≥ 30. Hypothèse supposée : p1 = p2 = p I On estime p par f en combinant les proportions observées 2 f2 dans chaque échantillon : f = n1nf11 +n +n2 I Statistique de test : (F −F )−(p −p ) r 1 2 1 2 f (1−f ) n1 + n1 1 → N(0; 1) 2 I L’intervalle de confiance de niveau (1 − α) de (p1 − p2 ) : s 1 1 α (f1 − f2 ) − t 2 f (1 − f ) + ≤ p1 − p2 n1 n2 s 1 1 + ≤ (f1 − f2 ) + t α2 f (1 − f ) n1 n2 Si 0 ∈ I.C.α (p1 − p2 ) =⇒ les deux proportion ne sont pas différentes. Si 0 6∈ I.C.α (p1 − p2 ) =⇒ les deux proportions sont significativement différentes. 92 / 105 Exemple 2.3.5 /Feuille 2/ Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur un projet d’aménagement d’un site. Les résultats de l’enquête se résument comme suit : Nombre de personnes interrogées En faveur du projet Municipalité 1 250 110 Municipalité 2 250 118 1. Quelle est l’estimation ponctuelle de la différence de proportions des contribuables de chaque municipalité favorisant l’aménagement du site ? 2. Déterminer l’intervalle de confiance de niveau (1 − α) = 95% de contenir la valeur vraie de la différence des proportions, (p1 − p2 ) ? 3. Question : Avec l’intervalle calculé en 2), est-ce que l’on rejetterait, au seuil de signification α = 5%, l’hypothèse selon laquelle les contribuables des deux municipalités favorisent dans la même proportion l’aménagement du site sur leur territoire ? Solution 93 / 105 93 / 105 93 / 105 93 / 105 93 / 105 2.3.4 Rapport de 2 variances ( comparaison de 2 variances ) I La comparaison de 2 populations normales peut porter non seulement sur leur valeur centrale ( moyenne ), mais également sur leur dispersion. La caractéristique de dispersion la plus utilisée est la variance. I Une des conditions d’application de la loi de Student dans le cas de comparaison de moyennes est que les échantillons proviennent de 2 populations normales de variances identiques : σ12 = σ22 . Cette hypothèse peut être maintenant vérifiée à l’aide de l’intervalle de confiance du rapport des 2 variances : Test d’égalité de 2 variances. I On suppose que l’on a prélevé deux échantillons indépendants de tailles n1 et n2 de deux populations normales N(µ1 ; σ1 ) et N(µ2 ; σ2 ) de paramètres inconnus. 94 / 105 2.3.3 Rapport de 2 variances ( comparaison de 2 variances ) I Distributions : n1 X S102 (Xi − X̄1 )2 = (n − 1) → χ2(n1 −1) d.d.l. 1 2 2 σ σ 1 1 i=1 n2 X S202 (Xi − X̄2 )2 = (n − 1) → χ2(n2 −1) d.d.l. 2 2 2 σ2 σ2 i=1 I Statistique de test : σ22 S102 → F(n1 −1),(n2 −1) d.d.l. σ12 S202 95 / 105 Rapport de 2 variances ( comparaison de 2 variances ) Intervalle de confiance au niveau (1 − α) pour le rapport f1 où, σ22 σ12 : S202 σ22 S202 ≤ ≤ f 2 02 S102 σ12 S1 α 2 α = P (F (n1 − 1, n2 − 1) > f1 ) = 1 − 2 f2 = fsup = f α2 = P (F (n1 − 1, n2 − 1) > f2 ) = f1 = finf = f1− α2 sont les fractiles de la loi de Fisher-Snédécor à (n1 − 1) et (n2 − 1) degrés de liberté (cf. table). Si 1 ∈ I.C.(1−α)% , il n’y a pas de différence significative (avec un risque d’erreur de α%) entre les deux variances. On peut donc les supposer égales : σ12 ≈ σ22 . 96 / 105 Exemple 2.3.6 /Feuille 2/ Reprenons l’exemple de la durée de vie moyenne de 2 types d’ampoules électriques d’usage courant (60 Watts , 120 Volts) fabriquées par deux entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les mêmes conditions, sur un échantillon de 16 lampes provenant de l’un des fabricants et un échantillon de 15 lampes provenant de l’autre fabricant, donnent les résultats suivants : La durée de vie d’une ampoule est supposée normalement distribuée. On ne dispose d’aucune information sur les variances des deux populations. Nombre d’essais Durée de vie moyenne observée (h) Somme des Carrés des Écarts Fabricant 1 16 1025 1800 Fabricant 2 15 1070 1960 1. Déterminer un intervalle de confiance de niveau 95% du rapport des variances des populations d’ampoules de ces deux fabricants. 2. Question : Peut-on considérer l’égalité des variances σ22 = σ12 ? 97 / 105 Exemple 2.3.6 - Solution I Remarques : petits échantillon n1 = 16; n2 = 15 indépendants. I Statistique de test : σ22 S102 σ12 S202 → F(n1 −1=20;n2 −1=20) d.d.l. I Les données : n1 = 16; n2 = 15. Niveau de confiance : 1 − α = 95% ⇒ risque d’erreur : α = 5%. f2 = f2.5%,15,14 = 2, 95 et 1 1 f1 = f97.5%,15,14 = f2.5%,14,15 = 2,89 = 0, 346 cf. Table de la loi de Fisher-Snedecor F(15;14) et F(14;15) ayant la probabilité 0.025 d’être dépassée. SCE1 Estimation des variances : s102 = (n−1) = 1800 15 = 120 et s202 = SCE2 (n−1) = 1960 14 = 140. 98 / 105 Exemple 2.3.6 - Solution - suite I Intervalle de confiance de niveau 95% de s02 2 0.404 = 0.346 140 120 = f1 s02 ≤ 1 σ22 σ12 σ22 σ12 σ22 σ22 : s02 140 ≤ f2 s202 = 2.95 120 = 3.44 1 ∈ [0.404, 3.44] I Conclusion : 1 ∈ I.C.95% , il n’y a pas de différence significative (avec un risque d’erreur de 5%) entre les deux variances. On peut donc les supposer égales : σ12 ≈ σ22 . 99 / 105 Exercice 27. On administre des somnifères sous forme de piles à deux groupes de malades, A et B, comprenant respectivement 50 et 100 individus. On a donné au groupe A des piles d’un type nouveau et au groupe B des piles classiques. Les patients du groupe A ont dormi 7,82 heures en moyenne, ceux du groupe B 6,75 heures. a) L’écart-type étant pour le groupe A 0,24 heures, pour le groupe B 0,30 heures, calculer les limites de confiance à 95 % pour la différence des moyennes d’heures de sommeil provoquées par les deux types de somnifères. b) L’écart-type étant estimé pour le groupe A 0,20 heures, pour le groupe B 0,28 heures, calculer les limites de confiance à 99 % pour la différence des moyennes d’heures de sommeil provoquées par les deux types de somnifères. 100 / 105 c) Soit le groupe A composé de 10 individus et le groupe B de 15 individus, dont le sommeil moyen des individus du groupe A fut 7,55 heures, celui du groupe B fut 6,65 heures avec un écart-type observé de 0,22 heures et 0,28 heures respectivement. Calculer l’intervalle de confiance de la différence à 90 % des moyennes d’heures de sommeil. d) On dispose seulement d’un groupe de 51 individus pour le test de l’efficacité des deux types de somnifères. On a donné une semaine des piles du type nouveau et les patients ont dormi x̄ = 7.55 heures en moyenne. Après deux semaines de repos, on a administré les piles du type classique et cette fois-ci les patients ont dormi ȳ = 6, 28 heures en moyenne. La somme des carrés des écarts est SCEx−y = 12.25 heurs. Déterminer un intervalle de confiance à 99 % de la différence des moyennes de sommeil en résultats des deux somnifères. Solution 101 / 105 a) A : nA = 50; x̄A = 7, 82 h. ; σA = 0, 24 h. B : nB = 100; x̄B = 6, 75 h. ; σB = 0, 30 h. σA2 , σB2 connues I.C.95% (µA − µB ) =? Statistique de test : (X̄A − X̄B ) − (µA − µB ) r → N(0, 1) 2 σA nA + 2 σB nB s Marge d’erreur : σ2 σA2 α + B ; α = 0, 05; = 0, 025 nA nB 2 α 1 − α = 0, 95; 1 − = 1 − 0, 025 = 0, 975; t α2 =? 2 E = t α2 Intervalle centré en 0 de probabilité donnée Soit α un niveau de probabilité (0 < α < 1). Recherchons l’intervalle [−t, t] centré en 0 tel que P(−t < Z < t) = 1 − α. Solution Comme P(−t < Z < t) = 2π(t) − 1, pour P(−t < Z < t) = 1 − α on obtient : α 2π(t) − 1 = 1 − α =⇒ π(t) = 1 − 2 101 / 105 A l’aide des tables on détermine Z = tα tel que π(tα ) = 1 − Cas particuliers : α . 2 α Z ∼ N(0.1) 1− 0.20 0.10 0.05 0.01 P(−1.282 < Z < 1.282) = 0.80 P(−1.645 < Z < 1.645) = 0.90 P(−1.96 < Z < 1.96) = 0.95 P(−2.576 < Z < 2.576) = 0.99 0.9 0.95 0.975 0.995 α 2 t α2 = 1, 96 r µ̂A − µ̂B = 0, 32 0, 242 + = 0, 0088786 50 100 x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h. I.C.0.95 (µA − µB ) = (x̄A − x̄B ) ± E = 1, 07 ± 0, 09 I.C.0.95 (µA − µB ) = [0, 98 E = 1, 96 1, 16] Comme 0 6∈ I.C.0.95 (µA − µB ) = [0, 98 1, 16] =⇒ les heures moyennes de sommeil sont significativement différentes. Les deux types de somnifères influencent de façons différentes les patients. 101 / 105 b) A : nA = 50; x̄A = 7, 82; sA0 = 0, 20 h. B : nB = 100; x̄B = 6, 75; sB0 = 0, 28 h. σA , σB inconnus ; I.C.0,99 (µA − µB ) =?, nA , nB > 30 (X̄A − X̄B ) − (µA − µB ) r → N(0, 1) Statistique de test : 0 sA2 nA 0 + sB2 nB α α = 0, 01; = 0, 005; 1 − α/2 = 0, 995; t α2 = 2, 576 2 s r 0 0 sA2 sB2 0, 282 0, 202 E = t α2 + = 2, 576 + = 0, 103 nA nB 50 100 Fractile t α2 : Marge d’erreur : µ̂A − µ̂B = x̄A − x̄B = 7, 82 − 6, 75 = 1, 07 h. I.C.0,99 (µA − µB ) = (x̄A − x̄B ) ± E = 1, 07 ± 0, 103 I.C.0,99 (µA − µB ) = [0, 967 1, 173] Comme 0 6∈ I.C.0,99 (µA − µB ) = [0, 967 1, 173] =⇒ les heures moyennes de sommeil sont significativement différentes. Les deux types de somnifères influencent de façons différentes les patients. 101 / 105 c) A : nA = 10; x̄A = 7, 55 h. ; sA = 0, 22 h. B : nB = 15; x̄B = 6, 65 h. ; sB = 0, 28 h. σA2 , σB2 inconnues nA < 30, nB < 30 I.C.90% (µA − µB ) =? Comme nA = 10 et nB = 15 ne satisfaitent nA << 30 et nB << 30, on ne peut pas appliquée l’estimation approximée. Il faut tester si σA = σB = σ? 0 Statistique de test : Fractiles : σB2 sA2 → F(nA −1),(nB −1) d.d.l. 0 σA2 sB2 nA −1 n −1 fSup = f α2 = F αB 2 9 = F α14 = 2, 65 2 Table de la loi de Fisher-Snedecor p = 0.05 (risque global de α = 0, 1) 1 1 = 0, 33 fInf = f1− α2 = 14 = 3, 03 9 F α 0 2 0, 282 × 15 × 9 s2 = 2, 65 × 1, 56 = 4, 14 Marges d’erreur : fSup B0 2 = 2, 65 0, 222 × 14 × 10 sA 0 sB2 0, 282 × 15 × 9 = 0, 33 × 1, 56 = 0, 515 = 0, 33 02 0, 222 × 14 × 10 sA 2 σA I.C.0.90 = [0.515 4, 14] σB2 2 σ Comme 1 ∈ I.C.0.90 σA2 = [0.515 4, 14] =⇒ σA ≈ σB fInf B 101 / 105 σA2 , σB2 inconnues et supposée égales σA = σB nA < 30, nB < 30 I.C.90% (µ1 − µ2 ) =? (Table 6) (X̄A − X̄B ) − (µA − µB ) q → T(nA +nB −2)d.d.l. s0 2 n1 + n1 Statistique de test : A B I.C.0,90 (µA − µB ) = + nB sB2 10 × 0, 222 + 15 × 0, 282 = = 0, 072 na + nB − 2 10 + 15 − 2 t 0,1 ;(10+15−2) = t0,05; (23) = 1, 7139 2 r 1 1 E = tSt α2 s0 + na nB r p 1 1 + = 1, 19 = 1, 7139 × 0, 072 10 15 (x̄A − x̄B ) ± E = 0, 9 ± 1, 19 I.C.0,90 (µA − µB ) = [−0, 71 s Fractile tSt α2 : Marge d’erreur : 0 2 = nA sA2 1, 09] Comme 0 ∈ I.C.0,90 (µA − µB ) = [−0, 71 1, 09] =⇒ µA ≈ µB 101 / 105 d) échantillons appariés n = 51 ; x̄A = 7, 55 ; x̄B = 6, 28 ; SCEXA −XB = 12, 25 I.C.99% (µA − µB ) =? Z = XA − XB ; Z̄ = X̄A − X̄B = 7, 55 − 6, 28 = 1, 27h. r r p SCE 12, 25 S0 = = = 0, 2851 = 0, 495h. n−1 50 Statistique de test : Feractile tSt α2 : Marge d’erreur : (Z̄ − µZ ) √ → T(n−1)d.d.l. s0 / n tSt α2 = t[ 0,01 ;50] = 2, 6778 2 s0 s0 E = tSt α2 √ = 2, 6778 √ n n 0, 495 = 2, 6778 √ = 0, 186. 51 I.C.0,99 (µA − µB ) = z̄ ± E = 1, 27 ± 0, 186 I.C.0,99 (µA − µB ) = [1, 27 − 0, 186 1, 27 + 0, 186] = [1, 084 1, 46] Comme 0 6∈ I.C.0,99 (µA − µB ) = [1, 084 1, 46] =⇒ µA 6= µB . La différence des deux moyennes est statistiquement significative. Les deux moyennes ne peuvent être considérées comme égales. 101 / 105 41. La SGM souhaite mieux connaitre la répartition des impayés dans son portefeuille de clients. Sur l’ensemble des 20000 dossiers traités annuellement au service contentieux, un échantillon aléatoire de 30 dossiers a été prélevé aux fins d’étude, qui a permis d’obtenir un montants moyen observé d’impayés de 2660,50 Ke et un écart-type observé des impayés de 279,66 Ke. a) Quelle serait la probabilité pour que, sur l’ensemble des 30 dossiers, le montant moyen d’impayés soit inférieur à 2300 Ke ? b) Quel serait l’intervalle de confiance à 95% de cette moyenne et quelle en serait l’interprétation ? c) Quel serait l’intervalle de confiance à 95% de l’écart-type des impayés et quelle en serait l’interprétation ? 102 / 105 d) Quel est le risque d’erreur que l’on attribue à l’intervalle de confiance, bilatéral symétrique du montant moyen d’impayés : [2539,5 - 2781,497] obtenu à pratir de cette série de 30 dossiers. e) Quel serait l’intervalle de confiance à 95% de la moyenne de la population, obtenu à la base des observations d’un échantillon de 25 dossiers, dont la moyenne observée d’impayés est de 2600 Ke et l’écart-type observé est de 277 Ke. f) Quel serait l’intervalle de confiance à 99% de l’écart-type des dossiers impayés de la population, obtenu à la base des observations d’un échantillon de 200 dossiers, dont la moyenne observée d’impayés est de 2650 Ke et l’écart-type observé est de 280 Ke. g) Quel serait l’intervalle de confiance à 90% de l’écart-type des dossiers impayés de la population, obtenu à la base des observations d’un échantillon de 25 dossiers, dont la moyenne observée d’impayés est de 2650 Ke et l’écart-type observé est de 280 Ke. 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 103 / 105 42. 96% des ménages français possèdent un réfrigérateur. a) Quelle est la probabilité pour que, dans un échantillon de 1 200 ménages, la fréquence relative soit comprise entre 0,95 et 0,97. Que pourrait-on dire si la fréquence relative de l’échantillon était de 0,99 ? b) Quelle doit être la taille de l’échantillon pour que la probabilité de trouver une fréquence relative de l’échantillon comprise entre 0,95 et 0,97 soit de 99%. 104 / 105 104 / 105 104 / 105 104 / 105 Pour tester l’efficacité d’un nouveau produit médical, on a effectué une analyse en choisissant 10 patients aléatoires. Cinq patients ont reçu le produit conventionnel et les autres cinq patients ont reçu le nouveau produit. Chaque patient a exercé le niveau de satisfaction du produit en utilisant les numéraux de 0 à 100. Les résultats sont donnés dans la table si-jointe. Standard n1 = 5 x̄ = 60.33 s1 = 15.82 Nouveau n2 = 5 x̄ = 32.21 s2 = 12.27 1. Quelle supposition on doit faire pour pouvoir appliquer la statistique pour la comparaison de deux moyennes des échantillon de faible taille ? 2. Construire l’intervalle de confiance à 95% de la différence µ1 − µ2 et interpréter le résultat. 105 / 105 Solution La supposition nécessaire est : - Les niveaux de satisfaction des deux groupes de patients sont normalement distribués Comme n1 = n2 = 5 on peut appliquer la statistique pour comparaison de deux moyennes, faibles échantillons de mêmes tailles. Dans ce cas, si on ne suppose pas l’égalité des deux variances, l’estimation approximée doit être appliquée. Statistique de test : (X̄1 − X̄2 ) − (µ1 − µ2 ) q → T2(n−1)d.d.l. 02 02 s1 +s2 n Fractile tSt α2 : t0,05/2;(2×(5−1)) = t0,025; (8) = 2, 306 105 / 105 s Marge d’erreur : s102 + s202 n r 12, 272 × 5/4 + 15, 822 × 5/4 = 2, 306 × 5 = 2, 306 × 10, 01 = 23, 08 E = tSt α2 I.C.0,95 (µ1 − µ2 ) = (x̄1 − x̄2 ) ± E = 28.12 ± 23, 08 I.C.0,95 (µ1 − µ2 ) = [5.04 51, 21] Comme 0 6∈ I.C.0,95 (µ1 − µ2 ) = [5.04 51, 21] =⇒ µ1 6= µ2 105 / 105