lOMoARcPSD|13159707 examen final hiver 2018 Statistique I (Université du Québec à Montréal) StuDocu n'est pas sponsorisé ou supporté par une université ou école Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 Examen 2 - STT1000 Durée 3 heures - 9:00-12:00 19 décembre 2018 Prénom et nom : Consigne générale / Instructions — Calculatrice autorisée. — FicheRpar4 (instructions R) autorisée — Aide-mémoire d’une page recto à insérer obligatoirement dans le cahier d’examen. Si vous n’avez pas d’aide-mémoire, faites le savoir au professeur ou à l’assistant qui l’indiquera sur votre cahier d’examen (sinon vous serez pénalisé). — Fermez et rangez votre téléphone cellulaire. — Donnez tous les développements et calculs. Toutes les réponses doivent être convenablement justifiées. — Veuillez encadrer ou indiquer clairement la réponse à chaque question. Le correcteur ne prendra pas de décision pour vous quant à savoir quelle est la bonne réponse. — Veuillez remettre cet énoncé d’examen avec votre cahier d’examen. — Le sujet est composé de 7 questions. Le barème indicatif (sucsceptible de légèrement évoluer) est sur 40 points : — Q1 = 4 pts — Q2 = 4 pts — Q3 = 2 pts — Q4 = 2 pts — Q5 = 12 pts — Q6 = 7 pts — Q7 = 7 pts — Aide-mémoire + utilisation correcte des notations = 2 pts 1 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 Question 1 ([4 pts]). Répondez par vrai ou faux en cochant la bonne réponse, ou en remplissant l’encadré. Aucune justification n’est requise. ✓ ◆ 1. Soit F ⇠ F(5, 5), P F > = 50% | 2. Soient Y1 , . . . , Yn , n v.a. i.i.d. de loi N(0, σ2 ), alors p 3. Soient Y1 , . . . , Yn , n v.a. i.i.d. de loi N(0, σ2 ), alors p 4. Lorsque n est grand, T (n 1) ⇡ N(0, 1). 4h n Y/S ⇠ Ten il - ✓ 1)S 2 /σ2 ⇡ χ2 (n 5. Lorsque n est grand, (n n Y/σ ⇠ NU , Vrai ou Faux 1). Vrai ou Faux ✓ 6. Il est possible de mettre en place un test de comparaison de proportions si l’on dispose de deux échantillons de grande taille. ✓Vrai ou Faux 7. Lors d’un test d’ajustement à une loi normale de moyenne µ et de variance σ2 , dont ont été rangées en 6 classes, la statistique de test suit une loi ◆ ✓ les données χ2 3 . 8. Plus la p-valeur est faible et plus la décision est fiable. Solution de la question 1. ✓Vrai ou Faux 1. 1 2. N(0, 1) 3. T (n 1) 4. Vrai. 5. Faux. 6. Vrai. 7. 6 1 2 8. Vrai Question 2. [4pts] Soient Y1 , . . . , Yn , n variables aléatoires, indépendantes, i.i.d. et de loi N(0, 1). On définit n 1X Y= Yi , n i=1 1 2 S = n 1 n ⇣ X Yi i=1 ⌘2 Y , A = Y + (n 1)S 2 . 1. Rappelez la loi de Y et celle de (n 2 Téléchargé par martitin los (ngezahayocele@hotmail.com) 1)S 2 . lOMoARcPSD|13159707 2. Calculez (en justifiant) E(A) et Var(A). Solution de la question 2. 1)S 2 ⇠ χ2 (n 1. Y ⇠ N(0, 1/n), (n 1). [.5pt + .5pt] 2. E(A) = n 1 = n, due à l’indépendance, Var(A) = Var(Y) + Var((n 1/n + 2(n 1). [1pt + 1pt + 1pt pour la justification ind.] 1)S 2 ) = Question 3. [2pts] Soit X ⇠ χ2 (4) et Y ⇠ χ2 (3) deux variables indépendantes. 1. Rappelez la loi de X + Y. 2. Un étudiant affirme que X Y ⇠ χ2 (1). Comment réfutez-vous cette affirmation ? Solution de la question 3. 1. X + Y ⇠ χ2 (7). [1pt] 2. Var(X Y) = 8 + 6 = 14 , 2. [1pt] Question 4. [2pts] Soit T ⇠ T (ν) et soit F ⇠ F(1, ν). Soit tα/2,ν le quantile d’ordre 1 α/2 de T et soit f1 α,1,ν le quantile d’ordre 1 α de F. Rappelez pourquoi T 2 et F ont même loi et démontrez que tα/2,ν 2 = f1 α,1,ν comme le prouve cette instruction R (pour ν = 3) > qt(0.975,3)^2 [1] 10.12796 > qf(0.95,1,3) [1] 10.12796 Solution de la question 4. P( tα/2 < T < tα/2 ) = 1 α 3 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 donc P( T2 |{z} égal en dist. à F [2pts] 2 tα/2 )=1 α Question 5 ([12pts]). La question ci-dessous rentre dans la thématique de la COP24 sur le changement climatique. On s’intéresse à la gestion des déchets des ménages et en particulier à la réduction de ceux-ci. Pour cela, on cherche à montrer que les ménages génèrent moins de déchets lorsqu’ils disposent de magasins permettant l’achat en vrac proches de chez eux. On mesure le poids de la poubelle hebdomadaire de 10 ménages possédant un magasin en vrac proche de chez eux (échantillon noté x) et 10 autres ménages ne disposant pas cette opportunité (échantillon noté y). On supposera que les poids de déchets exprimés en kilogrammes sont des réalisations de loi normale. Par la suite on notera µX , µY , σX et σY les moyennes et écarts-types des variables X et Y générant les échantillons. Mettez en place le(s) test(s) d’hypothèses adéquat(s) pour répondre à la question de cet exercice en prenant un risque d’erreur fixé à 5%. Détaillez toutes les étapes de votre démarche. On s’appuiera sur les indications suivantes ainsi que les instructions R ci-dessous : soit F ⇠ F(9, 9) x̄ ' 4.9, ȳ ' 6.1, sX ' 1, sY ' 0.7, P(F < 2.04) ' 80%. > qt(0.95,df=c(9,10,18,19,20)) [1] 1.833113 1.812461 1.734064 1.729133 1.724718 4 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 Solution de la question 5. Il s’agit d’un test de comparaison de moyennes pour deux échantillons gaussiens indépendants de taille n = 10. Avant de tester les moyennes, il nous faut tester les variances. Test 1. Hypothèses de test : H0 : σ2X = σ2Y contre H1 : σ2X , σ2Y . Stat. de test sous H0 , S 2X F = 2 ⇠ F(9, 9) SY Règle de décision : au seuil de 5%, on accepte H1 si p-valeur< 5%. Or, fobs ' 2.04, par conséquent p-valeur = 2 ⇥ P(F > fobs ) ' 2 ⇥ 20% ' 40%. En conséquence, il n’y a pas assez d’évidence à montrer que les variances sont différentes. Nous accepterons cette hypothèse par la suite. Test 2. Hypothèses de test : H0 : µX = µY contre H1 : µX , µY Stat. de test sous H0 , X Y T= q ⇠ T (18) S p 29 où S 2p = (S 2X + S Y2 )/2. Règle de décision : au seuil de 5%, on accepte H1 tobs < t5%,18 . Or, s p ' 0.8631338, tobs ' 2.8284271, t5%,18 ' 1.7340636. Ainsi, on peut accepter H1 . Et donc avec un risque d’erreur de seconde espèce de 5%, on peut penser que significativement les déchets des ménages sont réduits lorsque ceux-ci disposent d’un magasin en vrac à proximité. Hyp. de test : 1pt, Stat. avec sa loi sous H0 1pt, RD 1pt, 1pt Appl. num., conclusion littérale claire 1pt. Question 6 ([7pts]). Soit Y un échantillon gaussien de n = 40 v.a.i.i.d. de moyenne µ et variance σ2 . On met en place un test permettant de tester H1 : σ2 > 4 en utilisant un risque d’erreur de première espèce α = 10%. 1. On note γ(σ21 ) la fonction puissance de ce test calculée au point σ21 . Déterminez γ(σ21 ) en fonction de F la fonction de répartition d’une loi du χ2 (39). 2. Sachant que χ2.9,39 = 50.66 et que F(25.33)⇡0.04, calculez γ(8) et l’erreur de seconde espèce au point σ21 = 4. Vérifiez cette valeur avec le graphique ci-après. 3. En vous aidant du graphique, déterminez approximativement les valeurs de σ21 pour lesquelles la somme des risques d’erreur de première et seconde espèce n’excède 5 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 pas 20%. 4. Tracez approximativement (et sans justification) sur le même graphique la fonction puissance du même test — si α = 20% et n = 40 ; — si α = 10% et n > 40. 1.0 0.8 γ(σ21) 0.6 0.4 0.2 0.0 0 2 4 6 8 10 σ21 Solution de la question 6. 1. [2.5pts] ⇣ ⌘ γ(σ21 ) = P (n 1)S 2 /4 > χ2.9,39 | σ2 = σ21 ⇣ ⌘ = P (n 1)S 2 /σ21 > 4χ2.9,39 /σ21 | σ2 = σ21 ⌘ ⇣ = P χ2 (39) > 4χ2.9,39 /σ21 =1 F(4χ2.9,39 /σ21 ). 2. γ(8) = 1 F(25.33) ' 96% et β(8) = 4%. [1pt + .5 graphiquement] 3. Pour σ21 > 7.2 appr. β(σ21 ) < 10% et donc α + β(σ21 ) < 20%. 4. [1pt+1pt] a) la courbe passe en 20% pour σ21 = 4 et est au dessus de la noire ; b) la courbe passe en 10% pour σ21 = 4 et est au dessus de la noire Question 7. [7pts] Cet exercice s’intéresse au jeu de données fibonacci qui recense les 500 premiers nombres de la suite de Fibonacci, une suite très connue en mathématiques (et qui rappelons-le définit le nombre d’or). Voici par exemple les 30 premiers termes de cette suite 6 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 > fibonacci[1:30] [1] 1 1 [11] 89 144 [21] 10946 17711 2 233 28657 3 377 46368 5 8 13 21 34 55 610 987 1597 2584 4181 6765 75025 121393 196418 317811 514229 832040 En particulier, des observations, on va extraire le premier nombre de chaque élément de la suite de Fibonacci. Exemple, pour le 30ème nombre 832040, on retient le nombre 8. Ainsi, nos nouvelles observations sont constituées des entiers 1 à 9. La table suivante donne les effectifs du premier nombre de ces 500 éléments de la suite de Fibonacci. > tab.digits 1 2 3 4 5 6 7 8 9 151 88 63 47 40 33 29 27 22 Cette répartition n’est-elle pas étonnante ? Il semble qu’il y ait beaucoup plus de 1, que de 2, . . .alors qu’on pourrait s’attendre à une répartition plus uniforme. Ci-dessous, on prendra un risque d’erreur de 10% pour tester différentes hypothèses. Et on s’appuiera sur l’instruction suivante > qchisq(0.9,df=6:11) [1] 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501 1. On commence par tester la répartition uniforme, c’est-à-dire la loi {1/9, . . . , 1/9}. Complétez le tableau suivant et effectuez le test d’ajustement à cette loi. 7 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 Digit Occurence x j (x j np0 j )2 np0 j np0 j (à 2 décimales près) 1 151 2 88 18.95 3 63 1 4 47 1.32 5 40 4.36 6 33 9.16 7 29 12.69 8 27 14.68 9 22 2. Un probabiliste entre en jeu et ne s’avère pas du tout surpris par l’issue du test précédent. En effet, aussi surprenant que cela puisse paraı̂tre cette sur-représentation des 1, puis 2, etc est bien connue lorsque l’on prend n’importe quelle série de chiffres comme les comptes d’une entreprise, le nombre d’habitants dans les villes canadiennes, ou encore la suite de Fibonacci. Le probabiliste affirme même qu’une bonne modélisation est la loi de Benford, définie pour k = 1, . . . , 9 par P(X = k) = log(1 + 1/k) . log(10) [1pt bonus est offert si vous vérifiez qu’il s’agit bien d’une loi de probabilité sur {1, . . . , 9}.] Voilà les valeurs en R > p0j=round( log(1+1/1:9)/log(10) , 4) ; p0j [1] 0.3010 0.1761 0.1249 0.0969 0.0792 0.0669 0.0580 0.0512 0.0458 Complétez le tableau ci-dessous qui vise à tester la loi de Benford sur les 500 éléments de la suite de Fibonacci et effectuez le test. 8 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 Digit Occurence x j np0 j (x j np0 j )2 np0 j (à 2 décimales près) 1 151 2 88 0 3 63 0 4 47 0.04 5 40 0 6 33 0.01 7 29 0 8 27 0.08 9 22 Solution de la question 7. [Barême : .5 pt pour colonne des np0 j , 1pt pour la dernière colonne, 2pts pour le test d’hypothèse où doit au minimum apparaı̂tre les hyp. de test (.5), la statistique de test et l’application num. (1) et la conclusion littérale (.5)] 1. Colonne des np0 j = 500/9= 55.56. Les deux chiffres manquants sont 163.97 et 20.27. Test 1. H0 : le 1er nombre suit une loi uniforme H1 : le 1er nombre ne suit pas une loi uniforme. Stat. de test : sous H0 , 9 X (X j np0 j )2 D= ⇠ χ2 (9 1). np 0 j i=1 RD à α = 10%, puisque dobs '246.39 est largement supérieure à χ2.9,8 '13.36, on peut réfuter avec forte conviction la loi uniforme. 2. Colonne des np0 j : 150.5, 88.05, 62.45, 48.45, 39.6, 33.45, 29, 25.6, 22.9. Les deux chiffres manquants sont 0 et 0.04. Test 2. H0 : le 1er nombre suit une loi de Benford H1 : le 1er nombre ne suit pas une 9 Téléchargé par martitin los (ngezahayocele@hotmail.com) lOMoARcPSD|13159707 loi de Benford. Stat. de test : sous H0 , D= 9 X (X j i=1 np0 j )2 ⇠ χ2 (9 np0 j 1). RD à α = 10%, puisque dobs '0.17 n’est pas supérieure à χ2.9,8 '13.36, on ne peut réfuter le modèle de la loi de Benford. La p-valeur de ce test est probablement très élevée ce qui semble indique que ce modèle semble plutôt bien adapté ! ! 10 Téléchargé par martitin los (ngezahayocele@hotmail.com)