Uploaded by berthrand masabo

examen-final-hiver-2018

advertisement
lOMoARcPSD|13159707
examen final hiver 2018
Statistique I (Université du Québec à Montréal)
StuDocu n'est pas sponsorisé ou supporté par une université ou école
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
Examen 2 - STT1000
Durée 3 heures - 9:00-12:00
19 décembre 2018
Prénom et nom :
Consigne générale / Instructions
— Calculatrice autorisée.
— FicheRpar4 (instructions R) autorisée
— Aide-mémoire d’une page recto à insérer obligatoirement dans le cahier d’examen. Si vous n’avez pas d’aide-mémoire, faites le savoir au professeur ou à l’assistant qui l’indiquera sur votre cahier d’examen (sinon vous serez pénalisé).
— Fermez et rangez votre téléphone cellulaire.
— Donnez tous les développements et calculs. Toutes les réponses doivent être convenablement justifiées.
— Veuillez encadrer ou indiquer clairement la réponse à chaque question. Le correcteur
ne prendra pas de décision pour vous quant à savoir quelle est la bonne réponse.
— Veuillez remettre cet énoncé d’examen avec votre cahier d’examen.
— Le sujet est composé de 7 questions. Le barème indicatif (sucsceptible de légèrement évoluer) est sur 40 points :
— Q1 = 4 pts
— Q2 = 4 pts
— Q3 = 2 pts
— Q4 = 2 pts
— Q5 = 12 pts
— Q6 = 7 pts
— Q7 = 7 pts
— Aide-mémoire + utilisation correcte des notations = 2 pts
1
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
Question 1 ([4 pts]). Répondez par vrai ou faux en cochant la bonne réponse, ou en
remplissant l’encadré. Aucune justification n’est requise.
✓
◆
1. Soit F ⇠ F(5, 5), P F >
= 50%
|
2. Soient Y1 , . . . , Yn , n v.a. i.i.d. de loi N(0, σ2 ), alors
p
3. Soient Y1 , . . . , Yn , n v.a. i.i.d. de loi N(0, σ2 ), alors
p
4. Lorsque n est grand, T (n
1) ⇡ N(0, 1).
4h
n Y/S ⇠ Ten il
-
✓
1)S 2 /σ2 ⇡ χ2 (n
5. Lorsque n est grand, (n
n Y/σ ⇠ NU ,
Vrai ou Faux
1).
Vrai ou Faux ✓
6. Il est possible de mettre en place un test de comparaison de proportions si l’on
dispose de deux échantillons de grande taille. ✓Vrai ou Faux
7. Lors d’un test d’ajustement à une loi normale de moyenne µ et de variance σ2 ,
dont
ont été rangées en 6 classes, la statistique de test suit une loi
◆
✓ les données
χ2
3
.
8. Plus la p-valeur est faible et plus la décision est fiable.
Solution de la question 1.
✓Vrai ou Faux
1. 1
2. N(0, 1)
3. T (n
1)
4. Vrai.
5. Faux.
6. Vrai.
7. 6
1
2
8. Vrai
Question 2. [4pts] Soient Y1 , . . . , Yn , n variables aléatoires, indépendantes, i.i.d. et de loi
N(0, 1). On définit
n
1X
Y=
Yi ,
n i=1
1
2
S =
n
1
n ⇣
X
Yi
i=1
⌘2
Y ,
A = Y + (n
1)S 2 .
1. Rappelez la loi de Y et celle de (n
2
Téléchargé par martitin los (ngezahayocele@hotmail.com)
1)S 2 .
lOMoARcPSD|13159707
2. Calculez (en justifiant) E(A) et Var(A).
Solution de la question 2.
1)S 2 ⇠ χ2 (n
1. Y ⇠ N(0, 1/n), (n
1). [.5pt + .5pt]
2. E(A) = n 1 = n, due à l’indépendance, Var(A) = Var(Y) + Var((n
1/n + 2(n 1). [1pt + 1pt + 1pt pour la justification ind.]
1)S 2 ) =
Question 3. [2pts] Soit X ⇠ χ2 (4) et Y ⇠ χ2 (3) deux variables indépendantes.
1. Rappelez la loi de X + Y.
2. Un étudiant affirme que X
Y ⇠ χ2 (1). Comment réfutez-vous cette affirmation ?
Solution de la question 3. 1. X + Y ⇠ χ2 (7). [1pt] 2. Var(X
Y) = 8 + 6 = 14 , 2. [1pt]
Question 4. [2pts] Soit T ⇠ T (ν) et soit F ⇠ F(1, ν). Soit tα/2,ν le quantile d’ordre 1 α/2
de T et soit f1 α,1,ν le quantile d’ordre 1 α de F. Rappelez pourquoi T 2 et F ont même
loi et démontrez que
tα/2,ν 2 = f1 α,1,ν
comme le prouve cette instruction R (pour ν = 3)
> qt(0.975,3)^2
[1] 10.12796
> qf(0.95,1,3)
[1] 10.12796
Solution de la question 4.
P( tα/2 < T < tα/2 ) = 1
α
3
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
donc
P(
T2
|{z}
égal en dist. à F
[2pts]
2
 tα/2
)=1
α
Question 5 ([12pts]). La question ci-dessous rentre dans la thématique de la COP24
sur le changement climatique. On s’intéresse à la gestion des déchets des ménages et en
particulier à la réduction de ceux-ci. Pour cela, on cherche à montrer que les ménages
génèrent moins de déchets lorsqu’ils disposent de magasins permettant l’achat en vrac
proches de chez eux. On mesure le poids de la poubelle hebdomadaire de 10 ménages
possédant un magasin en vrac proche de chez eux (échantillon noté x) et 10 autres ménages
ne disposant pas cette opportunité (échantillon noté y).
On supposera que les poids de déchets exprimés en kilogrammes sont des réalisations
de loi normale. Par la suite on notera µX , µY , σX et σY les moyennes et écarts-types des
variables X et Y générant les échantillons. Mettez en place le(s) test(s) d’hypothèses adéquat(s) pour répondre à la question de cet exercice en prenant un risque d’erreur fixé à
5%. Détaillez toutes les étapes de votre démarche.
On s’appuiera sur les indications suivantes ainsi que les instructions R ci-dessous : soit
F ⇠ F(9, 9)
x̄ ' 4.9,
ȳ ' 6.1,
sX ' 1,
sY ' 0.7,
P(F < 2.04) ' 80%.
> qt(0.95,df=c(9,10,18,19,20))
[1] 1.833113 1.812461 1.734064 1.729133 1.724718
4
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
Solution de la question 5. Il s’agit d’un test de comparaison de moyennes pour deux
échantillons gaussiens indépendants de taille n = 10. Avant de tester les moyennes, il nous
faut tester les variances.
Test 1. Hypothèses de test : H0 : σ2X = σ2Y contre H1 : σ2X , σ2Y .
Stat. de test sous H0 ,
S 2X
F = 2 ⇠ F(9, 9)
SY
Règle de décision : au seuil de 5%, on accepte H1 si p-valeur< 5%. Or, fobs ' 2.04, par
conséquent
p-valeur = 2 ⇥ P(F > fobs ) ' 2 ⇥ 20% ' 40%.
En conséquence, il n’y a pas assez d’évidence à montrer que les variances sont différentes.
Nous accepterons cette hypothèse par la suite.
Test 2. Hypothèses de test : H0 : µX = µY contre H1 : µX , µY
Stat. de test sous H0 ,
X Y
T=
q ⇠ T (18)
S p 29
où S 2p = (S 2X + S Y2 )/2.
Règle de décision : au seuil de 5%, on accepte H1 tobs < t5%,18 . Or,
s p ' 0.8631338,
tobs ' 2.8284271,
t5%,18 ' 1.7340636.
Ainsi, on peut accepter H1 . Et donc avec un risque d’erreur de seconde espèce de 5%,
on peut penser que significativement les déchets des ménages sont réduits lorsque ceux-ci
disposent d’un magasin en vrac à proximité.
Hyp. de test : 1pt, Stat. avec sa loi sous H0 1pt, RD 1pt, 1pt Appl. num., conclusion
littérale claire 1pt.
Question 6 ([7pts]). Soit Y un échantillon gaussien de n = 40 v.a.i.i.d. de moyenne µ
et variance σ2 . On met en place un test permettant de tester H1 : σ2 > 4 en utilisant un
risque d’erreur de première espèce α = 10%.
1. On note γ(σ21 ) la fonction puissance de ce test calculée au point σ21 . Déterminez
γ(σ21 ) en fonction de F la fonction de répartition d’une loi du χ2 (39).
2. Sachant que χ2.9,39 = 50.66 et que F(25.33)⇡0.04, calculez γ(8) et l’erreur de seconde
espèce au point σ21 = 4. Vérifiez cette valeur avec le graphique ci-après.
3. En vous aidant du graphique, déterminez approximativement les valeurs de σ21
pour lesquelles la somme des risques d’erreur de première et seconde espèce n’excède
5
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
pas 20%.
4. Tracez approximativement (et sans justification) sur le même graphique la fonction
puissance du même test
— si α = 20% et n = 40 ;
— si α = 10% et n > 40.
1.0
0.8
γ(σ21)
0.6
0.4
0.2
0.0
0
2
4
6
8
10
σ21
Solution de la question 6.
1. [2.5pts]
⇣
⌘
γ(σ21 ) = P (n 1)S 2 /4 > χ2.9,39 | σ2 = σ21
⇣
⌘
= P (n 1)S 2 /σ21 > 4χ2.9,39 /σ21 | σ2 = σ21
⌘
⇣
= P χ2 (39) > 4χ2.9,39 /σ21
=1
F(4χ2.9,39 /σ21 ).
2. γ(8) = 1 F(25.33) ' 96% et β(8) = 4%. [1pt + .5 graphiquement]
3. Pour σ21 > 7.2 appr. β(σ21 ) < 10% et donc α + β(σ21 ) < 20%.
4. [1pt+1pt] a) la courbe passe en 20% pour σ21 = 4 et est au dessus de la noire ; b) la
courbe passe en 10% pour σ21 = 4 et est au dessus de la noire
Question 7. [7pts] Cet exercice s’intéresse au jeu de données fibonacci qui recense les
500 premiers nombres de la suite de Fibonacci, une suite très connue en mathématiques
(et qui rappelons-le définit le nombre d’or). Voici par exemple les 30 premiers termes de
cette suite
6
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
> fibonacci[1:30]
[1]
1
1
[11]
89
144
[21] 10946 17711
2
233
28657
3
377
46368
5
8
13
21
34
55
610
987
1597
2584
4181
6765
75025 121393 196418 317811 514229 832040
En particulier, des observations, on va extraire le premier nombre de chaque élément
de la suite de Fibonacci. Exemple, pour le 30ème nombre 832040, on retient le nombre
8. Ainsi, nos nouvelles observations sont constituées des entiers 1 à 9. La table suivante
donne les effectifs du premier nombre de ces 500 éléments de la suite de Fibonacci.
> tab.digits
1
2
3
4
5
6
7
8
9
151 88 63 47 40 33 29 27 22
Cette répartition n’est-elle pas étonnante ? Il semble qu’il y ait beaucoup plus de 1,
que de 2, . . .alors qu’on pourrait s’attendre à une répartition plus uniforme. Ci-dessous,
on prendra un risque d’erreur de 10% pour tester différentes hypothèses. Et on s’appuiera
sur l’instruction suivante
> qchisq(0.9,df=6:11)
[1] 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501
1. On commence par tester la répartition uniforme, c’est-à-dire la loi {1/9, . . . , 1/9}.
Complétez le tableau suivant et effectuez le test d’ajustement à cette loi.
7
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
Digit Occurence x j
(x j np0 j )2
np0 j
np0 j
(à 2 décimales près)
1
151
2
88
18.95
3
63
1
4
47
1.32
5
40
4.36
6
33
9.16
7
29
12.69
8
27
14.68
9
22
2. Un probabiliste entre en jeu et ne s’avère pas du tout surpris par l’issue du test
précédent. En effet, aussi surprenant que cela puisse paraı̂tre cette sur-représentation
des 1, puis 2, etc est bien connue lorsque l’on prend n’importe quelle série de chiffres
comme les comptes d’une entreprise, le nombre d’habitants dans les villes canadiennes, ou encore la suite de Fibonacci. Le probabiliste affirme même qu’une bonne
modélisation est la loi de Benford, définie pour k = 1, . . . , 9 par
P(X = k) =
log(1 + 1/k)
.
log(10)
[1pt bonus est offert si vous vérifiez qu’il s’agit bien d’une loi de probabilité sur
{1, . . . , 9}.] Voilà les valeurs en R
> p0j=round( log(1+1/1:9)/log(10) , 4) ; p0j
[1] 0.3010 0.1761 0.1249 0.0969 0.0792 0.0669 0.0580 0.0512 0.0458
Complétez le tableau ci-dessous qui vise à tester la loi de Benford sur les 500 éléments
de la suite de Fibonacci et effectuez le test.
8
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
Digit Occurence x j
np0 j
(x j np0 j )2
np0 j
(à 2 décimales près)
1
151
2
88
0
3
63
0
4
47
0.04
5
40
0
6
33
0.01
7
29
0
8
27
0.08
9
22
Solution de la question 7. [Barême : .5 pt pour colonne des np0 j , 1pt pour la dernière
colonne, 2pts pour le test d’hypothèse où doit au minimum apparaı̂tre les hyp. de test
(.5), la statistique de test et l’application num. (1) et la conclusion littérale (.5)]
1. Colonne des np0 j = 500/9= 55.56. Les deux chiffres manquants sont 163.97 et 20.27.
Test 1. H0 : le 1er nombre suit une loi uniforme H1 : le 1er nombre ne suit pas une loi
uniforme.
Stat. de test : sous H0 ,
9
X
(X j np0 j )2
D=
⇠ χ2 (9 1).
np
0
j
i=1
RD à α = 10%, puisque dobs '246.39 est largement supérieure à χ2.9,8 '13.36, on peut
réfuter avec forte conviction la loi uniforme.
2. Colonne des np0 j : 150.5, 88.05, 62.45, 48.45, 39.6, 33.45, 29, 25.6, 22.9.
Les deux chiffres manquants sont 0 et 0.04.
Test 2. H0 : le 1er nombre suit une loi de Benford H1 : le 1er nombre ne suit pas une
9
Téléchargé par martitin los (ngezahayocele@hotmail.com)
lOMoARcPSD|13159707
loi de Benford.
Stat. de test : sous H0 ,
D=
9
X
(X j
i=1
np0 j )2
⇠ χ2 (9
np0 j
1).
RD à α = 10%, puisque dobs '0.17 n’est pas supérieure à χ2.9,8 '13.36, on ne peut réfuter
le modèle de la loi de Benford. La p-valeur de ce test est probablement très élevée ce qui
semble indique que ce modèle semble plutôt bien adapté ! !
10
Téléchargé par martitin los (ngezahayocele@hotmail.com)
Download