Uploaded by cfgvbhnjkdfghjk

cahier de charge-18-19

advertisement
Cahier de charges
I. Introduction et méthodes d’échantillonnage
1. Quelle est la différence entre population et échantillon?
2. Quelle est la différence entre recensement et sondage?
3. Soit l’échantillon {1,4,5,9}. S’agit-il d’un échantillon observé ou aléatoire?
4. Ecrivez soigneusement l’échantillon aléatoire (en symboles mathématiques).
5. Qu’est-ce qu’une statistique? Comment l’écrire?
6. Comment se représenter un échantillonnage aléatoire simple (EAS) au moyen
d’un graphique?
7. Qu’est-ce que le taux de sondage?
8. Quelles sont les conséquences d’un tirage avec remise sur la population
définie à chaque tirage?
9. Qu’est-ce qu’un échantillon i.i.d.?
10. Quel est le lien entre un échantillon i.i.d. et un échantillon obtenu par EAS?
11. Discutez les avantages et inconvénients d’un échantillonnage en grappes.
12. Discutez les avantages et inconvénients d’un échantillonnage stratifié.
13. Discutez les avantages et inconvénients de la méthode des quotas.
14. Discutez les avantages et inconvénients d’un échantillonnage systématique.
II. Echantillonnage et estimation ponctuelle
1. Pour chaque question, donnez la meilleure réponse (il n’y a qu’une seule
bonne réponse).
2. Si la taille d’une population n’est pas spécifiée, on la considère comme suffisamment grande pour ne pas devoir apporter de correction de variance.
Remarque
Si pour une question, il y a plusieurs bonnes réponses et si dans ce cas, une option
dit qu’il y a plusieurs bonnes réponses, la meilleure réponse est alors cette option.
Exemple : Un nombre plus grand que 2 est
a) 0
b) 4
c) 5
d) −2
e) Il y a au moins deux réponses correctes parmi les options a), b), c) et d).
1
Dans ce cas, la meilleure réponse est (e).
1. {1,4,8,9} est le résultat d’un tirage aléatoire. Comment l’appelle-t-on?
(a) Une population aléatoire
(b) Un échantillon aléatoire.
(c) En pratique, on parlera souvent d’un échantillon de taille 4. Plus
précisément, il s’agit d’un échantillon observé de taille 4.
(d) Une population.
(e) Aucune des réponses ci-dessus n’est correcte.
2. De manière générale, une statistique est
(a)
(b)
(c)
(d)
(e)
une fonction des données.
un paramètre de la population.
un indicateur chiffré traduisant un phénomène.
une estimation (ponctuelle).
une moyenne empirique.
3. Dans un sondage aléatoire simple sans remise,
a) la distribution de la variable aléatoire d’intérêt change lors de chaque
tirage.
b) on peut négliger les changements (de tirage en tirage) de distribution
de la variable aléatoire d’intérêt si le taux de sondage est suffisamment
petit.
c) la propriété i.i.d. est théoriquement violée.
d) Aucune des trois réponses ci-dessus n’est correcte.
e) Les trois premières réponses ci-dessus sont correctes.
4. On s’intéresse au salaire moyen des étudiants sortis d’une école de commerce
donnée. A partir d’un échantillon de 27 étudiant(e)s dans cette école de
commerce, on obtient un salaire moyen de 3170 euros avec un écart-type
de 410 euros. Le salaire est modélisé à partir d’une loi normale. Quelle
affirmation est correcte?
(a) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé connu, l’objet d?étude et le
paramètre d’intérêt sont le salaire moyen.
(b) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est le
salaire et le paramètre d’intérêt est la moyenne empirique du salaire.
(c) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est le
salaire et le paramètre d’intérêt est le salaire moyen.
2
(d) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale)
où le paramètre de variance est supposé inconnu, l’objet d’étude est
le salaire et le paramètre d’intérêt est la moyenne arithmétique simple
en échantillon.
5. On suppose que le poids des pièces produites par une machine est distribué
de façon normale et en moyenne égal à 120 grammes, avec un écart-type de
7 grammes. On considère 3 pièces prélevées au hasard (échantillon i.i.d.).
Quelle est la loi du poids total des 3 pièces?
a) Normale de moyenne 360 grammes et de variance 147 grammes (au
carré)
b) Normale de moyenne 360 grammes et de variance 49 grammes (au
carré)
c) Normale de moyenne 120 grammes et de variance 49 grammes (au
carré)
d) Normale de moyenne 120 grammes et d’écart-type 7 grammes
e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes.
6. Dans quel intervalle centré sur l’espérance de ce poids total (noté PM dans
les réponses ci-dessous) se situera ce poids total avec une probabilité de 95%
(pour Z ∼ N (0,1), P (Z ≤ zα ) = α)? Xi , i = 1,2,3, correspond à la variable
aléatoire décrivant le poids de la ième pièce.
√
√
a) [P M − 7 3z1−α/2 ; P M + 7 3z1−α/2 ], α = 0.05
√
√
b) [P M − 7 3z1−α ; P M + 7 3z1−α ], α = 0.01
√
√
c) [X1 + X2 + X3 − 7 3z1−α/2 ; X1 + X2 + X3 + 7 3z1−α/2 ], α = 0.05
√
√
d) [X1 + X2 + X3 − 7 3z1−α ; X1 + X2 + X3 + 7 3z1−α ], α = 0.01
e) [P M − 7z1−α ; P M + 7z1−α ], α = 0.01
7. On considère ensuite 100 pièces prélevées au hasard dans la production
(échantillon i.i.d.). Quelle est la loi de la moyenne empirique du poids calculée sur ces 100 pièces?
a) Normale de moyenne 120 grammes et de variance 49 grammes (au
carré)
b) Normale de moyenne 120 grammes et de variance 0,49 grammes (au
carré)
c) Normale de moyenne 120 grammes et d’écart-type 7 grammes
d) Normale de moyenne 120 grammes et d’écart-type 0,07 grammes
e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes.
8. Si le poids d’un pièce prise au hasard n’est pas distribué selon une normale,
que peut-on dire de la loi de la moyenne empirique du poids calculée sur
ces 100 pièces? On considère que l’échantillon reste i.i.d.
a) La même chose qu’à la question précédente
3
b) Cette moyenne empirique centrée et réduite (moyenne empirique moins
sa moye- nne et divisée par son écart-type) est asymptotiquement distribuée selon une N (0,1).
c) La loi de cette moyenne empirique centrée et réduite est proche d’une
N (0,1).
d) On ne sait rien de la loi de cette moyenne empririque.
e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes.
9. Quelle est la probabilité (éventuellement approximative) que le poids moyen
des 100 pièces soit supérieur à 121 grammes?
a)
b)
c)
d)
e)
0.5.
0.
1.
0.0766.
0.236.
10. On considère une variable aléatoire X ∼ N (µ,σ 2 ). On observe 3 réalisations
de cette v.a. : x1 ,x2 et x3 . Parmi les propositions suivantes, combien d’entre
elles sont des statistiques observées?
2
– x1x+x
3
2
– X1X+X
3
– x̄
– s2n
– Sn2
a)
b)
c)
d)
e)
3
2
5
4
1
11. Le proportion d’étudiants végétariens à l’EDHEC est de 14%. On réalise un
sondage (i.i.d.) parmi 100 étudiants. 17 d’entre eux disent être végétariens
(83 disent ne pas être végétariens). Quelles sont les proportions p dans la
population et p̂100 dans l’échantillon correspondant à cet énoncé?
a) p = 0.14 et p̂100 = 0.17
b) p = 0.17 et p̂100 = 0.14
c) La proportion dans la population n’est pas donnée mais celle de l’échantillon
vaut 0.14.
d) La proportion dans la population n’est pas donnée mais celle de l’échantillon
vaut 0.17.
4
e) La proportion dans l’échantillon n’est pas donnée mais celle de la population vaut 0.14.
12. Si on construisait (pouvait construire) un très grand nombre d’échantillons
(issus de la même population), de quelle valeur s’approcherait la moyenne
arithmétique des proportions calculées dans ces échantillons?
a) 0.17
b) 0.14
c) 1
d) La moyenne des ces proportions ne s’approcherait d’aucune valeur en
particulier.
e) La moyenne des ces proportions se trouverait entre 0.14 et 0.17.
13. Dans le contexte de la question précédente, de quelle valeur s’approcherait
la variance estimée des proportions calculées dans ces échantillons?
a) L’infini
b) 0.142
c) 0.17(1 − 0.17)/100
d) 0.14(1 − 0.14)/100 = 0.001204
e) 0.14 × 0.17
14. Imaginons qu’on se limite à une population de 1000 étudiants. Que deviendrait la réponse à la question précédente?
a) Elle ne changerait pas si le sondage est aléatoire simple sans remise.
b) Elle serait multipliée par 900/999.
c) Elle serait multipliée par 999/900.
d) Elle serait multipliée par 900/999 si le sondage est aléatoire simple
sans remise.
e) Deux des réponses ci-dessus sont correctes.
15. On appelle P̂100 , l’estimateur de cette proportion p. Quelle est la meilleure
proposition?
a) P̂100 n’est pas aléatoire et est une statistique.
b) P̂100 est aléatoire et est une statistique.
c) P̂100 est aléatoire mais n’est pas une statistique.
d) P̂100 n’est pas aléatoire et n’est pas une statistique.
e) P̂100 est toujours égal à p̂100 .
16. Quelle est la meilleure proposition?
a) On approxime la distribution de P̂100 par une N (µ = 0.14; σ 2 =
0.001204).
b) 100P̂100 ∼ Bin(100; 0.14).
5
c) 100P̂100 ∼ Bin(100; 0.17).
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Toutes les réponses a., b. et c. ci-dessus sont correctes.
17. On étudie le comportement d’une machine à embouteiller de la bière. Celleci a un volume de remplissage nominal (moyen) de 25cl. Le volume débité à
chaque bouteille est distribué normalement avec une variance de σ 2 = 4.8cl2 .
Les volumes débités successifs sont considérés indépendants et identiquement distribués.
On analyse un échantillon de 10 bouteilles. Donnez la probabilité que le
volume moyen de l’échantillon soit supérieur à 26cl.
a) 0.2232
b) 0.0745
c) 0.5471
d) 0.9459
e) 0.0013
18. On prélève un nouvel échantillon de 15 bouteilles (toujours i.i.d. et indépendant
du premier) sur la même machine. Donnez la probabilité que la moyenne
de ce nouvel échantillon soit supérieure à la moyenne de l’échantillon de
10 bouteilles. Indice: une somme de normales indépendantes est encore une
normale.
a) 0.3
b) 0.43
c) 0.5
d) 0.01
e) 0.465
19. Dans les capitales de 5 cantons d’un grand pays, on observe les superficies
suivantes
103 118 24 27
90
Quelles sont les estimations ponctuelles de l’écart-type sn et de la moyenne
xn (n = 5)?
a) xn = 72.4 et sn = 1932.3
b) xn = 72.4 et sn = 31.98
c) xn = 72.4 et sn = 39.32
d) xn = 72.4 et sn = 43.96
e) xn = 72.4 et sn = 46.01
6
III. Intervalles de confiance
Remarque : mêmes remarques qu’à la section 2.
1. Le niveau de confiance dans ce dernier exemple peut être augmenté à 99%.
Que vaut l’intervalle de confiance correspondant? Que remarquez-vous par
rapport à l’intervalle de niveau 95%?
(a) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un
intervalle aléatoire qui a une plus faible probabilité de contenir la
moyenne.
(b) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un
intervalle aléatoire qui a une plus grande probabilité de contenir la
moyenne.
(c) [89,19; 106,00]. La longueur de l’intervalle ne change pas car ce dernier
est la réalisation d’un intervalle aléatoire dont la probabilité de contenir
la moyenne est la même.
(d) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est
la réalisation d’un intervalle aléatoire qui a une plus faible probabilité
de contenir la moyenne.
(e) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la
réalisation d’un intervalle aléatoire qui a une plus grande probabilité
de contenir la moyenne.
2. Si la taille de l’échantillon augmente, la longueur de l’intervalle de confiance
a tendance à
(a) diminuer et c’est normal car plus d’information (n plus grand)
mener à une plus grande précision.
(b) augmenter et c’est normal car plus d’information (n plus grand)
mener à une plus grande précision.
(c) rester stable.
(d) diminuer et c’est normal car plus d’information (n plus grand)
mener à une plus faible précision.
(e) augmenter et c’est normal car plus d’information (n plus grand)
mener à une plus faible précision.
doit
doit
doit
doit
3. Si un intervalle de confiance aléatoire a une probabilité (approximative dans
la dernière vidéo) 1 − α (un niveau de confiance (1 − α) × 100% ou 1 − α)
de contenir le paramètre d’intérêt (la moyenne dans la dernière vidéo), on
peut imaginer des intervalles qui ne sont pas limités à droite (dont la borne
supérieure vaut par exemple +∞ pour l’exemple de la moyenne dans la
dernière vidéo) et dont le niveau reste (1 − α) × 100%. De manière générale,
7
on appellera ce type d’intervalle, intervalle de confiance unilatéral à droite.
Comment transforme-t-on l’intervalle obtenu dans la vidéo introd. de ce
chapitre pour obtenir ces intervalles? Indice : reprenez le raisonnement fait
dans la vidéo d’introduction en remplaçant zα/2 la première fois qu’il apparaı̂t par z0 = −∞.
(a) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z1−α dans la borne inférieure (au lieu de z1−α/2 dans la vidéo d’introduction).
(b) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z1−α/2 dans la borne inférieure.
(c) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et zα (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
(d) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et zα/2 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
(e) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure
et z0 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne
inférieure.
4. En suivant un raisonnement similaire à celui de la question précédente,
proposez un intervalle de confiance approximatif unilatéral à gauche pour
la moyenne µ (sur base des mêmes hypothèses que celles utilisées dans la
vidéo d’introduction).
√ 2
√ 2
z
Sn
z1−α/2 Sn
√
√
(a) X̄n − 1−α/2
;
X̄
+
.
n
n
n
√
2
z
Sn
√
.
(b) −∞; X̄n + 1−α/2
n
√
z
S2
(c) −∞; X̄n + 1−α√n n .
√ 2
zα Sn
(d) −∞; X̄n + √n .
√ 2
zα/2 Sn
(e) −∞; X̄n + √n
.
5. Le propriétaire d’un restaurant français veut étudier les préférences de ses
clients. Il décide de se concentrer sur deux variables: la somme d’argent
dépensée par client et la commande ou non d’un dessert par ces derniers.
L’étude porte sur un groupe de n = 60 clients (échantillon supposé i.i.d.).
Pour ce groupe de clients, il en ressort une somme d’argent dépensée par
client de moyenne x̄n = $38.54 et d’écart-type sn = $7.26 ainsi que 18
desserts commandés. Déterminez un intervalle de confiance approximatif
8
(bilatéral) au niveau de confiance 0,90 (ou 90%) pour la proportion de clients
(en population) qui commandent un dessert. NB: z0.95 =1.6449, z0.975 =1.96,
z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1).
a) [0.1840; 0.4160]
b) [0.1227; 0,5276]
c) [0.2027; 0.3973]
d) [0.4568; 0.9906]
e) [0.1298; 1]
6. Déterminez un intervalle de confiance unilatéral à droite approximatif au
niveau 0,90 pour la proportion de clients qui commandent un dessert.
a) [0.2027; 1]
b) [0.2242; 1]
c) [0.2027; +∞]
d) [0; 0.2242]
e) [−∞; 0.2242]
7. Comment interpréter cet intervalle unilatéral à droite? Donnez la meilleure
réponse non triviale.
a) On y trouve une borne inférieure sur la valeur de la vraie proportion de
clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
b) On y trouve une borne supérieure sur la valeur de la vraie proportion de
clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
c) On y trouve une borne inférieure sur la valeur de la proportion observée
de clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
d) On y trouve une borne supérieure sur la valeur de la proportion observée de clients du restaurant qui prennent un dessert (au niveau de
confiance donné).
e) On y trouve deux bornes inférieures sur la valeur de la vraie proportion
de clients du restaurant qui prennent un dessert (au niveau de confiance
donné).
8. Prenons deux intervalles de confiance unilatéraux à droite observés (construits
sur le même échantillon) pour la proportion ci-dessus dont les niveaux de
confiance sont respectivement 0.95 et 0.90.
a) L’intervalle de niveau 0.90 est plus long que celui de niveau 0.95
b) L’intervalle de niveau 0.95 est plus long que celui de niveau 0.90
c) Les deux intervalles ont une longueur infinie.
9
d) On ne peut savoir quel est l’intervalle le plus long.
e) L’intervalle unilatéral à droite de niveau 0.95 est plus court que l’intervalle bilatéral de niveau 0.90.
9. Donnez un intervalle de confiance approximatif (bilatéral) au niveau 0,95
pour la somme d’argent moyenne dépensée par client dans ce restaurant.
NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼
N (0,1).
a)
b)
c)
d)
e)
[36.9983; 40.0817]
[37,7220; 39,874]
[38,2134; 39,248]
[38,2134; 38,8934]
[36,7030; 40,377]
10. Un intervalle de confiance du type de la question précédente est
a) symétrique autour de la moyenne observée dans l’échantillon.
b) plus grand si la variance observée dans l’échantillon est plus grande
(les autres quantités restant les mêmes).
c) plus grand si la taille de l’échantillon est plus grande (les autres quantités restant les mêmes).
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Toutes les réponses a., b. et c. ci-dessus sont correctes.
11. Si le niveau d’un intervalle de confiance du même type augmente (les autres
quantités restant les mêmes),
a)
b)
c)
d)
e)
l’intervalle de confiance s’élargit.
l’intervalle se raccourcit.
L’intervalle peut s’agrandir ou se raccourcir.
L’intervalle reste le même.
0 entre dans l’intervalle.
12. On reste dans le contexte du propriétaire du restaurant qui veut étudier
les préférences de ses clients mais on considère que l’échantillon obtenu
est maintenant le résultat d’un sondage aléatoire simple sans remise. Le
propriétaire possède un listing de ses clients de taille 651 sur lequel il effectue
ce sondage. Les autres données de la question ci-dessus restent les mêmes.
Que devient l’intervalle de confiance de niveau 0,9 pour la proportion de
clients (en population) qui commandent un dessert?
a)
b)
c)
d)
Il reste le même car l’échantillon est toujours i.i.d.
[0,2072; 0,3928].
On ne peut le calculer car le taux de sondage est trop grand.
[0,2010; 0,4589].
10
e) [0,1801; 0,4990].
13. On fabrique des pièces en série à l’aide d’une machine. La machine est réglée
de telle sorte que le diamètre des pièces fabriquées est distribué selon une loi
normale. On prélève un échantillon aléatoire i.i.d. de 10 pièces dans la production. On mesure la dispersion du diamètre des pièces dans l’échantillon
2
. On obtient s10 = 0,02 mm. Calculez
comme indiqué par la statistique S10
un intervalle de confiance bilatéral de niveau 95% pour l’écart-type du
diamètre.
a) [0,0365; 0,0546]
b) [0,0034; 0,0134]
c) [0,0041; 0,1267]
d) [0,0138; 0,0365]
e) [0; 0,0398]
14. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les
individus ont suivi la formation tandis que dans le second (de taille 112),
aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 individus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en
ont trouvé dans le second. Donnez un intervalle de confiance bilatéral au
niveau 95% pour p1 − p2 . p1 et p2 désignent respectivement les proportions
dans les deux populations considérées (ceux qui ont suivi la formation et
ceux qui ne l’ont pas suivie).
a) [−0.9801; −0.0034]
b) [0.4567; 0.6743]
c) [0.0028; 0.3134]
d) [−0.4567; 0.6743]
e) [−1.4523; 2,4538]
IV. Tests d’hypothèses
Remarque : mêmes remarques qu’à la section 2.
1. Un électricien est convaincu que l’écart-type des mesures de son ampèremètre
est exactement égal à 2. Il effectue 16 mesures (que l’on suppose i.i.d.)
à l’aide de son ampèremètre. On se demande si les données permettent
d’infirmer la conviction de l’électricien. Pour ce faire, on réalise un test bilatéral sur la variance au seuil 5%. A quelle condition sur s2n rejette-t-on
11
l’hypothèse nulle de ce test ? On supposera que les mesures suivent une
distribution normale.
a)
b)
c)
d)
e)
s2n < 6.26 ou s2n > 27.49
s2n < 1.669903 ou s2n > 7.330238
6.26 < s2n < 27.49
6.67733 < s2n < 29.3226667
s2n > 4
2. Une compagnie aérienne décide de contrôler le retard de ses vols au départ
de l’aéroport de Bruxelles. Pour son étude, elle décide de se concentrer sur
le vol Bruxelles-Rio. Elle a relevé la durée réelle (exprimée en minutes) de
100 vols (échantillon i.i.d.) Bruxelles-Rio. On peut supposer que le temps
de vol entre ces 2 villes suit une loi normale. Voici les statistiques obtenues :
100
X
xi = 67762.21,
i=1
100
X
x2i
= 46308531 et
i=1
100
X
(xi − x̄)2 = 391360.3
i=1
Dans sa dernière compagne publicitaire, la compagnie aérienne affirme que
ses vols arrivent toujours à l’heure (sous-entendu en moyenne). Sachant que
la durée de vol en conditions normales est de 11h10, elle souhaite savoir si
ses vols arrivent en moyenne à l’heure à l’aide d’un test au seuil de 5%.
Quelle est ici la valeur de la statistique de test?
a)
b)
c)
d)
e)
-0.121838981
1.212282555
0.121838981
1.21838981
-1.21838981
3. Un chercheur a mis au point un médicament et prétend que celui-ci favorise le sommeil pour une proportion p = 80% des personnes souffrant
d’insomnie. Après avoir examiné le dosage, vous pensez que ses allégations
concernant l’efficacité de la dose sont fausses. Afin de confirmer votre intuition, vous administrez ce médicament à 200 insomniaques (échantillon
i.i.d.) et vous observez 101 insomniaques pour qui le médicament favorise
le sommeil. Vous voulez tester l’hypothèse H0 : p ≥ 0.8 contre H1 : p < 0.8
au seuil 5%. Quelle affirmation est correcte pour ce test? On peut utiliser
une statistique de test dont la loi est sous H0
a) normale et asymptotique.
b) une χ2 et asymptotique.
c) normale et exacte.
12
d) de Student et asymptotique.
e) de Student et exacte.
4. On considère l’énoncé de la question précédente. Pour ce test, quelle est la
formule de la p-valeur?
√
√
√
√
a) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p =
0.8)
√
√
√
√
b) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p =
0.8)
√
√
√
√
c) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p =
101/200)
√
√
√
√
d) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p =
101/200)
√
√
√
√
e) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2)
5. Dans la question précédente, pour un test unilatéral à droite, la p-valeur
serait
a) P (Fn < 101/200|p = 0.8)
b) P (Fn > 101/200|p = 101/200)
c) P (Fn < 101/200|p = 101/200)
d) P (Fn > 101/200|p = 0.8)
e) P (Fn > 101/200)
6. Dans le contexte des deux questions précédentes,
a) au vu de la valeur de Fn , le test unilatéral à gauche semble bien plus
utile que le test unilatéral à droite.
b) au vu de la valeur de Fn , le test unilatéral à droite semble bien plus
utile que le test unilatéral à gauche.
c) la p-valeur doit toujours correspondre à une probabilité conditionnelle
à une valeur de p possible sous H0 .
d) 2 des 3 propositions a), b) et c) de cette question sont correctes.
e) Aucune des propositions a), b), c) et d) de cette question n’est correcte.
7. On souhaite construire un intervalle de confiance pour la différence de
proportions de végétariens en Suède (p1 ) et au Portugal (p2 ). On extrait
ainsi un échantillon i.i.d. de Suède et un échantillon i.i.d. du Portugal. Les
deux échantillons sont indépendants. La proportion de végétariens en Suède
est 0.09 pour un échantillon de 100 personnes. Cette même proportion au
Portugal tombe à 0.04 avec un échantillon de n2 personnes. Quelle est
l’expression de la statistique pivotale observée correspondant à ce problème
d’intervalle de confiance pour une différence de proportions?
0.09−p1
0.04−p2
−q
a) √
0.0008
0.0384
n2
13
b) q
p1 −p2
c)
p2 −p1
0.000819+ 0.0384
n
2
q
0.000819+ 0.0384
n
2
d)
√
0.05−(p1q
−p2 )
0.000819+
0.0384
n2
2)
e) q0.05−(p1 −p0.0384
0.000819+
n2
8. Si on voulait tester p1 = p2 (sous H0 ) dans la question précédente, que
devrait-on changer à la statistique pivotale pour en faire une statistique de
test?
a) Poser p1 = p2 , ce qui signifie modifier uniquement le numérateur de la
statistique pivotale.
b) Poser p1 = p2 , ce qui signifie modifier uniquement le dénominateur de
la statistique pivotale.
c) Rien du tout.
d) Poser p1 = p2 = 0.
e) Poser p1 = p2 , ce qui signifie modifier le numérateur et le dénominateur
de la statistique pivotale.
9. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons
indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54),
tous les individus ont suivi la formation tandis que dans le second (de taille
112), aucun individu ne l’a suivie. Au bout d’une année, on constate que
23 individus ont trouvé de l’emploi dans le premier échantillon tandis que
30 en ont trouvé dans le second. Quelle est la p-valeur du test H0 : p1 ≤ p2
contre H1 : p1 > p2 ? p1 et p2 désignent respectivement les proportions dans
les deux populations considérées (ceux qui ont suivi la formation et ceux
qui ne l’ont pas suivie).
a)
b)
c)
d)
e)
0.6573
0.0203
0.0000
0.05
0.9541
10. Le propriétaire d’un commerce de détail change de stratégie de marketing.
Il espère ainsi augmenter le montant moyen de ses transactions. Jusqu’à
présent, ce montant moyen avait été calculé sur un échantillon i.i.d. de taille
300 ; le propriétaire avait obtenu un montant moyen de x̄n1 = 510 avec un
écart-type sn1 = 111. Il constate qu’après avoir mis en oeuvre sa nouvelle
stratégie de marketing, le montant moyen des transactions d’un échantillon
i.i.d. de 200 clients (indépendant du premier échantillon) est de x̄n2 = 537
14
euros avec un écart-type sn2 = 100 euros. On voudrait savoir si sa nouvelle
stratégie de marketing augmente effectivement le montant moyen de ses
transactions? Quel est le protocole de test relatif à cette question (µ1 et µ2
désignent respectivement les montants moyens avant et après changement
de stratégie de marketing)?
a)
b)
c)
d)
e)
H0
H0
H0
H0
H0
: µ2
: µ2
: µ2
: µ2
: µ2
≤ µ1
≥ µ1
= µ1
< µ1
> µ1
contre
contre
contre
contre
contre
H1
H1
H1
H1
H1
: µ2
: µ2
: µ2
: µ2
: µ2
> µ1
< µ1
6= µ1
≥ µ1
≤ µ1
11. Pour ce problème, on prend un niveau de test égal à 5%. Une diminution
de ce niveau entraı̂ne
a)
b)
c)
d)
e)
une limite de la région critique plus grande (en valeur absolue).
une p-valeur plus grande.
une p-valeur plus petite.
des tailles d’échantillons plus grandes.
Deux des trois réponses a., b. et c. ci-dessus sont correctes.
12. Quelle est la p-valeur pour ce test? On suppose l’égalité des variances.
a)
b)
c)
d)
e)
0.000
0.0023
0.1091
0.0028
0.1043
13. Quelle est la p-valeur pour ce test? On ne suppose pas l’égalité des variances.
a)
b)
c)
d)
e)
0.000
0.0023
0.1091
0.0028
0.1043
14. Au niveau 5%,
a) on rejette dans les deux cas.
b) on rejette quand on suppose l’égalité des variances et on ne rejette pas
quand on ne suppose pas cette égalité.
c) on ne rejette pas quand on suppose l’égalité des variances et on rejette
quand on ne suppose pas cette égalité.
d) on ne rejette dans aucun des deux cas.
e) on rejette plus qu’au niveau 10%.
15
15. Supposons que l’échantillon de taille 200 soit issu d’une population de
clients de taille 1000 (cette population a été considérée dans les questions
précédentes comme suffisamment grande pour ne pas se soucier du caractère
avec ou sans remise du sondage aléatoire simple qui a permis d’obtenir
les échantillons). Afin de collecter le plus possible d’individus différents,
cet échantillon traité ici (de taille 200) a été construit par la méthode de
sondage aléatoire simple sans remise. Peut-on affirmer au niveau 5% que
la nouvelle stratégie permet d’obtenir un montant moyen des transactions
supérieur à 530? Quelle est la p-valeur correspondante?
a) Non, la p-valeur vaut 0,05.
b) Oui, la p-valeur vaut 0,0087.
c) Non, la p-valeur vaut 0,8657.
d) Oui, la p-valeur vaut 0,0134.
e) Non, la p-valeur vaut 0,1343.
V. Régression linéaire simple
Remarque : mêmes remarques qu’à la section 2.
On suppose un modèle de régression linéaire simple Y = α + βX + ε, ε ∼
N (0,σ 2 ), entre le revenu Y et la durée des études X (en années). En 1970, un
échantillon de 50 nord-américains suivant le modèle ci-dessus avec des erreurs
indépendantes, dont l’âge variait entre 35 et 54 ans a permis d’estimer les pab obs = 1200 et b = βbobs = 800. Le revenu
ramètres de la droite de régression: a = α
moyen était de y n = 10000 et la durée moyenne des études était de xn = 11 avec
50
X
(xi − xn )2 = 900.
i=1
L’écart-type (estimé) des erreurs autour de la droite de régression ajustée était
de 73.
1. Dans cet énoncé,
a) les erreurs ne peuvent être que i.i.d.
b) les couples (Xi ,Yi ), i = 1, . . . ,n, sont i.i.d.
c) les Yi sont i.i.d.
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Les trois réponses a., b. et c. ci-dessus sont correctes.
16
2. Dans cet énoncé,
a) augmenter d’une année le nombre d’années d’études a pour effet d’augmenter en moyenne le revenu d’environ 800.
b) si le modèle est correct en 0, ne pas faire d’études correspond en
moyenne à un revenu d’environ 1200.
c) si le modèle est correct en 0, faire une année d’études correspond en
moyenne à un revenu d’environ 2000.
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Les trois réponses a., b. et c. ci-dessus sont correctes.
3. Sur un graphe des résidus (en fonction des valeurs de la covariable), on
observe si
a) la distribution des points (résidus) est relativement similaire pour des
valeurs de covariable différentes. Si ce n’est pas le cas, alors les résultats
d’inférence statistique en régression linéaire simple sont à remettre en
question.
b) la relation entre les résidus et les valeurs de la covariable est linéaire.
Si c’est le cas, les résultats d’inférence statistique sont corrects.
c) la relation entre les résidus et les valeurs de la covariable est à peu
près constante (la droite passant le mieux par ces résidus -au sens des
moindres carrés a une pente proche de 0 -). Si ce n’est pas le cas, les
résultats d’inférence statistique sont incorrects.
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Les trois réponses a., b. et c. ci-dessus sont correctes.
4. Dans cet énoncé, que vaut la somme des carrés des résidus?
a) 73
b) 255792
c) 3504
d) 5329
e) 146
5. Avec un tel nombre de degrés de liberté, on considérera que la Student et
la normale standard se confondent. Donnez un intervalle de confiance pour
α de niveau 95% (NORM.INV(0,975;0;1)=1,96).
a) [a − 1,96seα ,a + 1,96seα ].
b) [b − 1,96seβ ,a + 1,96seβ ].
c) [a − t21;0,975 seα ,a + t21;0,975 seα ].
d) [a − χ221;0,975 seα ,a + χ221;0,975 seα ].
e) [b − χ221;0,975 seβ ,b + χ221;0,975 seβ ].
17
Pn
(ŷi −ȳn )2
Pi=1
n
2
2
ε
= 1 − Pn(n−2)se
. Si ici le R2 = 0,7,
6. Nous savons que R =
(y
−ȳ
)
(y −ȳn )2
n
i
i=1
i=1 i
que vaut l’estimation ponctuelle de la variance de Y ?
2
a)
b)
c)
d)
e)
238,3673
248,4028
18133,4
17400,82.
7457,493
7. Ce R2 = 0,7 signifie que
a) 70% de la variabilité des réponses sont expliqués par la droite de
régression.
b) 70% de la variabilité des erreurs sont expliqués par la droite de régression.
c) 70% de la variabilité des réponses sont expliqués par les erreurs du
modèle.
d) Deux des trois réponses a., b. et c. ci-dessus sont correctes.
e) Les trois réponses a., b. et c. ci-dessus sont correctes.
8. Un économiste prétend que β, la vraie pente du modèle, vaut 700. Pour
tester cette affirmation, on effectue un test unilatéral à droite. Quel est le
bon protocole (hypothèses nulle et alternative) pour ce test?
a)
b)
c)
d)
e)
H0 : β ≤ 800, H1 : β > 800.
H0 : β ≥ 700, H1 : β < 700.
H0 : β ≤ 700, H1 : β > 700.
H0 : β ≥ 800, H1 : β < 800.
Aucune des réponses a., b., c. et d. ci-dessus n’est correcte.
9. Dans ce contexte, quelle est la bonne statistique de test observée?
a)
b)
c)
d)
e)
100/seβ
−100/seβ
0
√
−100 ∗ 48/seβ
Aucune des réponses a., b., c. et d. ci-dessus n’est correcte.
10. Quelle est la région critique pour ce test (niveau de test de 5%)?
a)
b)
c)
d)
e)
[t48;0,05 , + ∞[
] − ∞, − t48;0,05 ]
] − ∞, − t48;0,95 ]
[t48;0,95 , + ∞[
Aucune des réponses a., b., c. et d. ci-dessus n’est correcte.
11. Quelle est la p−valeur pour ce test?
a) 1
18
b)
c)
d)
e)
1,96
0,05
0
0,975
12. Quelle est la prédiction/prévision du revenu de quelqu’un ayant effectué 10
années d’études?
a)
b)
c)
d)
e)
8000
9200
10000
10000 ± 150
10000 ± 73
13. Fournissez un intervalle de confiance de niveau 95% pour α+10β. T.INV(0,975;48)=2,010635;
T.INV(0,95;48)=1,677224; T.INV(0,95;50)=1,675905 ; T.INV(0,975;50)=2.008559 ;
T.INV(0,05;50)=-1,675905.
a)
b)
c)
d)
e)
q
[9178.674; 9221.326] 9200 ± 2,010635 × 73 1/50 + 1/900
[9182.21; 9217.79]
[9051.682; 9348.318]
[9851.682; 10148.32]
[9851.836; 10148.16]
14. Fournissez un intervalle de prédiction/prévision de niveau 95% pour le revenu d’un individu ayant effectué 10 années d’études.
a)
b)
c)
d)
e)
[9178.674; 9221.326]
[9182.21; 9217.79]
q
[9051.682; 9348.318] 9200 ± 2,010635 × 73 1 + 1/50 + 1/900
[9851.682; 10148.32]
[9851.836; 10148.16]
VI. Régression linéaire simple : aspect complémentaires et vraisemblance
Remarque : mêmes remarques qu’à la section 2.
1. Considérons un échantillon i.i.d. {X1 , . . . ,X4 } issu d’une population de
Bernoulli de paramètre p = P (Xi = 1), i = 1, . . . ,4. L’échantillon observé
est {x1 , . . . ,x4 } = {1,0,0,0}. Quelle est la fonction de vraisemblance?
a) 1/4
19
b) p(1 − p)3
c) 1/3
d) p3 (1 − p)
e) Aucune des réponses ci-dessus n’est correcte.
2. Dans ce contexte, quelle est la fonction de log-vraisemblance?
a) log(p) + 3 log(1 − p)
b) p(1 − p)3
c) log(3p/(1 − p))
d) log(p3 (1 − p))
e) log(1/4)
3. Dans ce contexte, quelle est la valeur de l’estimateur du maximum de vraisemblance?
a) 1/4
b) p(1 − p)3
c) 1/3
d) p3 (1 − p)
e) No good answer above
4. Un certain composant électronique est fabriqué une fois par mois par l’entreprise Micro-Systèmes. La quantité fabriquée varie avec la demande du
marché. Dans le but de planifier la production et d’établir certaines normes
sur le nombre d’hommes-minutes exigés pour la production de différents
lots de ce composant électronique, le responsable de la production a relevé
l’information suivante pour 15 cédules de production. Le nombre d’hommesminutes est identifié par Y et la quantité fabriquée par X.
x
Y
35 42 64 88 70 85 40 30 55 60 51 72 80 44 39
150 192 264 371 300 358 192 134 242 238 226 302 340 182 169
Dans ce contexte, le responsable voudrait supposer un modèle de régression
linéaire simple. Quel modèle pouvez-vous traiter facilement (estimation et
inférence pour les paramètres)?
a) Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 )
b) Y = β0 + β1 X + ε
c) Y = β0 + β1 X
d) Y = β0 + β1 X + ε, V ar[ε] = σ 2
e) Y = β0 + β1 X + ε, E[ε] = 0
15
15
5. On calcule x̄15 = (1/15) 15
i=1 xi = 57, ȳ15 = (1/15)
i=1 yi = 244,
i=1 (xi −
P15
2
x̄15 ) = 4986, i=1 (xi − x̄15 )(yi − ȳ15 ) = 20027, où les xi (respectivement yi )
P
P
20
P
6.
7.
8.
9.
sont les valeurs de x (respectivement Y ) dans le tableau ci-dessus. Donnez
une estimation pour la pente dans le modèle choisi.
a) −0.0045
b) −2.5285
c) 0
d) 4.0166
e) 1.5490
Dans ce contexte, l’estimation ponctuelle du coefficient de corrélation (r(X,Y ))
doit être
a) positive.
b) négative.
c) nulle.
d) égale à l’estimation ponctuelle de la pente.
e) égale à −1.
Selon le modèle estimé (β̂0obs et β̂1obs sont les estimations correspondant aux
estimateurs β̂0 et β̂1 des moindres carrés),
a) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs .
b) si la quantité fabriquée diminue d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs .
c) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen diminue de β̂1obs .
d) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes reste constant.
e) Aucune des réponses a., b., c. et d. ci-dessus n’est correcte.
P
Trouvez une estimation de la variance des erreurs sachant que 15
i=1 (yi −
2
obs
obs
β̂0 − β̂1 xi ) = 90056.29
a) Cette quantité divisée par 13 fournit une estimation de la variance des
erreurs.
b) La racine carrée de cette quantité fournit une estimation de la variance
des erreurs.
c) Cette quantité divisée par 13 est utile pour calculer un intervalle de
confiance pour β1 .
d) Une bonne estimation de l’écart-type des erreurs est 83.23105.
e) Seule une réponse parmi a., b., c. et d. est fausse.
Calculez un intervalle de confiance bilatéral au niveau 90% pour β1 (t13;0.90 =
1.3502, t13;0.95 = 1.7709, t15;0.90 = 1.3406, t15;0.95 = 1.7531, z0.90 = 1.2816,
z0.95 = 1.6449)
a) [−1.929172,4.104028]
21
b) [1.950251,6.082949]
c) [2.077784,5.955416]
d) [1.929172,6.104028]
e) [2.425131,5.608069]
10. On suppose un modèle de régression linéaire simple Y = β0 + β1 X + ε,
ε ∼ N (0,σ 2 ), entre le durée des études des enfants Y et celle des parents
X. En 2009, un échantillon de 40 données ((xi ,Yi ), i = 1, . . . ,40) suivant
le modèle ci-dessus avec des erreurs indépendantes a permis d’estimer les
paramètres de la droite de régression: b0 = βb0obs = 0,3 et b1 = βb1obs = 1,2. La
durée moyenne (observée) des études des enfants est y n = 14,5 et la durée
moyenne des études des parents de xn = 11 avec
50
X
(xi − xn )2 = 100.
i=1
L’écart-type (estimé) des résidus autour de la droite de régression ajustée
1
était de 1,4. Soit la statistique √β̂1 −β
.
2
σ̂ /100
a) Sa distribution est normale
b) Sa distribution est une Student à 38 degrés de liberté.
c) Sa distribution serait normale si les erreurs n’étaient pas distribuées
selon une normale.
d) Sa distribution est asymptotique.
e) Aucune des réponses ci-dessus n’est correcte.
11. Si les erreurs n’étaient pas distribuées selon une normale (toutes les autres
hypothèses du modèle ci-dessus seraient néanmoins conservées), quelle serait la distribution de cette quantité?
a) Sa distribution serait normale.
b) Sa distribution serait asymptotiquement normale.
c) Sa distribution serait une Student à 38 degrés de liberté.
d) Sa distribution serait asymptotiquement une χ2 .
e) Aucune des réponses ci-dessus n’est correcte.
12. Si on veut calculer une estimation ponctuelle du coefficient de corrélation
linaire (r(X,Y )), que nous manque-t-il pour le calculer?
a) Une estimation ponctuelle de Cov[X,Y ].
b)
Pn
i=1 (xi
− x̄n )ȳn .
c) Une estimation ponctuelle de la variance de la réponse Y .
d) Deux des trois réponses a), b) et c) sont correctes.
e) Aucune des trois réponses a), b) et c) n’est correcte.
22
13. On considère bien pour la suite ε ∼ N (0,σ 2 ). On se donne l’intervalle [1,2 −
t38;0,975 × 0,14; 1,2 + t38;0,975 × 0,14] où t38;0,975 suit les notations habituelles
du cours pour les quantiles. Il s’agit d’un intervalle de confiance
a)
b)
c)
d)
e)
observé
bilatéral
pour b1
Les réponses a), b) et c) sont correctes.
Deux des trois réponses a), b) et c) sont correctes.
14. Soit H0 : β1 ≥ 0 contre H1 : β1 < 0. A quelle question pourrait correspondre
ce protocole?
a)
b)
c)
d)
La durée des études des enfants a-t-elle un impact sur celle des parents?
La durée des études des enfants est-elle significativement positive?
La durée des études des parents est-elle significativement positive?
La durée des études des enfants est-elle (significativement) positivement (pente positive) liée à la durée des études des parents?
e) La durée des études des enfants est-elle (significativement) négativement
(pente négative) liée à la durée des études des parents?
15. Comment transformer la statistique ci-dessus pour effectuer le test correspondant à ce protocole?
a)
b)
c)
d)
e)
En remplaçant β1 par 0.
En remplaçant β̂1 par b1 .
En remplaçant β̂1 par β0 .
En remplaçant β̂1 par 0.
Aucune des réponses ci-dessus n’est correcte.
16. Quelle est la région critique de ce test (niveau 5%)? On appelle Stat la
statistique de l’énoncé (dernière ligne) adaptée à la question précédente.
a)
b)
c)
d)
e)
|Stat| > t38;0,975
Stat < t38;0,05
Stat > t38;0,05
Stat > t38;0,95
Aucune des réponses ci-dessus n’est correcte.
17. Donnez une prédiction (ponctuelle) pour x = 5.
a)
b)
c)
d)
e)
0,3
6,3 ± 1,4
6,3
0,9
Aucune des réponses ci-dessus n’est correcte.
23
18. Soit Ŷ5 = β̂0 + 5β̂1 (β̂0 et β̂1 sont les estimateurs de moindres carrés). On
donne la statistique √ 2Ŷ5 −β0 −5β1 . A quoi sert cette statistique?
σ̂ (1/40+36/100)
a) A obtenir un intervalle de confiance pour Y5 , la variable aléatoire
décrivant la vraie valeur de Y quand x = 5.
b) A obtenir un intervalle de confiance pour β0 + β1 x.
c) A obtenir un intervalle de confiance pour β0 + 5β1 .
d) A obtenir un intervalle de confiance pour Ŷ5 ,
e) Aucune des réponses ci-dessus n’est correcte.
19. On donne ensuite √ 2 Ŷ5 −Y5
. A quoi sert cette statistique?
σ̂ (1+1/40+36/100)
a) A obtenir un intervalle de prédiction pour β0 + β1 x.
b) A obtenir un intervalle de prédiction pour β0 + 5β1 .
c) A obtenir un intervalle de prédiction pour Ŷ5 ,
d) A obtenir un intervalle de prédiction pour Y5 , la variable aléatoire
décrivant la vraie valeur de Y quand x = 5.
e) A rien : on ne connaı̂t rien de sa distribution.
20. Quelle est la différence entre les intervalles des deux questions précédentes?
a) L’intervalle de la question précédente est toujours plus étroit que l’intervalle de l’autre question (2 questions plus haut).
b) L’intervalle de la question précédente est un intervalle pour une quantité aléatoire alors que celui de l’autre question l’est pour une grandeur
non aléatoire.
c) L’intervalle de la question précédente est un intervalle pour une quantité non aléatoire alors que celui de l’autre question l’est pour une
grandeur aléatoire.
d) Deux des trois réponses a), b) et c) proposées dans cette question sont
correctes.
e) Aucune des réponses ci-dessus n’est correcte.
24
Download