Cahier des charges : Échantillonnage et estimation

Cahier de charges I. Introduction et méthodes d’échantillonnage 1. Quelle est la différence entre population et échantillon? 2. Quelle est la différence entre recensement et sondage? 3. Soit l’échantillon {1,4,5,9}. S’agit-il d’un échantillon observé ou aléatoire? 4. Ecrivez soigneusement l’échantillon aléatoire (en symboles mathématiques). 5. Qu’est-ce qu’une statistique? Comment l’écrire? 6. Comment se représenter un échantillonnage aléatoire simple (EAS) au moyen d’un graphique? 7. Qu’est-ce que le taux de sondage? 8. Quelles sont les conséquences d’un tirage avec remise sur la population définie à chaque tirage? 9. Qu’est-ce qu’un échantillon i.i.d.? 10. Quel est le lien entre un échantillon i.i.d. et un échantillon obtenu par EAS? 11. Discutez les avantages et inconvénients d’un échantillonnage en grappes. 12. Discutez les avantages et inconvénients d’un échantillonnage stratifié. 13. Discutez les avantages et inconvénients de la méthode des quotas. 14. Discutez les avantages et inconvénients d’un échantillonnage systématique. II. Echantillonnage et estimation ponctuelle 1. Pour chaque question, donnez la meilleure réponse (il n’y a qu’une seule bonne réponse). 2. Si la taille d’une population n’est pas spécifiée, on la considère comme suffisamment grande pour ne pas devoir apporter de correction de variance. Remarque Si pour une question, il y a plusieurs bonnes réponses et si dans ce cas, une option dit qu’il y a plusieurs bonnes réponses, la meilleure réponse est alors cette option. Exemple : Un nombre plus grand que 2 est a) 0 b) 4 c) 5 d) −2 e) Il y a au moins deux réponses correctes parmi les options a), b), c) et d). 1 Dans ce cas, la meilleure réponse est (e). 1. {1,4,8,9} est le résultat d’un tirage aléatoire. Comment l’appelle-t-on? (a) Une population aléatoire (b) Un échantillon aléatoire. (c) En pratique, on parlera souvent d’un échantillon de taille 4. Plus précisément, il s’agit d’un échantillon observé de taille 4. (d) Une population. (e) Aucune des réponses ci-dessus n’est correcte. 2. De manière générale, une statistique est (a) (b) (c) (d) (e) une fonction des données. un paramètre de la population. un indicateur chiffré traduisant un phénomène. une estimation (ponctuelle). une moyenne empirique. 3. Dans un sondage aléatoire simple sans remise, a) la distribution de la variable aléatoire d’intérêt change lors de chaque tirage. b) on peut négliger les changements (de tirage en tirage) de distribution de la variable aléatoire d’intérêt si le taux de sondage est suffisamment petit. c) la propriété i.i.d. est théoriquement violée. d) Aucune des trois réponses ci-dessus n’est correcte. e) Les trois premières réponses ci-dessus sont correctes. 4. On s’intéresse au salaire moyen des étudiants sortis d’une école de commerce donnée. A partir d’un échantillon de 27 étudiant(e)s dans cette école de commerce, on obtient un salaire moyen de 3170 euros avec un écart-type de 410 euros. Le salaire est modélisé à partir d’une loi normale. Quelle affirmation est correcte? (a) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé connu, l’objet d?étude et le paramètre d’intérêt sont le salaire moyen. (b) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est la moyenne empirique du salaire. (c) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est le salaire moyen. 2 (d) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est la moyenne arithmétique simple en échantillon. 5. On suppose que le poids des pièces produites par une machine est distribué de façon normale et en moyenne égal à 120 grammes, avec un écart-type de 7 grammes. On considère 3 pièces prélevées au hasard (échantillon i.i.d.). Quelle est la loi du poids total des 3 pièces? a) Normale de moyenne 360 grammes et de variance 147 grammes (au carré) b) Normale de moyenne 360 grammes et de variance 49 grammes (au carré) c) Normale de moyenne 120 grammes et de variance 49 grammes (au carré) d) Normale de moyenne 120 grammes et d’écart-type 7 grammes e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 6. Dans quel intervalle centré sur l’espérance de ce poids total (noté PM dans les réponses ci-dessous) se situera ce poids total avec une probabilité de 95% (pour Z ∼ N (0,1), P (Z ≤ zα ) = α)? Xi , i = 1,2,3, correspond à la variable aléatoire décrivant le poids de la ième pièce. √ √ a) [P M − 7 3z1−α/2 ; P M + 7 3z1−α/2 ], α = 0.05 √ √ b) [P M − 7 3z1−α ; P M + 7 3z1−α ], α = 0.01 √ √ c) [X1 + X2 + X3 − 7 3z1−α/2 ; X1 + X2 + X3 + 7 3z1−α/2 ], α = 0.05 √ √ d) [X1 + X2 + X3 − 7 3z1−α ; X1 + X2 + X3 + 7 3z1−α ], α = 0.01 e) [P M − 7z1−α ; P M + 7z1−α ], α = 0.01 7. On considère ensuite 100 pièces prélevées au hasard dans la production (échantillon i.i.d.). Quelle est la loi de la moyenne empirique du poids calculée sur ces 100 pièces? a) Normale de moyenne 120 grammes et de variance 49 grammes (au carré) b) Normale de moyenne 120 grammes et de variance 0,49 grammes (au carré) c) Normale de moyenne 120 grammes et d’écart-type 7 grammes d) Normale de moyenne 120 grammes et d’écart-type 0,07 grammes e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 8. Si le poids d’un pièce prise au hasard n’est pas distribué selon une normale, que peut-on dire de la loi de la moyenne empirique du poids calculée sur ces 100 pièces? On considère que l’échantillon reste i.i.d. a) La même chose qu’à la question précédente 3 b) Cette moyenne empirique centrée et réduite (moyenne empirique moins sa moyenne et divisée par son écart-type) est asymptotiquement distribuée selon une N (0,1). c) La loi de cette moyenne empirique centrée et réduite est proche d’une N (0,1). d) On ne sait rien de la loi de cette moyenne empririque. e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 9. Quelle est la probabilité (éventuellement approximative) que le poids moyen des 100 pièces soit supérieur à 121 grammes? a) b) c) d) e) 0.5. 0. 1. 0.0766. 0.236. 10. On considère une variable aléatoire X ∼ N (µ,σ 2 ). On observe 3 réalisations de cette v.a. : x1 ,x2 et x3 . Parmi les propositions suivantes, combien d’entre elles sont des statistiques observées? 2 – x1x+x 3 2 – X1X+X 3 – x̄ – s2n – Sn2 a) b) c) d) e) 3 2 5 4 1 11. Le proportion d’étudiants végétariens à l’EDHEC est de 14%. On réalise un sondage (i.i.d.) parmi 100 étudiants. 17 d’entre eux disent être végétariens (83 disent ne pas être végétariens). Quelles sont les proportions p dans la population et p̂100 dans l’échantillon correspondant à cet énoncé? a) p = 0.14 et p̂100 = 0.17 b) p = 0.17 et p̂100 = 0.14 c) La proportion dans la population n’est pas donnée mais celle de l’échantillon vaut 0.14. d) La proportion dans la population n’est pas donnée mais celle de l’échantillon vaut 0.17. 4 e) La proportion dans l’échantillon n’est pas donnée mais celle de la population vaut 0.14. 12. Si on construisait (pouvait construire) un très grand nombre d’échantillons (issus de la même population), de quelle valeur s’approcherait la moyenne arithmétique des proportions calculées dans ces échantillons? a) 0.17 b) 0.14 c) 1 d) La moyenne des ces proportions ne s’approcherait d’aucune valeur en particulier. e) La moyenne des ces proportions se trouverait entre 0.14 et 0.17. 13. Dans le contexte de la question précédente, de quelle valeur s’approcherait la variance estimée des proportions calculées dans ces échantillons? a) L’infini b) 0.142 c) 0.17(1 − 0.17)/100 d) 0.14(1 − 0.14)/100 = 0.001204 e) 0.14 × 0.17 14. Imaginons qu’on se limite à une population de 1000 étudiants. Que deviendrait la réponse à la question précédente? a) Elle ne changerait pas si le sondage est aléatoire simple sans remise. b) Elle serait multipliée par 900/999. c) Elle serait multipliée par 999/900. d) Elle serait multipliée par 900/999 si le sondage est aléatoire simple sans remise. e) Deux des réponses ci-dessus sont correctes. 15. On appelle P̂100 , l’estimateur de cette proportion p. Quelle est la meilleure proposition? a) P̂100 n’est pas aléatoire et est une statistique. b) P̂100 est aléatoire et est une statistique. c) P̂100 est aléatoire mais n’est pas une statistique. d) P̂100 n’est pas aléatoire et n’est pas une statistique. e) P̂100 est toujours égal à p̂100 . 16. Quelle est la meilleure proposition? a) On approxime la distribution de P̂100 par une N (µ = 0.14; σ 2 = 0.001204). b) 100P̂100 ∼ Bin(100; 0.14). 5 c) 100P̂100 ∼ Bin(100; 0.17). d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Toutes les réponses a., b. et c. ci-dessus sont correctes. 17. On étudie le comportement d’une machine à embouteiller de la bière. Celleci a un volume de remplissage nominal (moyen) de 25cl. Le volume débité à chaque bouteille est distribué normalement avec une variance de σ 2 = 4.8cl2 . Les volumes débités successifs sont considérés indépendants et identiquement distribués. On analyse un échantillon de 10 bouteilles. Donnez la probabilité que le volume moyen de l’échantillon soit supérieur à 26cl. a) 0.2232 b) 0.0745 c) 0.5471 d) 0.9459 e) 0.0013 18. On prélève un nouvel échantillon de 15 bouteilles (toujours i.i.d. et indépendant du premier) sur la même machine. Donnez la probabilité que la moyenne de ce nouvel échantillon soit supérieure à la moyenne de l’échantillon de 10 bouteilles. Indice: une somme de normales indépendantes est encore une normale. a) 0.3 b) 0.43 c) 0.5 d) 0.01 e) 0.465 19. Dans les capitales de 5 cantons d’un grand pays, on observe les superficies suivantes 103 118 24 27 90 Quelles sont les estimations ponctuelles de l’écart-type sn et de la moyenne xn (n = 5)? a) xn = 72.4 et sn = 1932.3 b) xn = 72.4 et sn = 31.98 c) xn = 72.4 et sn = 39.32 d) xn = 72.4 et sn = 43.96 e) xn = 72.4 et sn = 46.01 6 III. Intervalles de confiance Remarque : mêmes remarques qu’à la section 2. 1. Le niveau de confiance dans ce dernier exemple peut être augmenté à 99%. Que vaut l’intervalle de confiance correspondant? Que remarquez-vous par rapport à l’intervalle de niveau 95%? (a) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un intervalle aléatoire qui a une plus faible probabilité de contenir la moyenne. (b) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un intervalle aléatoire qui a une plus grande probabilité de contenir la moyenne. (c) [89,19; 106,00]. La longueur de l’intervalle ne change pas car ce dernier est la réalisation d’un intervalle aléatoire dont la probabilité de contenir la moyenne est la même. (d) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la réalisation d’un intervalle aléatoire qui a une plus faible probabilité de contenir la moyenne. (e) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la réalisation d’un intervalle aléatoire qui a une plus grande probabilité de contenir la moyenne. 2. Si la taille de l’échantillon augmente, la longueur de l’intervalle de confiance a tendance à (a) diminuer et c’est normal car plus d’information (n plus grand) mener à une plus grande précision. (b) augmenter et c’est normal car plus d’information (n plus grand) mener à une plus grande précision. (c) rester stable. (d) diminuer et c’est normal car plus d’information (n plus grand) mener à une plus faible précision. (e) augmenter et c’est normal car plus d’information (n plus grand) mener à une plus faible précision. doit doit doit doit 3. Si un intervalle de confiance aléatoire a une probabilité (approximative dans la dernière vidéo) 1 − α (un niveau de confiance (1 − α) × 100% ou 1 − α) de contenir le paramètre d’intérêt (la moyenne dans la dernière vidéo), on peut imaginer des intervalles qui ne sont pas limités à droite (dont la borne supérieure vaut par exemple +∞ pour l’exemple de la moyenne dans la dernière vidéo) et dont le niveau reste (1 − α) × 100%. De manière générale, 7 on appellera ce type d’intervalle, intervalle de confiance unilatéral à droite. Comment transforme-t-on l’intervalle obtenu dans la vidéo introd. de ce chapitre pour obtenir ces intervalles? Indice : reprenez le raisonnement fait dans la vidéo d’introduction en remplaçant zα/2 la première fois qu’il apparaı̂t par z0 = −∞. (a) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z1−α dans la borne inférieure (au lieu de z1−α/2 dans la vidéo d’introduction). (b) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z1−α/2 dans la borne inférieure. (c) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et zα (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. (d) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et zα/2 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. (e) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z0 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. 4. En suivant un raisonnement similaire à celui de la question précédente, proposez un intervalle de confiance approximatif unilatéral à gauche pour la moyenne µ (sur base des mêmes hypothèses que celles utilisées dans la vidéo d’introduction). √ 2 √ 2 z Sn z1−α/2 Sn √ √ (a) X̄n − 1−α/2 ; X̄ + . n n n √ 2 z Sn √ . (b) −∞; X̄n + 1−α/2 n √ z S2 (c) −∞; X̄n + 1−α√n n . √ 2 zα Sn (d) −∞; X̄n + √n . √ 2 zα/2 Sn (e) −∞; X̄n + √n . 5. Le propriétaire d’un restaurant français veut étudier les préférences de ses clients. Il décide de se concentrer sur deux variables: la somme d’argent dépensée par client et la commande ou non d’un dessert par ces derniers. L’étude porte sur un groupe de n = 60 clients (échantillon supposé i.i.d.). Pour ce groupe de clients, il en ressort une somme d’argent dépensée par client de moyenne x̄n = $38.54 et d’écart-type sn = $7.26 ainsi que 18 desserts commandés. Déterminez un intervalle de confiance approximatif 8 (bilatéral) au niveau de confiance 0,90 (ou 90%) pour la proportion de clients (en population) qui commandent un dessert. NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1). a) [0.1840; 0.4160] b) [0.1227; 0,5276] c) [0.2027; 0.3973] d) [0.4568; 0.9906] e) [0.1298; 1] 6. Déterminez un intervalle de confiance unilatéral à droite approximatif au niveau 0,90 pour la proportion de clients qui commandent un dessert. a) [0.2027; 1] b) [0.2242; 1] c) [0.2027; +∞] d) [0; 0.2242] e) [−∞; 0.2242] 7. Comment interpréter cet intervalle unilatéral à droite? Donnez la meilleure réponse non triviale. a) On y trouve une borne inférieure sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). b) On y trouve une borne supérieure sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). c) On y trouve une borne inférieure sur la valeur de la proportion observée de clients du restaurant qui prennent un dessert (au niveau de confiance donné). d) On y trouve une borne supérieure sur la valeur de la proportion observée de clients du restaurant qui prennent un dessert (au niveau de confiance donné). e) On y trouve deux bornes inférieures sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). 8. Prenons deux intervalles de confiance unilatéraux à droite observés (construits sur le même échantillon) pour la proportion ci-dessus dont les niveaux de confiance sont respectivement 0.95 et 0.90. a) L’intervalle de niveau 0.90 est plus long que celui de niveau 0.95 b) L’intervalle de niveau 0.95 est plus long que celui de niveau 0.90 c) Les deux intervalles ont une longueur infinie. 9 d) On ne peut savoir quel est l’intervalle le plus long. e) L’intervalle unilatéral à droite de niveau 0.95 est plus court que l’intervalle bilatéral de niveau 0.90. 9. Donnez un intervalle de confiance approximatif (bilatéral) au niveau 0,95 pour la somme d’argent moyenne dépensée par client dans ce restaurant. NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1). a) b) c) d) e) [36.9983; 40.0817] [37,7220; 39,874] [38,2134; 39,248] [38,2134; 38,8934] [36,7030; 40,377] 10. Un intervalle de confiance du type de la question précédente est a) symétrique autour de la moyenne observée dans l’échantillon. b) plus grand si la variance observée dans l’échantillon est plus grande (les autres quantités restant les mêmes). c) plus grand si la taille de l’échantillon est plus grande (les autres quantités restant les mêmes). d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Toutes les réponses a., b. et c. ci-dessus sont correctes. 11. Si le niveau d’un intervalle de confiance du même type augmente (les autres quantités restant les mêmes), a) b) c) d) e) l’intervalle de confiance s’élargit. l’intervalle se raccourcit. L’intervalle peut s’agrandir ou se raccourcir. L’intervalle reste le même. 0 entre dans l’intervalle. 12. On reste dans le contexte du propriétaire du restaurant qui veut étudier les préférences de ses clients mais on considère que l’échantillon obtenu est maintenant le résultat d’un sondage aléatoire simple sans remise. Le propriétaire possède un listing de ses clients de taille 651 sur lequel il effectue ce sondage. Les autres données de la question ci-dessus restent les mêmes. Que devient l’intervalle de confiance de niveau 0,9 pour la proportion de clients (en population) qui commandent un dessert? a) b) c) d) Il reste le même car l’échantillon est toujours i.i.d. [0,2072; 0,3928]. On ne peut le calculer car le taux de sondage est trop grand. [0,2010; 0,4589]. 10 e) [0,1801; 0,4990]. 13. On fabrique des pièces en série à l’aide d’une machine. La machine est réglée de telle sorte que le diamètre des pièces fabriquées est distribué selon une loi normale. On prélève un échantillon aléatoire i.i.d. de 10 pièces dans la production. On mesure la dispersion du diamètre des pièces dans l’échantillon 2 . On obtient s10 = 0,02 mm. Calculez comme indiqué par la statistique S10 un intervalle de confiance bilatéral de niveau 95% pour l’écart-type du diamètre. a) [0,0365; 0,0546] b) [0,0034; 0,0134] c) [0,0041; 0,1267] d) [0,0138; 0,0365] e) [0; 0,0398] 14. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les individus ont suivi la formation tandis que dans le second (de taille 112), aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 individus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en ont trouvé dans le second. Donnez un intervalle de confiance bilatéral au niveau 95% pour p1 − p2 . p1 et p2 désignent respectivement les proportions dans les deux populations considérées (ceux qui ont suivi la formation et ceux qui ne l’ont pas suivie). a) [−0.9801; −0.0034] b) [0.4567; 0.6743] c) [0.0028; 0.3134] d) [−0.4567; 0.6743] e) [−1.4523; 2,4538] IV. Tests d’hypothèses Remarque : mêmes remarques qu’à la section 2. 1. Un électricien est convaincu que l’écart-type des mesures de son ampèremètre est exactement égal à 2. Il effectue 16 mesures (que l’on suppose i.i.d.) à l’aide de son ampèremètre. On se demande si les données permettent d’infirmer la conviction de l’électricien. Pour ce faire, on réalise un test bilatéral sur la variance au seuil 5%. A quelle condition sur s2n rejette-t-on 11 l’hypothèse nulle de ce test ? On supposera que les mesures suivent une distribution normale. a) b) c) d) e) s2n < 6.26 ou s2n > 27.49 s2n < 1.669903 ou s2n > 7.330238 6.26 < s2n < 27.49 6.67733 < s2n < 29.3226667 s2n > 4 2. Une compagnie aérienne décide de contrôler le retard de ses vols au départ de l’aéroport de Bruxelles. Pour son étude, elle décide de se concentrer sur le vol Bruxelles-Rio. Elle a relevé la durée réelle (exprimée en minutes) de 100 vols (échantillon i.i.d.) Bruxelles-Rio. On peut supposer que le temps de vol entre ces 2 villes suit une loi normale. Voici les statistiques obtenues : 100 X xi = 67762.21, i=1 100 X x2i = 46308531 et i=1 100 X (xi − x̄)2 = 391360.3 i=1 Dans sa dernière compagne publicitaire, la compagnie aérienne affirme que ses vols arrivent toujours à l’heure (sous-entendu en moyenne). Sachant que la durée de vol en conditions normales est de 11h10, elle souhaite savoir si ses vols arrivent en moyenne à l’heure à l’aide d’un test au seuil de 5%. Quelle est ici la valeur de la statistique de test? a) b) c) d) e) -0.121838981 1.212282555 0.121838981 1.21838981 -1.21838981 3. Un chercheur a mis au point un médicament et prétend que celui-ci favorise le sommeil pour une proportion p = 80% des personnes souffrant d’insomnie. Après avoir examiné le dosage, vous pensez que ses allégations concernant l’efficacité de la dose sont fausses. Afin de confirmer votre intuition, vous administrez ce médicament à 200 insomniaques (échantillon i.i.d.) et vous observez 101 insomniaques pour qui le médicament favorise le sommeil. Vous voulez tester l’hypothèse H0 : p ≥ 0.8 contre H1 : p < 0.8 au seuil 5%. Quelle affirmation est correcte pour ce test? On peut utiliser une statistique de test dont la loi est sous H0 a) normale et asymptotique. b) une χ2 et asymptotique. c) normale et exacte. 12 d) de Student et asymptotique. e) de Student et exacte. 4. On considère l’énoncé de la question précédente. Pour ce test, quelle est la formule de la p-valeur? √ √ √ √ a) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p = 0.8) √ √ √ √ b) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p = 0.8) √ √ √ √ c) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p = 101/200) √ √ √ √ d) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p = 101/200) √ √ √ √ e) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2) 5. Dans la question précédente, pour un test unilatéral à droite, la p-valeur serait a) P (Fn < 101/200|p = 0.8) b) P (Fn > 101/200|p = 101/200) c) P (Fn < 101/200|p = 101/200) d) P (Fn > 101/200|p = 0.8) e) P (Fn > 101/200) 6. Dans le contexte des deux questions précédentes, a) au vu de la valeur de Fn , le test unilatéral à gauche semble bien plus utile que le test unilatéral à droite. b) au vu de la valeur de Fn , le test unilatéral à droite semble bien plus utile que le test unilatéral à gauche. c) la p-valeur doit toujours correspondre à une probabilité conditionnelle à une valeur de p possible sous H0 . d) 2 des 3 propositions a), b) et c) de cette question sont correctes. e) Aucune des propositions a), b), c) et d) de cette question n’est correcte. 7. On souhaite construire un intervalle de confiance pour la différence de proportions de végétariens en Suède (p1 ) et au Portugal (p2 ). On extrait ainsi un échantillon i.i.d. de Suède et un échantillon i.i.d. du Portugal. Les deux échantillons sont indépendants. La proportion de végétariens en Suède est 0.09 pour un échantillon de 100 personnes. Cette même proportion au Portugal tombe à 0.04 avec un échantillon de n2 personnes. Quelle est l’expression de la statistique pivotale observée correspondant à ce problème d’intervalle de confiance pour une différence de proportions? 0.09−p1 0.04−p2 −q a) √ 0.0008 0.0384 n2 13 b) q p1 −p2 c) p2 −p1 0.000819+ 0.0384 n 2 q 0.000819+ 0.0384 n 2 d) √ 0.05−(p1q −p2 ) 0.000819+ 0.0384 n2 2) e) q0.05−(p1 −p0.0384 0.000819+ n2 8. Si on voulait tester p1 = p2 (sous H0 ) dans la question précédente, que devrait-on changer à la statistique pivotale pour en faire une statistique de test? a) Poser p1 = p2 , ce qui signifie modifier uniquement le numérateur de la statistique pivotale. b) Poser p1 = p2 , ce qui signifie modifier uniquement le dénominateur de la statistique pivotale. c) Rien du tout. d) Poser p1 = p2 = 0. e) Poser p1 = p2 , ce qui signifie modifier le numérateur et le dénominateur de la statistique pivotale. 9. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les individus ont suivi la formation tandis que dans le second (de taille 112), aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 individus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en ont trouvé dans le second. Quelle est la p-valeur du test H0 : p1 ≤ p2 contre H1 : p1 > p2 ? p1 et p2 désignent respectivement les proportions dans les deux populations considérées (ceux qui ont suivi la formation et ceux qui ne l’ont pas suivie). a) b) c) d) e) 0.6573 0.0203 0.0000 0.05 0.9541 10. Le propriétaire d’un commerce de détail change de stratégie de marketing. Il espère ainsi augmenter le montant moyen de ses transactions. Jusqu’à présent, ce montant moyen avait été calculé sur un échantillon i.i.d. de taille 300 ; le propriétaire avait obtenu un montant moyen de x̄n1 = 510 avec un écart-type sn1 = 111. Il constate qu’après avoir mis en oeuvre sa nouvelle stratégie de marketing, le montant moyen des transactions d’un échantillon i.i.d. de 200 clients (indépendant du premier échantillon) est de x̄n2 = 537 14 euros avec un écart-type sn2 = 100 euros. On voudrait savoir si sa nouvelle stratégie de marketing augmente effectivement le montant moyen de ses transactions? Quel est le protocole de test relatif à cette question (µ1 et µ2 désignent respectivement les montants moyens avant et après changement de stratégie de marketing)? a) b) c) d) e) H0 H0 H0 H0 H0 : µ2 : µ2 : µ2 : µ2 : µ2 ≤ µ1 ≥ µ1 = µ1 < µ1 > µ1 contre contre contre contre contre H1 H1 H1 H1 H1 : µ2 : µ2 : µ2 : µ2 : µ2 > µ1 < µ1 6= µ1 ≥ µ1 ≤ µ1 11. Pour ce problème, on prend un niveau de test égal à 5%. Une diminution de ce niveau entraı̂ne a) b) c) d) e) une limite de la région critique plus grande (en valeur absolue). une p-valeur plus grande. une p-valeur plus petite. des tailles d’échantillons plus grandes. Deux des trois réponses a., b. et c. ci-dessus sont correctes. 12. Quelle est la p-valeur pour ce test? On suppose l’égalité des variances. a) b) c) d) e) 0.000 0.0023 0.1091 0.0028 0.1043 13. Quelle est la p-valeur pour ce test? On ne suppose pas l’égalité des variances. a) b) c) d) e) 0.000 0.0023 0.1091 0.0028 0.1043 14. Au niveau 5%, a) on rejette dans les deux cas. b) on rejette quand on suppose l’égalité des variances et on ne rejette pas quand on ne suppose pas cette égalité. c) on ne rejette pas quand on suppose l’égalité des variances et on rejette quand on ne suppose pas cette égalité. d) on ne rejette dans aucun des deux cas. e) on rejette plus qu’au niveau 10%. 15 15. Supposons que l’échantillon de taille 200 soit issu d’une population de clients de taille 1000 (cette population a été considérée dans les questions précédentes comme suffisamment grande pour ne pas se soucier du caractère avec ou sans remise du sondage aléatoire simple qui a permis d’obtenir les échantillons). Afin de collecter le plus possible d’individus différents, cet échantillon traité ici (de taille 200) a été construit par la méthode de sondage aléatoire simple sans remise. Peut-on affirmer au niveau 5% que la nouvelle stratégie permet d’obtenir un montant moyen des transactions supérieur à 530? Quelle est la p-valeur correspondante? a) Non, la p-valeur vaut 0,05. b) Oui, la p-valeur vaut 0,0087. c) Non, la p-valeur vaut 0,8657. d) Oui, la p-valeur vaut 0,0134. e) Non, la p-valeur vaut 0,1343. V. Régression linéaire simple Remarque : mêmes remarques qu’à la section 2. On suppose un modèle de régression linéaire simple Y = α + βX + ε, ε ∼ N (0,σ 2 ), entre le revenu Y et la durée des études X (en années). En 1970, un échantillon de 50 nord-américains suivant le modèle ci-dessus avec des erreurs indépendantes, dont l’âge variait entre 35 et 54 ans a permis d’estimer les pab obs = 1200 et b = βbobs = 800. Le revenu ramètres de la droite de régression: a = α moyen était de y n = 10000 et la durée moyenne des études était de xn = 11 avec 50 X (xi − xn )2 = 900. i=1 L’écart-type (estimé) des erreurs autour de la droite de régression ajustée était de 73. 1. Dans cet énoncé, a) les erreurs ne peuvent être que i.i.d. b) les couples (Xi ,Yi ), i = 1, . . . ,n, sont i.i.d. c) les Yi sont i.i.d. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 16 2. Dans cet énoncé, a) augmenter d’une année le nombre d’années d’études a pour effet d’augmenter en moyenne le revenu d’environ 800. b) si le modèle est correct en 0, ne pas faire d’études correspond en moyenne à un revenu d’environ 1200. c) si le modèle est correct en 0, faire une année d’études correspond en moyenne à un revenu d’environ 2000. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 3. Sur un graphe des résidus (en fonction des valeurs de la covariable), on observe si a) la distribution des points (résidus) est relativement similaire pour des valeurs de covariable différentes. Si ce n’est pas le cas, alors les résultats d’inférence statistique en régression linéaire simple sont à remettre en question. b) la relation entre les résidus et les valeurs de la covariable est linéaire. Si c’est le cas, les résultats d’inférence statistique sont corrects. c) la relation entre les résidus et les valeurs de la covariable est à peu près constante (la droite passant le mieux par ces résidus -au sens des moindres carrés a une pente proche de 0 -). Si ce n’est pas le cas, les résultats d’inférence statistique sont incorrects. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 4. Dans cet énoncé, que vaut la somme des carrés des résidus? a) 73 b) 255792 c) 3504 d) 5329 e) 146 5. Avec un tel nombre de degrés de liberté, on considérera que la Student et la normale standard se confondent. Donnez un intervalle de confiance pour α de niveau 95% (NORM.INV(0,975;0;1)=1,96). a) [a − 1,96seα ,a + 1,96seα ]. b) [b − 1,96seβ ,a + 1,96seβ ]. c) [a − t21;0,975 seα ,a + t21;0,975 seα ]. d) [a − χ221;0,975 seα ,a + χ221;0,975 seα ]. e) [b − χ221;0,975 seβ ,b + χ221;0,975 seβ ]. 17 Pn (ŷi −ȳn )2 Pi=1 n 2 2 ε = 1 − Pn(n−2)se . Si ici le R2 = 0,7, 6. Nous savons que R = (y −ȳ ) (y −ȳn )2 n i i=1 i=1 i que vaut l’estimation ponctuelle de la variance de Y ? 2 a) b) c) d) e) 238,3673 248,4028 18133,4 17400,82. 7457,493 7. Ce R2 = 0,7 signifie que a) 70% de la variabilité des réponses sont expliqués par la droite de régression. b) 70% de la variabilité des erreurs sont expliqués par la droite de régression. c) 70% de la variabilité des réponses sont expliqués par les erreurs du modèle. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 8. Un économiste prétend que β, la vraie pente du modèle, vaut 700. Pour tester cette affirmation, on effectue un test unilatéral à droite. Quel est le bon protocole (hypothèses nulle et alternative) pour ce test? a) b) c) d) e) H0 : β ≤ 800, H1 : β > 800. H0 : β ≥ 700, H1 : β < 700. H0 : β ≤ 700, H1 : β > 700. H0 : β ≥ 800, H1 : β < 800. Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 9. Dans ce contexte, quelle est la bonne statistique de test observée? a) b) c) d) e) 100/seβ −100/seβ 0 √ −100 ∗ 48/seβ Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 10. Quelle est la région critique pour ce test (niveau de test de 5%)? a) b) c) d) e) [t48;0,05 , + ∞[ ] − ∞, − t48;0,05 ] ] − ∞, − t48;0,95 ] [t48;0,95 , + ∞[ Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 11. Quelle est la p−valeur pour ce test? a) 1 18 b) c) d) e) 1,96 0,05 0 0,975 12. Quelle est la prédiction/prévision du revenu de quelqu’un ayant effectué 10 années d’études? a) b) c) d) e) 8000 9200 10000 10000 ± 150 10000 ± 73 13. Fournissez un intervalle de confiance de niveau 95% pour α+10β. T.INV(0,975;48)=2,010635; T.INV(0,95;48)=1,677224; T.INV(0,95;50)=1,675905 ; T.INV(0,975;50)=2.008559 ; T.INV(0,05;50)=-1,675905. a) b) c) d) e) q [9178.674; 9221.326] 9200 ± 2,010635 × 73 1/50 + 1/900 [9182.21; 9217.79] [9051.682; 9348.318] [9851.682; 10148.32] [9851.836; 10148.16] 14. Fournissez un intervalle de prédiction/prévision de niveau 95% pour le revenu d’un individu ayant effectué 10 années d’études. a) b) c) d) e) [9178.674; 9221.326] [9182.21; 9217.79] q [9051.682; 9348.318] 9200 ± 2,010635 × 73 1 + 1/50 + 1/900 [9851.682; 10148.32] [9851.836; 10148.16] VI. Régression linéaire simple : aspect complémentaires et vraisemblance Remarque : mêmes remarques qu’à la section 2. 1. Considérons un échantillon i.i.d. {X1 , . . . ,X4 } issu d’une population de Bernoulli de paramètre p = P (Xi = 1), i = 1, . . . ,4. L’échantillon observé est {x1 , . . . ,x4 } = {1,0,0,0}. Quelle est la fonction de vraisemblance? a) 1/4 19 b) p(1 − p)3 c) 1/3 d) p3 (1 − p) e) Aucune des réponses ci-dessus n’est correcte. 2. Dans ce contexte, quelle est la fonction de log-vraisemblance? a) log(p) + 3 log(1 − p) b) p(1 − p)3 c) log(3p/(1 − p)) d) log(p3 (1 − p)) e) log(1/4) 3. Dans ce contexte, quelle est la valeur de l’estimateur du maximum de vraisemblance? a) 1/4 b) p(1 − p)3 c) 1/3 d) p3 (1 − p) e) No good answer above 4. Un certain composant électronique est fabriqué une fois par mois par l’entreprise Micro-Systèmes. La quantité fabriquée varie avec la demande du marché. Dans le but de planifier la production et d’établir certaines normes sur le nombre d’hommes-minutes exigés pour la production de différents lots de ce composant électronique, le responsable de la production a relevé l’information suivante pour 15 cédules de production. Le nombre d’hommesminutes est identifié par Y et la quantité fabriquée par X. x Y 35 42 64 88 70 85 40 30 55 60 51 72 80 44 39 150 192 264 371 300 358 192 134 242 238 226 302 340 182 169 Dans ce contexte, le responsable voudrait supposer un modèle de régression linéaire simple. Quel modèle pouvez-vous traiter facilement (estimation et inférence pour les paramètres)? a) Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 ) b) Y = β0 + β1 X + ε c) Y = β0 + β1 X d) Y = β0 + β1 X + ε, V ar[ε] = σ 2 e) Y = β0 + β1 X + ε, E[ε] = 0 15 15 5. On calcule x̄15 = (1/15) 15 i=1 xi = 57, ȳ15 = (1/15) i=1 yi = 244, i=1 (xi − P15 2 x̄15 ) = 4986, i=1 (xi − x̄15 )(yi − ȳ15 ) = 20027, où les xi (respectivement yi ) P P 20 P 6. 7. 8. 9. sont les valeurs de x (respectivement Y ) dans le tableau ci-dessus. Donnez une estimation pour la pente dans le modèle choisi. a) −0.0045 b) −2.5285 c) 0 d) 4.0166 e) 1.5490 Dans ce contexte, l’estimation ponctuelle du coefficient de corrélation (r(X,Y )) doit être a) positive. b) négative. c) nulle. d) égale à l’estimation ponctuelle de la pente. e) égale à −1. Selon le modèle estimé (β̂0obs et β̂1obs sont les estimations correspondant aux estimateurs β̂0 et β̂1 des moindres carrés), a) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs . b) si la quantité fabriquée diminue d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs . c) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen diminue de β̂1obs . d) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes reste constant. e) Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. P Trouvez une estimation de la variance des erreurs sachant que 15 i=1 (yi − 2 obs obs β̂0 − β̂1 xi ) = 90056.29 a) Cette quantité divisée par 13 fournit une estimation de la variance des erreurs. b) La racine carrée de cette quantité fournit une estimation de la variance des erreurs. c) Cette quantité divisée par 13 est utile pour calculer un intervalle de confiance pour β1 . d) Une bonne estimation de l’écart-type des erreurs est 83.23105. e) Seule une réponse parmi a., b., c. et d. est fausse. Calculez un intervalle de confiance bilatéral au niveau 90% pour β1 (t13;0.90 = 1.3502, t13;0.95 = 1.7709, t15;0.90 = 1.3406, t15;0.95 = 1.7531, z0.90 = 1.2816, z0.95 = 1.6449) a) [−1.929172,4.104028] 21 b) [1.950251,6.082949] c) [2.077784,5.955416] d) [1.929172,6.104028] e) [2.425131,5.608069] 10. On suppose un modèle de régression linéaire simple Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 ), entre le durée des études des enfants Y et celle des parents X. En 2009, un échantillon de 40 données ((xi ,Yi ), i = 1, . . . ,40) suivant le modèle ci-dessus avec des erreurs indépendantes a permis d’estimer les paramètres de la droite de régression: b0 = βb0obs = 0,3 et b1 = βb1obs = 1,2. La durée moyenne (observée) des études des enfants est y n = 14,5 et la durée moyenne des études des parents de xn = 11 avec 50 X (xi − xn )2 = 100. i=1 L’écart-type (estimé) des résidus autour de la droite de régression ajustée 1 était de 1,4. Soit la statistique √β̂1 −β . 2 σ̂ /100 a) Sa distribution est normale b) Sa distribution est une Student à 38 degrés de liberté. c) Sa distribution serait normale si les erreurs n’étaient pas distribuées selon une normale. d) Sa distribution est asymptotique. e) Aucune des réponses ci-dessus n’est correcte. 11. Si les erreurs n’étaient pas distribuées selon une normale (toutes les autres hypothèses du modèle ci-dessus seraient néanmoins conservées), quelle serait la distribution de cette quantité? a) Sa distribution serait normale. b) Sa distribution serait asymptotiquement normale. c) Sa distribution serait une Student à 38 degrés de liberté. d) Sa distribution serait asymptotiquement une χ2 . e) Aucune des réponses ci-dessus n’est correcte. 12. Si on veut calculer une estimation ponctuelle du coefficient de corrélation linaire (r(X,Y )), que nous manque-t-il pour le calculer? a) Une estimation ponctuelle de Cov[X,Y ]. b) Pn i=1 (xi − x̄n )ȳn . c) Une estimation ponctuelle de la variance de la réponse Y . d) Deux des trois réponses a), b) et c) sont correctes. e) Aucune des trois réponses a), b) et c) n’est correcte. 22 13. On considère bien pour la suite ε ∼ N (0,σ 2 ). On se donne l’intervalle [1,2 − t38;0,975 × 0,14; 1,2 + t38;0,975 × 0,14] où t38;0,975 suit les notations habituelles du cours pour les quantiles. Il s’agit d’un intervalle de confiance a) b) c) d) e) observé bilatéral pour b1 Les réponses a), b) et c) sont correctes. Deux des trois réponses a), b) et c) sont correctes. 14. Soit H0 : β1 ≥ 0 contre H1 : β1 < 0. A quelle question pourrait correspondre ce protocole? a) b) c) d) La durée des études des enfants a-t-elle un impact sur celle des parents? La durée des études des enfants est-elle significativement positive? La durée des études des parents est-elle significativement positive? La durée des études des enfants est-elle (significativement) positivement (pente positive) liée à la durée des études des parents? e) La durée des études des enfants est-elle (significativement) négativement (pente négative) liée à la durée des études des parents? 15. Comment transformer la statistique ci-dessus pour effectuer le test correspondant à ce protocole? a) b) c) d) e) En remplaçant β1 par 0. En remplaçant β̂1 par b1 . En remplaçant β̂1 par β0 . En remplaçant β̂1 par 0. Aucune des réponses ci-dessus n’est correcte. 16. Quelle est la région critique de ce test (niveau 5%)? On appelle Stat la statistique de l’énoncé (dernière ligne) adaptée à la question précédente. a) b) c) d) e) |Stat| > t38;0,975 Stat < t38;0,05 Stat > t38;0,05 Stat > t38;0,95 Aucune des réponses ci-dessus n’est correcte. 17. Donnez une prédiction (ponctuelle) pour x = 5. a) b) c) d) e) 0,3 6,3 ± 1,4 6,3 0,9 Aucune des réponses ci-dessus n’est correcte. 23 18. Soit Ŷ5 = β̂0 + 5β̂1 (β̂0 et β̂1 sont les estimateurs de moindres carrés). On donne la statistique √ 2Ŷ5 −β0 −5β1 . A quoi sert cette statistique? σ̂ (1/40+36/100) a) A obtenir un intervalle de confiance pour Y5 , la variable aléatoire décrivant la vraie valeur de Y quand x = 5. b) A obtenir un intervalle de confiance pour β0 + β1 x. c) A obtenir un intervalle de confiance pour β0 + 5β1 . d) A obtenir un intervalle de confiance pour Ŷ5 , e) Aucune des réponses ci-dessus n’est correcte. 19. On donne ensuite √ 2 Ŷ5 −Y5 . A quoi sert cette statistique? σ̂ (1+1/40+36/100) a) A obtenir un intervalle de prédiction pour β0 + β1 x. b) A obtenir un intervalle de prédiction pour β0 + 5β1 . c) A obtenir un intervalle de prédiction pour Ŷ5 , d) A obtenir un intervalle de prédiction pour Y5 , la variable aléatoire décrivant la vraie valeur de Y quand x = 5. e) A rien : on ne connaı̂t rien de sa distribution. 20. Quelle est la différence entre les intervalles des deux questions précédentes? a) L’intervalle de la question précédente est toujours plus étroit que l’intervalle de l’autre question (2 questions plus haut). b) L’intervalle de la question précédente est un intervalle pour une quantité aléatoire alors que celui de l’autre question l’est pour une grandeur non aléatoire. c) L’intervalle de la question précédente est un intervalle pour une quantité non aléatoire alors que celui de l’autre question l’est pour une grandeur aléatoire. d) Deux des trois réponses a), b) et c) proposées dans cette question sont correctes. e) Aucune des réponses ci-dessus n’est correcte. 24

Cahier des charges : Échantillonnage et estimation

Products

Support

Cahier des charges : Échantillonnage et estimation

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib