Cahier de charges I. Introduction et méthodes d’échantillonnage 1. Quelle est la différence entre population et échantillon? 2. Quelle est la différence entre recensement et sondage? 3. Soit l’échantillon {1,4,5,9}. S’agit-il d’un échantillon observé ou aléatoire? 4. Ecrivez soigneusement l’échantillon aléatoire (en symboles mathématiques). 5. Qu’est-ce qu’une statistique? Comment l’écrire? 6. Comment se représenter un échantillonnage aléatoire simple (EAS) au moyen d’un graphique? 7. Qu’est-ce que le taux de sondage? 8. Quelles sont les conséquences d’un tirage avec remise sur la population définie à chaque tirage? 9. Qu’est-ce qu’un échantillon i.i.d.? 10. Quel est le lien entre un échantillon i.i.d. et un échantillon obtenu par EAS? 11. Discutez les avantages et inconvénients d’un échantillonnage en grappes. 12. Discutez les avantages et inconvénients d’un échantillonnage stratifié. 13. Discutez les avantages et inconvénients de la méthode des quotas. 14. Discutez les avantages et inconvénients d’un échantillonnage systématique. II. Echantillonnage et estimation ponctuelle 1. Pour chaque question, donnez la meilleure réponse (il n’y a qu’une seule bonne réponse). 2. Si la taille d’une population n’est pas spécifiée, on la considère comme suffisamment grande pour ne pas devoir apporter de correction de variance. Remarque Si pour une question, il y a plusieurs bonnes réponses et si dans ce cas, une option dit qu’il y a plusieurs bonnes réponses, la meilleure réponse est alors cette option. Exemple : Un nombre plus grand que 2 est a) 0 b) 4 c) 5 d) −2 e) Il y a au moins deux réponses correctes parmi les options a), b), c) et d). 1 Dans ce cas, la meilleure réponse est (e). 1. {1,4,8,9} est le résultat d’un tirage aléatoire. Comment l’appelle-t-on? (a) Une population aléatoire (b) Un échantillon aléatoire. (c) En pratique, on parlera souvent d’un échantillon de taille 4. Plus précisément, il s’agit d’un échantillon observé de taille 4. (d) Une population. (e) Aucune des réponses ci-dessus n’est correcte. 2. De manière générale, une statistique est (a) (b) (c) (d) (e) une fonction des données. un paramètre de la population. un indicateur chiffré traduisant un phénomène. une estimation (ponctuelle). une moyenne empirique. 3. Dans un sondage aléatoire simple sans remise, a) la distribution de la variable aléatoire d’intérêt change lors de chaque tirage. b) on peut négliger les changements (de tirage en tirage) de distribution de la variable aléatoire d’intérêt si le taux de sondage est suffisamment petit. c) la propriété i.i.d. est théoriquement violée. d) Aucune des trois réponses ci-dessus n’est correcte. e) Les trois premières réponses ci-dessus sont correctes. 4. On s’intéresse au salaire moyen des étudiants sortis d’une école de commerce donnée. A partir d’un échantillon de 27 étudiant(e)s dans cette école de commerce, on obtient un salaire moyen de 3170 euros avec un écart-type de 410 euros. Le salaire est modélisé à partir d’une loi normale. Quelle affirmation est correcte? (a) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé connu, l’objet d?étude et le paramètre d’intérêt sont le salaire moyen. (b) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est la moyenne empirique du salaire. (c) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est le salaire moyen. 2 (d) Il s’agit d’un modèle d’échantillonnage Gaussien (F est une normale) où le paramètre de variance est supposé inconnu, l’objet d’étude est le salaire et le paramètre d’intérêt est la moyenne arithmétique simple en échantillon. 5. On suppose que le poids des pièces produites par une machine est distribué de façon normale et en moyenne égal à 120 grammes, avec un écart-type de 7 grammes. On considère 3 pièces prélevées au hasard (échantillon i.i.d.). Quelle est la loi du poids total des 3 pièces? a) Normale de moyenne 360 grammes et de variance 147 grammes (au carré) b) Normale de moyenne 360 grammes et de variance 49 grammes (au carré) c) Normale de moyenne 120 grammes et de variance 49 grammes (au carré) d) Normale de moyenne 120 grammes et d’écart-type 7 grammes e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 6. Dans quel intervalle centré sur l’espérance de ce poids total (noté PM dans les réponses ci-dessous) se situera ce poids total avec une probabilité de 95% (pour Z ∼ N (0,1), P (Z ≤ zα ) = α)? Xi , i = 1,2,3, correspond à la variable aléatoire décrivant le poids de la ième pièce. √ √ a) [P M − 7 3z1−α/2 ; P M + 7 3z1−α/2 ], α = 0.05 √ √ b) [P M − 7 3z1−α ; P M + 7 3z1−α ], α = 0.01 √ √ c) [X1 + X2 + X3 − 7 3z1−α/2 ; X1 + X2 + X3 + 7 3z1−α/2 ], α = 0.05 √ √ d) [X1 + X2 + X3 − 7 3z1−α ; X1 + X2 + X3 + 7 3z1−α ], α = 0.01 e) [P M − 7z1−α ; P M + 7z1−α ], α = 0.01 7. On considère ensuite 100 pièces prélevées au hasard dans la production (échantillon i.i.d.). Quelle est la loi de la moyenne empirique du poids calculée sur ces 100 pièces? a) Normale de moyenne 120 grammes et de variance 49 grammes (au carré) b) Normale de moyenne 120 grammes et de variance 0,49 grammes (au carré) c) Normale de moyenne 120 grammes et d’écart-type 7 grammes d) Normale de moyenne 120 grammes et d’écart-type 0,07 grammes e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 8. Si le poids d’un pièce prise au hasard n’est pas distribué selon une normale, que peut-on dire de la loi de la moyenne empirique du poids calculée sur ces 100 pièces? On considère que l’échantillon reste i.i.d. a) La même chose qu’à la question précédente 3 b) Cette moyenne empirique centrée et réduite (moyenne empirique moins sa moye- nne et divisée par son écart-type) est asymptotiquement distribuée selon une N (0,1). c) La loi de cette moyenne empirique centrée et réduite est proche d’une N (0,1). d) On ne sait rien de la loi de cette moyenne empririque. e) Deux des quatre réponses a., b., c. et d. ci-dessus sont correctes. 9. Quelle est la probabilité (éventuellement approximative) que le poids moyen des 100 pièces soit supérieur à 121 grammes? a) b) c) d) e) 0.5. 0. 1. 0.0766. 0.236. 10. On considère une variable aléatoire X ∼ N (µ,σ 2 ). On observe 3 réalisations de cette v.a. : x1 ,x2 et x3 . Parmi les propositions suivantes, combien d’entre elles sont des statistiques observées? 2 – x1x+x 3 2 – X1X+X 3 – x̄ – s2n – Sn2 a) b) c) d) e) 3 2 5 4 1 11. Le proportion d’étudiants végétariens à l’EDHEC est de 14%. On réalise un sondage (i.i.d.) parmi 100 étudiants. 17 d’entre eux disent être végétariens (83 disent ne pas être végétariens). Quelles sont les proportions p dans la population et p̂100 dans l’échantillon correspondant à cet énoncé? a) p = 0.14 et p̂100 = 0.17 b) p = 0.17 et p̂100 = 0.14 c) La proportion dans la population n’est pas donnée mais celle de l’échantillon vaut 0.14. d) La proportion dans la population n’est pas donnée mais celle de l’échantillon vaut 0.17. 4 e) La proportion dans l’échantillon n’est pas donnée mais celle de la population vaut 0.14. 12. Si on construisait (pouvait construire) un très grand nombre d’échantillons (issus de la même population), de quelle valeur s’approcherait la moyenne arithmétique des proportions calculées dans ces échantillons? a) 0.17 b) 0.14 c) 1 d) La moyenne des ces proportions ne s’approcherait d’aucune valeur en particulier. e) La moyenne des ces proportions se trouverait entre 0.14 et 0.17. 13. Dans le contexte de la question précédente, de quelle valeur s’approcherait la variance estimée des proportions calculées dans ces échantillons? a) L’infini b) 0.142 c) 0.17(1 − 0.17)/100 d) 0.14(1 − 0.14)/100 = 0.001204 e) 0.14 × 0.17 14. Imaginons qu’on se limite à une population de 1000 étudiants. Que deviendrait la réponse à la question précédente? a) Elle ne changerait pas si le sondage est aléatoire simple sans remise. b) Elle serait multipliée par 900/999. c) Elle serait multipliée par 999/900. d) Elle serait multipliée par 900/999 si le sondage est aléatoire simple sans remise. e) Deux des réponses ci-dessus sont correctes. 15. On appelle P̂100 , l’estimateur de cette proportion p. Quelle est la meilleure proposition? a) P̂100 n’est pas aléatoire et est une statistique. b) P̂100 est aléatoire et est une statistique. c) P̂100 est aléatoire mais n’est pas une statistique. d) P̂100 n’est pas aléatoire et n’est pas une statistique. e) P̂100 est toujours égal à p̂100 . 16. Quelle est la meilleure proposition? a) On approxime la distribution de P̂100 par une N (µ = 0.14; σ 2 = 0.001204). b) 100P̂100 ∼ Bin(100; 0.14). 5 c) 100P̂100 ∼ Bin(100; 0.17). d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Toutes les réponses a., b. et c. ci-dessus sont correctes. 17. On étudie le comportement d’une machine à embouteiller de la bière. Celleci a un volume de remplissage nominal (moyen) de 25cl. Le volume débité à chaque bouteille est distribué normalement avec une variance de σ 2 = 4.8cl2 . Les volumes débités successifs sont considérés indépendants et identiquement distribués. On analyse un échantillon de 10 bouteilles. Donnez la probabilité que le volume moyen de l’échantillon soit supérieur à 26cl. a) 0.2232 b) 0.0745 c) 0.5471 d) 0.9459 e) 0.0013 18. On prélève un nouvel échantillon de 15 bouteilles (toujours i.i.d. et indépendant du premier) sur la même machine. Donnez la probabilité que la moyenne de ce nouvel échantillon soit supérieure à la moyenne de l’échantillon de 10 bouteilles. Indice: une somme de normales indépendantes est encore une normale. a) 0.3 b) 0.43 c) 0.5 d) 0.01 e) 0.465 19. Dans les capitales de 5 cantons d’un grand pays, on observe les superficies suivantes 103 118 24 27 90 Quelles sont les estimations ponctuelles de l’écart-type sn et de la moyenne xn (n = 5)? a) xn = 72.4 et sn = 1932.3 b) xn = 72.4 et sn = 31.98 c) xn = 72.4 et sn = 39.32 d) xn = 72.4 et sn = 43.96 e) xn = 72.4 et sn = 46.01 6 III. Intervalles de confiance Remarque : mêmes remarques qu’à la section 2. 1. Le niveau de confiance dans ce dernier exemple peut être augmenté à 99%. Que vaut l’intervalle de confiance correspondant? Que remarquez-vous par rapport à l’intervalle de niveau 95%? (a) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un intervalle aléatoire qui a une plus faible probabilité de contenir la moyenne. (b) [86,55; 108,65]. L’intervalle est plus grand car il est la réalisation d’un intervalle aléatoire qui a une plus grande probabilité de contenir la moyenne. (c) [89,19; 106,00]. La longueur de l’intervalle ne change pas car ce dernier est la réalisation d’un intervalle aléatoire dont la probabilité de contenir la moyenne est la même. (d) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la réalisation d’un intervalle aléatoire qui a une plus faible probabilité de contenir la moyenne. (e) [91,42; 105,01]. La longueur de l’intervalle diminue car ce dernier est la réalisation d’un intervalle aléatoire qui a une plus grande probabilité de contenir la moyenne. 2. Si la taille de l’échantillon augmente, la longueur de l’intervalle de confiance a tendance à (a) diminuer et c’est normal car plus d’information (n plus grand) mener à une plus grande précision. (b) augmenter et c’est normal car plus d’information (n plus grand) mener à une plus grande précision. (c) rester stable. (d) diminuer et c’est normal car plus d’information (n plus grand) mener à une plus faible précision. (e) augmenter et c’est normal car plus d’information (n plus grand) mener à une plus faible précision. doit doit doit doit 3. Si un intervalle de confiance aléatoire a une probabilité (approximative dans la dernière vidéo) 1 − α (un niveau de confiance (1 − α) × 100% ou 1 − α) de contenir le paramètre d’intérêt (la moyenne dans la dernière vidéo), on peut imaginer des intervalles qui ne sont pas limités à droite (dont la borne supérieure vaut par exemple +∞ pour l’exemple de la moyenne dans la dernière vidéo) et dont le niveau reste (1 − α) × 100%. De manière générale, 7 on appellera ce type d’intervalle, intervalle de confiance unilatéral à droite. Comment transforme-t-on l’intervalle obtenu dans la vidéo introd. de ce chapitre pour obtenir ces intervalles? Indice : reprenez le raisonnement fait dans la vidéo d’introduction en remplaçant zα/2 la première fois qu’il apparaı̂t par z0 = −∞. (a) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z1−α dans la borne inférieure (au lieu de z1−α/2 dans la vidéo d’introduction). (b) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z1−α/2 dans la borne inférieure. (c) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et zα (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. (d) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et zα/2 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. (e) Il suffit d’utiliser +∞ (correspondant à z1 ) pour la borne supérieure et z0 (au lieu de z1−α/2 dans la vidéo d’introduction) dans la borne inférieure. 4. En suivant un raisonnement similaire à celui de la question précédente, proposez un intervalle de confiance approximatif unilatéral à gauche pour la moyenne µ (sur base des mêmes hypothèses que celles utilisées dans la vidéo d’introduction). √ 2 √ 2 z Sn z1−α/2 Sn √ √ (a) X̄n − 1−α/2 ; X̄ + . n n n √ 2 z Sn √ . (b) −∞; X̄n + 1−α/2 n √ z S2 (c) −∞; X̄n + 1−α√n n . √ 2 zα Sn (d) −∞; X̄n + √n . √ 2 zα/2 Sn (e) −∞; X̄n + √n . 5. Le propriétaire d’un restaurant français veut étudier les préférences de ses clients. Il décide de se concentrer sur deux variables: la somme d’argent dépensée par client et la commande ou non d’un dessert par ces derniers. L’étude porte sur un groupe de n = 60 clients (échantillon supposé i.i.d.). Pour ce groupe de clients, il en ressort une somme d’argent dépensée par client de moyenne x̄n = $38.54 et d’écart-type sn = $7.26 ainsi que 18 desserts commandés. Déterminez un intervalle de confiance approximatif 8 (bilatéral) au niveau de confiance 0,90 (ou 90%) pour la proportion de clients (en population) qui commandent un dessert. NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1). a) [0.1840; 0.4160] b) [0.1227; 0,5276] c) [0.2027; 0.3973] d) [0.4568; 0.9906] e) [0.1298; 1] 6. Déterminez un intervalle de confiance unilatéral à droite approximatif au niveau 0,90 pour la proportion de clients qui commandent un dessert. a) [0.2027; 1] b) [0.2242; 1] c) [0.2027; +∞] d) [0; 0.2242] e) [−∞; 0.2242] 7. Comment interpréter cet intervalle unilatéral à droite? Donnez la meilleure réponse non triviale. a) On y trouve une borne inférieure sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). b) On y trouve une borne supérieure sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). c) On y trouve une borne inférieure sur la valeur de la proportion observée de clients du restaurant qui prennent un dessert (au niveau de confiance donné). d) On y trouve une borne supérieure sur la valeur de la proportion observée de clients du restaurant qui prennent un dessert (au niveau de confiance donné). e) On y trouve deux bornes inférieures sur la valeur de la vraie proportion de clients du restaurant qui prennent un dessert (au niveau de confiance donné). 8. Prenons deux intervalles de confiance unilatéraux à droite observés (construits sur le même échantillon) pour la proportion ci-dessus dont les niveaux de confiance sont respectivement 0.95 et 0.90. a) L’intervalle de niveau 0.90 est plus long que celui de niveau 0.95 b) L’intervalle de niveau 0.95 est plus long que celui de niveau 0.90 c) Les deux intervalles ont une longueur infinie. 9 d) On ne peut savoir quel est l’intervalle le plus long. e) L’intervalle unilatéral à droite de niveau 0.95 est plus court que l’intervalle bilatéral de niveau 0.90. 9. Donnez un intervalle de confiance approximatif (bilatéral) au niveau 0,95 pour la somme d’argent moyenne dépensée par client dans ce restaurant. NB: z0.95 =1.6449, z0.975 =1.96, z0.90 =1.2816 avec P (Z ≤ zα ) = α, Z ∼ N (0,1). a) b) c) d) e) [36.9983; 40.0817] [37,7220; 39,874] [38,2134; 39,248] [38,2134; 38,8934] [36,7030; 40,377] 10. Un intervalle de confiance du type de la question précédente est a) symétrique autour de la moyenne observée dans l’échantillon. b) plus grand si la variance observée dans l’échantillon est plus grande (les autres quantités restant les mêmes). c) plus grand si la taille de l’échantillon est plus grande (les autres quantités restant les mêmes). d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Toutes les réponses a., b. et c. ci-dessus sont correctes. 11. Si le niveau d’un intervalle de confiance du même type augmente (les autres quantités restant les mêmes), a) b) c) d) e) l’intervalle de confiance s’élargit. l’intervalle se raccourcit. L’intervalle peut s’agrandir ou se raccourcir. L’intervalle reste le même. 0 entre dans l’intervalle. 12. On reste dans le contexte du propriétaire du restaurant qui veut étudier les préférences de ses clients mais on considère que l’échantillon obtenu est maintenant le résultat d’un sondage aléatoire simple sans remise. Le propriétaire possède un listing de ses clients de taille 651 sur lequel il effectue ce sondage. Les autres données de la question ci-dessus restent les mêmes. Que devient l’intervalle de confiance de niveau 0,9 pour la proportion de clients (en population) qui commandent un dessert? a) b) c) d) Il reste le même car l’échantillon est toujours i.i.d. [0,2072; 0,3928]. On ne peut le calculer car le taux de sondage est trop grand. [0,2010; 0,4589]. 10 e) [0,1801; 0,4990]. 13. On fabrique des pièces en série à l’aide d’une machine. La machine est réglée de telle sorte que le diamètre des pièces fabriquées est distribué selon une loi normale. On prélève un échantillon aléatoire i.i.d. de 10 pièces dans la production. On mesure la dispersion du diamètre des pièces dans l’échantillon 2 . On obtient s10 = 0,02 mm. Calculez comme indiqué par la statistique S10 un intervalle de confiance bilatéral de niveau 95% pour l’écart-type du diamètre. a) [0,0365; 0,0546] b) [0,0034; 0,0134] c) [0,0041; 0,1267] d) [0,0138; 0,0365] e) [0; 0,0398] 14. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les individus ont suivi la formation tandis que dans le second (de taille 112), aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 individus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en ont trouvé dans le second. Donnez un intervalle de confiance bilatéral au niveau 95% pour p1 − p2 . p1 et p2 désignent respectivement les proportions dans les deux populations considérées (ceux qui ont suivi la formation et ceux qui ne l’ont pas suivie). a) [−0.9801; −0.0034] b) [0.4567; 0.6743] c) [0.0028; 0.3134] d) [−0.4567; 0.6743] e) [−1.4523; 2,4538] IV. Tests d’hypothèses Remarque : mêmes remarques qu’à la section 2. 1. Un électricien est convaincu que l’écart-type des mesures de son ampèremètre est exactement égal à 2. Il effectue 16 mesures (que l’on suppose i.i.d.) à l’aide de son ampèremètre. On se demande si les données permettent d’infirmer la conviction de l’électricien. Pour ce faire, on réalise un test bilatéral sur la variance au seuil 5%. A quelle condition sur s2n rejette-t-on 11 l’hypothèse nulle de ce test ? On supposera que les mesures suivent une distribution normale. a) b) c) d) e) s2n < 6.26 ou s2n > 27.49 s2n < 1.669903 ou s2n > 7.330238 6.26 < s2n < 27.49 6.67733 < s2n < 29.3226667 s2n > 4 2. Une compagnie aérienne décide de contrôler le retard de ses vols au départ de l’aéroport de Bruxelles. Pour son étude, elle décide de se concentrer sur le vol Bruxelles-Rio. Elle a relevé la durée réelle (exprimée en minutes) de 100 vols (échantillon i.i.d.) Bruxelles-Rio. On peut supposer que le temps de vol entre ces 2 villes suit une loi normale. Voici les statistiques obtenues : 100 X xi = 67762.21, i=1 100 X x2i = 46308531 et i=1 100 X (xi − x̄)2 = 391360.3 i=1 Dans sa dernière compagne publicitaire, la compagnie aérienne affirme que ses vols arrivent toujours à l’heure (sous-entendu en moyenne). Sachant que la durée de vol en conditions normales est de 11h10, elle souhaite savoir si ses vols arrivent en moyenne à l’heure à l’aide d’un test au seuil de 5%. Quelle est ici la valeur de la statistique de test? a) b) c) d) e) -0.121838981 1.212282555 0.121838981 1.21838981 -1.21838981 3. Un chercheur a mis au point un médicament et prétend que celui-ci favorise le sommeil pour une proportion p = 80% des personnes souffrant d’insomnie. Après avoir examiné le dosage, vous pensez que ses allégations concernant l’efficacité de la dose sont fausses. Afin de confirmer votre intuition, vous administrez ce médicament à 200 insomniaques (échantillon i.i.d.) et vous observez 101 insomniaques pour qui le médicament favorise le sommeil. Vous voulez tester l’hypothèse H0 : p ≥ 0.8 contre H1 : p < 0.8 au seuil 5%. Quelle affirmation est correcte pour ce test? On peut utiliser une statistique de test dont la loi est sous H0 a) normale et asymptotique. b) une χ2 et asymptotique. c) normale et exacte. 12 d) de Student et asymptotique. e) de Student et exacte. 4. On considère l’énoncé de la question précédente. Pour ce test, quelle est la formule de la p-valeur? √ √ √ √ a) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p = 0.8) √ √ √ √ b) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p = 0.8) √ √ √ √ c) P ( 200(Fn − 0.8)/ 0.8 × 0.2 > 200(101/200 − 0.8)/ 0.8 × 0.2|p = 101/200) √ √ √ √ d) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2|p = 101/200) √ √ √ √ e) P ( 200(Fn − 0.8)/ 0.8 × 0.2 < 200(101/200 − 0.8)/ 0.8 × 0.2) 5. Dans la question précédente, pour un test unilatéral à droite, la p-valeur serait a) P (Fn < 101/200|p = 0.8) b) P (Fn > 101/200|p = 101/200) c) P (Fn < 101/200|p = 101/200) d) P (Fn > 101/200|p = 0.8) e) P (Fn > 101/200) 6. Dans le contexte des deux questions précédentes, a) au vu de la valeur de Fn , le test unilatéral à gauche semble bien plus utile que le test unilatéral à droite. b) au vu de la valeur de Fn , le test unilatéral à droite semble bien plus utile que le test unilatéral à gauche. c) la p-valeur doit toujours correspondre à une probabilité conditionnelle à une valeur de p possible sous H0 . d) 2 des 3 propositions a), b) et c) de cette question sont correctes. e) Aucune des propositions a), b), c) et d) de cette question n’est correcte. 7. On souhaite construire un intervalle de confiance pour la différence de proportions de végétariens en Suède (p1 ) et au Portugal (p2 ). On extrait ainsi un échantillon i.i.d. de Suède et un échantillon i.i.d. du Portugal. Les deux échantillons sont indépendants. La proportion de végétariens en Suède est 0.09 pour un échantillon de 100 personnes. Cette même proportion au Portugal tombe à 0.04 avec un échantillon de n2 personnes. Quelle est l’expression de la statistique pivotale observée correspondant à ce problème d’intervalle de confiance pour une différence de proportions? 0.09−p1 0.04−p2 −q a) √ 0.0008 0.0384 n2 13 b) q p1 −p2 c) p2 −p1 0.000819+ 0.0384 n 2 q 0.000819+ 0.0384 n 2 d) √ 0.05−(p1q −p2 ) 0.000819+ 0.0384 n2 2) e) q0.05−(p1 −p0.0384 0.000819+ n2 8. Si on voulait tester p1 = p2 (sous H0 ) dans la question précédente, que devrait-on changer à la statistique pivotale pour en faire une statistique de test? a) Poser p1 = p2 , ce qui signifie modifier uniquement le numérateur de la statistique pivotale. b) Poser p1 = p2 , ce qui signifie modifier uniquement le dénominateur de la statistique pivotale. c) Rien du tout. d) Poser p1 = p2 = 0. e) Poser p1 = p2 , ce qui signifie modifier le numérateur et le dénominateur de la statistique pivotale. 9. Afin d’évaluer l’intérêt d’un formation, on construit deux échantillons indépendants et i.i.d. d’individus sans emploi. Dans le premier (de taille 54), tous les individus ont suivi la formation tandis que dans le second (de taille 112), aucun individu ne l’a suivie. Au bout d’une année, on constate que 23 individus ont trouvé de l’emploi dans le premier échantillon tandis que 30 en ont trouvé dans le second. Quelle est la p-valeur du test H0 : p1 ≤ p2 contre H1 : p1 > p2 ? p1 et p2 désignent respectivement les proportions dans les deux populations considérées (ceux qui ont suivi la formation et ceux qui ne l’ont pas suivie). a) b) c) d) e) 0.6573 0.0203 0.0000 0.05 0.9541 10. Le propriétaire d’un commerce de détail change de stratégie de marketing. Il espère ainsi augmenter le montant moyen de ses transactions. Jusqu’à présent, ce montant moyen avait été calculé sur un échantillon i.i.d. de taille 300 ; le propriétaire avait obtenu un montant moyen de x̄n1 = 510 avec un écart-type sn1 = 111. Il constate qu’après avoir mis en oeuvre sa nouvelle stratégie de marketing, le montant moyen des transactions d’un échantillon i.i.d. de 200 clients (indépendant du premier échantillon) est de x̄n2 = 537 14 euros avec un écart-type sn2 = 100 euros. On voudrait savoir si sa nouvelle stratégie de marketing augmente effectivement le montant moyen de ses transactions? Quel est le protocole de test relatif à cette question (µ1 et µ2 désignent respectivement les montants moyens avant et après changement de stratégie de marketing)? a) b) c) d) e) H0 H0 H0 H0 H0 : µ2 : µ2 : µ2 : µ2 : µ2 ≤ µ1 ≥ µ1 = µ1 < µ1 > µ1 contre contre contre contre contre H1 H1 H1 H1 H1 : µ2 : µ2 : µ2 : µ2 : µ2 > µ1 < µ1 6= µ1 ≥ µ1 ≤ µ1 11. Pour ce problème, on prend un niveau de test égal à 5%. Une diminution de ce niveau entraı̂ne a) b) c) d) e) une limite de la région critique plus grande (en valeur absolue). une p-valeur plus grande. une p-valeur plus petite. des tailles d’échantillons plus grandes. Deux des trois réponses a., b. et c. ci-dessus sont correctes. 12. Quelle est la p-valeur pour ce test? On suppose l’égalité des variances. a) b) c) d) e) 0.000 0.0023 0.1091 0.0028 0.1043 13. Quelle est la p-valeur pour ce test? On ne suppose pas l’égalité des variances. a) b) c) d) e) 0.000 0.0023 0.1091 0.0028 0.1043 14. Au niveau 5%, a) on rejette dans les deux cas. b) on rejette quand on suppose l’égalité des variances et on ne rejette pas quand on ne suppose pas cette égalité. c) on ne rejette pas quand on suppose l’égalité des variances et on rejette quand on ne suppose pas cette égalité. d) on ne rejette dans aucun des deux cas. e) on rejette plus qu’au niveau 10%. 15 15. Supposons que l’échantillon de taille 200 soit issu d’une population de clients de taille 1000 (cette population a été considérée dans les questions précédentes comme suffisamment grande pour ne pas se soucier du caractère avec ou sans remise du sondage aléatoire simple qui a permis d’obtenir les échantillons). Afin de collecter le plus possible d’individus différents, cet échantillon traité ici (de taille 200) a été construit par la méthode de sondage aléatoire simple sans remise. Peut-on affirmer au niveau 5% que la nouvelle stratégie permet d’obtenir un montant moyen des transactions supérieur à 530? Quelle est la p-valeur correspondante? a) Non, la p-valeur vaut 0,05. b) Oui, la p-valeur vaut 0,0087. c) Non, la p-valeur vaut 0,8657. d) Oui, la p-valeur vaut 0,0134. e) Non, la p-valeur vaut 0,1343. V. Régression linéaire simple Remarque : mêmes remarques qu’à la section 2. On suppose un modèle de régression linéaire simple Y = α + βX + ε, ε ∼ N (0,σ 2 ), entre le revenu Y et la durée des études X (en années). En 1970, un échantillon de 50 nord-américains suivant le modèle ci-dessus avec des erreurs indépendantes, dont l’âge variait entre 35 et 54 ans a permis d’estimer les pab obs = 1200 et b = βbobs = 800. Le revenu ramètres de la droite de régression: a = α moyen était de y n = 10000 et la durée moyenne des études était de xn = 11 avec 50 X (xi − xn )2 = 900. i=1 L’écart-type (estimé) des erreurs autour de la droite de régression ajustée était de 73. 1. Dans cet énoncé, a) les erreurs ne peuvent être que i.i.d. b) les couples (Xi ,Yi ), i = 1, . . . ,n, sont i.i.d. c) les Yi sont i.i.d. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 16 2. Dans cet énoncé, a) augmenter d’une année le nombre d’années d’études a pour effet d’augmenter en moyenne le revenu d’environ 800. b) si le modèle est correct en 0, ne pas faire d’études correspond en moyenne à un revenu d’environ 1200. c) si le modèle est correct en 0, faire une année d’études correspond en moyenne à un revenu d’environ 2000. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 3. Sur un graphe des résidus (en fonction des valeurs de la covariable), on observe si a) la distribution des points (résidus) est relativement similaire pour des valeurs de covariable différentes. Si ce n’est pas le cas, alors les résultats d’inférence statistique en régression linéaire simple sont à remettre en question. b) la relation entre les résidus et les valeurs de la covariable est linéaire. Si c’est le cas, les résultats d’inférence statistique sont corrects. c) la relation entre les résidus et les valeurs de la covariable est à peu près constante (la droite passant le mieux par ces résidus -au sens des moindres carrés a une pente proche de 0 -). Si ce n’est pas le cas, les résultats d’inférence statistique sont incorrects. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 4. Dans cet énoncé, que vaut la somme des carrés des résidus? a) 73 b) 255792 c) 3504 d) 5329 e) 146 5. Avec un tel nombre de degrés de liberté, on considérera que la Student et la normale standard se confondent. Donnez un intervalle de confiance pour α de niveau 95% (NORM.INV(0,975;0;1)=1,96). a) [a − 1,96seα ,a + 1,96seα ]. b) [b − 1,96seβ ,a + 1,96seβ ]. c) [a − t21;0,975 seα ,a + t21;0,975 seα ]. d) [a − χ221;0,975 seα ,a + χ221;0,975 seα ]. e) [b − χ221;0,975 seβ ,b + χ221;0,975 seβ ]. 17 Pn (ŷi −ȳn )2 Pi=1 n 2 2 ε = 1 − Pn(n−2)se . Si ici le R2 = 0,7, 6. Nous savons que R = (y −ȳ ) (y −ȳn )2 n i i=1 i=1 i que vaut l’estimation ponctuelle de la variance de Y ? 2 a) b) c) d) e) 238,3673 248,4028 18133,4 17400,82. 7457,493 7. Ce R2 = 0,7 signifie que a) 70% de la variabilité des réponses sont expliqués par la droite de régression. b) 70% de la variabilité des erreurs sont expliqués par la droite de régression. c) 70% de la variabilité des réponses sont expliqués par les erreurs du modèle. d) Deux des trois réponses a., b. et c. ci-dessus sont correctes. e) Les trois réponses a., b. et c. ci-dessus sont correctes. 8. Un économiste prétend que β, la vraie pente du modèle, vaut 700. Pour tester cette affirmation, on effectue un test unilatéral à droite. Quel est le bon protocole (hypothèses nulle et alternative) pour ce test? a) b) c) d) e) H0 : β ≤ 800, H1 : β > 800. H0 : β ≥ 700, H1 : β < 700. H0 : β ≤ 700, H1 : β > 700. H0 : β ≥ 800, H1 : β < 800. Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 9. Dans ce contexte, quelle est la bonne statistique de test observée? a) b) c) d) e) 100/seβ −100/seβ 0 √ −100 ∗ 48/seβ Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 10. Quelle est la région critique pour ce test (niveau de test de 5%)? a) b) c) d) e) [t48;0,05 , + ∞[ ] − ∞, − t48;0,05 ] ] − ∞, − t48;0,95 ] [t48;0,95 , + ∞[ Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. 11. Quelle est la p−valeur pour ce test? a) 1 18 b) c) d) e) 1,96 0,05 0 0,975 12. Quelle est la prédiction/prévision du revenu de quelqu’un ayant effectué 10 années d’études? a) b) c) d) e) 8000 9200 10000 10000 ± 150 10000 ± 73 13. Fournissez un intervalle de confiance de niveau 95% pour α+10β. T.INV(0,975;48)=2,010635; T.INV(0,95;48)=1,677224; T.INV(0,95;50)=1,675905 ; T.INV(0,975;50)=2.008559 ; T.INV(0,05;50)=-1,675905. a) b) c) d) e) q [9178.674; 9221.326] 9200 ± 2,010635 × 73 1/50 + 1/900 [9182.21; 9217.79] [9051.682; 9348.318] [9851.682; 10148.32] [9851.836; 10148.16] 14. Fournissez un intervalle de prédiction/prévision de niveau 95% pour le revenu d’un individu ayant effectué 10 années d’études. a) b) c) d) e) [9178.674; 9221.326] [9182.21; 9217.79] q [9051.682; 9348.318] 9200 ± 2,010635 × 73 1 + 1/50 + 1/900 [9851.682; 10148.32] [9851.836; 10148.16] VI. Régression linéaire simple : aspect complémentaires et vraisemblance Remarque : mêmes remarques qu’à la section 2. 1. Considérons un échantillon i.i.d. {X1 , . . . ,X4 } issu d’une population de Bernoulli de paramètre p = P (Xi = 1), i = 1, . . . ,4. L’échantillon observé est {x1 , . . . ,x4 } = {1,0,0,0}. Quelle est la fonction de vraisemblance? a) 1/4 19 b) p(1 − p)3 c) 1/3 d) p3 (1 − p) e) Aucune des réponses ci-dessus n’est correcte. 2. Dans ce contexte, quelle est la fonction de log-vraisemblance? a) log(p) + 3 log(1 − p) b) p(1 − p)3 c) log(3p/(1 − p)) d) log(p3 (1 − p)) e) log(1/4) 3. Dans ce contexte, quelle est la valeur de l’estimateur du maximum de vraisemblance? a) 1/4 b) p(1 − p)3 c) 1/3 d) p3 (1 − p) e) No good answer above 4. Un certain composant électronique est fabriqué une fois par mois par l’entreprise Micro-Systèmes. La quantité fabriquée varie avec la demande du marché. Dans le but de planifier la production et d’établir certaines normes sur le nombre d’hommes-minutes exigés pour la production de différents lots de ce composant électronique, le responsable de la production a relevé l’information suivante pour 15 cédules de production. Le nombre d’hommesminutes est identifié par Y et la quantité fabriquée par X. x Y 35 42 64 88 70 85 40 30 55 60 51 72 80 44 39 150 192 264 371 300 358 192 134 242 238 226 302 340 182 169 Dans ce contexte, le responsable voudrait supposer un modèle de régression linéaire simple. Quel modèle pouvez-vous traiter facilement (estimation et inférence pour les paramètres)? a) Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 ) b) Y = β0 + β1 X + ε c) Y = β0 + β1 X d) Y = β0 + β1 X + ε, V ar[ε] = σ 2 e) Y = β0 + β1 X + ε, E[ε] = 0 15 15 5. On calcule x̄15 = (1/15) 15 i=1 xi = 57, ȳ15 = (1/15) i=1 yi = 244, i=1 (xi − P15 2 x̄15 ) = 4986, i=1 (xi − x̄15 )(yi − ȳ15 ) = 20027, où les xi (respectivement yi ) P P 20 P 6. 7. 8. 9. sont les valeurs de x (respectivement Y ) dans le tableau ci-dessus. Donnez une estimation pour la pente dans le modèle choisi. a) −0.0045 b) −2.5285 c) 0 d) 4.0166 e) 1.5490 Dans ce contexte, l’estimation ponctuelle du coefficient de corrélation (r(X,Y )) doit être a) positive. b) négative. c) nulle. d) égale à l’estimation ponctuelle de la pente. e) égale à −1. Selon le modèle estimé (β̂0obs et β̂1obs sont les estimations correspondant aux estimateurs β̂0 et β̂1 des moindres carrés), a) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs . b) si la quantité fabriquée diminue d’une unité, le nombre d’hommesminutes moyen augmente de β̂1obs . c) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes moyen diminue de β̂1obs . d) si la quantité fabriquée augmente d’une unité, le nombre d’hommesminutes reste constant. e) Aucune des réponses a., b., c. et d. ci-dessus n’est correcte. P Trouvez une estimation de la variance des erreurs sachant que 15 i=1 (yi − 2 obs obs β̂0 − β̂1 xi ) = 90056.29 a) Cette quantité divisée par 13 fournit une estimation de la variance des erreurs. b) La racine carrée de cette quantité fournit une estimation de la variance des erreurs. c) Cette quantité divisée par 13 est utile pour calculer un intervalle de confiance pour β1 . d) Une bonne estimation de l’écart-type des erreurs est 83.23105. e) Seule une réponse parmi a., b., c. et d. est fausse. Calculez un intervalle de confiance bilatéral au niveau 90% pour β1 (t13;0.90 = 1.3502, t13;0.95 = 1.7709, t15;0.90 = 1.3406, t15;0.95 = 1.7531, z0.90 = 1.2816, z0.95 = 1.6449) a) [−1.929172,4.104028] 21 b) [1.950251,6.082949] c) [2.077784,5.955416] d) [1.929172,6.104028] e) [2.425131,5.608069] 10. On suppose un modèle de régression linéaire simple Y = β0 + β1 X + ε, ε ∼ N (0,σ 2 ), entre le durée des études des enfants Y et celle des parents X. En 2009, un échantillon de 40 données ((xi ,Yi ), i = 1, . . . ,40) suivant le modèle ci-dessus avec des erreurs indépendantes a permis d’estimer les paramètres de la droite de régression: b0 = βb0obs = 0,3 et b1 = βb1obs = 1,2. La durée moyenne (observée) des études des enfants est y n = 14,5 et la durée moyenne des études des parents de xn = 11 avec 50 X (xi − xn )2 = 100. i=1 L’écart-type (estimé) des résidus autour de la droite de régression ajustée 1 était de 1,4. Soit la statistique √β̂1 −β . 2 σ̂ /100 a) Sa distribution est normale b) Sa distribution est une Student à 38 degrés de liberté. c) Sa distribution serait normale si les erreurs n’étaient pas distribuées selon une normale. d) Sa distribution est asymptotique. e) Aucune des réponses ci-dessus n’est correcte. 11. Si les erreurs n’étaient pas distribuées selon une normale (toutes les autres hypothèses du modèle ci-dessus seraient néanmoins conservées), quelle serait la distribution de cette quantité? a) Sa distribution serait normale. b) Sa distribution serait asymptotiquement normale. c) Sa distribution serait une Student à 38 degrés de liberté. d) Sa distribution serait asymptotiquement une χ2 . e) Aucune des réponses ci-dessus n’est correcte. 12. Si on veut calculer une estimation ponctuelle du coefficient de corrélation linaire (r(X,Y )), que nous manque-t-il pour le calculer? a) Une estimation ponctuelle de Cov[X,Y ]. b) Pn i=1 (xi − x̄n )ȳn . c) Une estimation ponctuelle de la variance de la réponse Y . d) Deux des trois réponses a), b) et c) sont correctes. e) Aucune des trois réponses a), b) et c) n’est correcte. 22 13. On considère bien pour la suite ε ∼ N (0,σ 2 ). On se donne l’intervalle [1,2 − t38;0,975 × 0,14; 1,2 + t38;0,975 × 0,14] où t38;0,975 suit les notations habituelles du cours pour les quantiles. Il s’agit d’un intervalle de confiance a) b) c) d) e) observé bilatéral pour b1 Les réponses a), b) et c) sont correctes. Deux des trois réponses a), b) et c) sont correctes. 14. Soit H0 : β1 ≥ 0 contre H1 : β1 < 0. A quelle question pourrait correspondre ce protocole? a) b) c) d) La durée des études des enfants a-t-elle un impact sur celle des parents? La durée des études des enfants est-elle significativement positive? La durée des études des parents est-elle significativement positive? La durée des études des enfants est-elle (significativement) positivement (pente positive) liée à la durée des études des parents? e) La durée des études des enfants est-elle (significativement) négativement (pente négative) liée à la durée des études des parents? 15. Comment transformer la statistique ci-dessus pour effectuer le test correspondant à ce protocole? a) b) c) d) e) En remplaçant β1 par 0. En remplaçant β̂1 par b1 . En remplaçant β̂1 par β0 . En remplaçant β̂1 par 0. Aucune des réponses ci-dessus n’est correcte. 16. Quelle est la région critique de ce test (niveau 5%)? On appelle Stat la statistique de l’énoncé (dernière ligne) adaptée à la question précédente. a) b) c) d) e) |Stat| > t38;0,975 Stat < t38;0,05 Stat > t38;0,05 Stat > t38;0,95 Aucune des réponses ci-dessus n’est correcte. 17. Donnez une prédiction (ponctuelle) pour x = 5. a) b) c) d) e) 0,3 6,3 ± 1,4 6,3 0,9 Aucune des réponses ci-dessus n’est correcte. 23 18. Soit Ŷ5 = β̂0 + 5β̂1 (β̂0 et β̂1 sont les estimateurs de moindres carrés). On donne la statistique √ 2Ŷ5 −β0 −5β1 . A quoi sert cette statistique? σ̂ (1/40+36/100) a) A obtenir un intervalle de confiance pour Y5 , la variable aléatoire décrivant la vraie valeur de Y quand x = 5. b) A obtenir un intervalle de confiance pour β0 + β1 x. c) A obtenir un intervalle de confiance pour β0 + 5β1 . d) A obtenir un intervalle de confiance pour Ŷ5 , e) Aucune des réponses ci-dessus n’est correcte. 19. On donne ensuite √ 2 Ŷ5 −Y5 . A quoi sert cette statistique? σ̂ (1+1/40+36/100) a) A obtenir un intervalle de prédiction pour β0 + β1 x. b) A obtenir un intervalle de prédiction pour β0 + 5β1 . c) A obtenir un intervalle de prédiction pour Ŷ5 , d) A obtenir un intervalle de prédiction pour Y5 , la variable aléatoire décrivant la vraie valeur de Y quand x = 5. e) A rien : on ne connaı̂t rien de sa distribution. 20. Quelle est la différence entre les intervalles des deux questions précédentes? a) L’intervalle de la question précédente est toujours plus étroit que l’intervalle de l’autre question (2 questions plus haut). b) L’intervalle de la question précédente est un intervalle pour une quantité aléatoire alors que celui de l’autre question l’est pour une grandeur non aléatoire. c) L’intervalle de la question précédente est un intervalle pour une quantité non aléatoire alors que celui de l’autre question l’est pour une grandeur aléatoire. d) Deux des trois réponses a), b) et c) proposées dans cette question sont correctes. e) Aucune des réponses ci-dessus n’est correcte. 24