201-CFG-04 6 Tests d’hypothèses Automne 2024 Tableaux croisés (tableau de contingence) L’étude conjointe de deux variables donne un tableau à double entrée qu'on appelle tableau de distribution conjointe ou tableau de contingence. Exemple Un échantillon aléatoire de 250 Montréalais est prélevé et chaque individu est réparti selon son revenu brut annuel et son degré de scolarité complété. Le tableau ci-dessous nous donne les résultats obtenus. Distribution des 250 Montréalais selon leur revenu annuel brut et leur degré de scolarité complété Revenu brut Primaire annuel Faible 20 Moyen 15 Élevé 10 Très élevé 5 Total 50 Sources : Données fictives Degré de scolarité complété Secondaire Collégial Universitaire 15 42 23 10 90 9 11 25 15 60 6 12 12 20 50 Total 50 80 70 50 250 De manière générale, un tableau à double entrée possède " i " lignes et " j " colonnes contenant de l’information relative aux variables à l’étude. Ainsi défini, chacun des nombres de ce tableau possède son adresse qui est écrite sous la forme générale «𝑎!" ». Exemple 𝑎## = Interprétation : Distribution des 250 Montréalais selon leur revenu annuel brut et leur degré de scolarité complété (en pourcentage). Revenu brut Primaire annuel Faible 8,0% Moyen 6,0% Élevé 4,0% Très élevé 2,0% Total 20,0% Sources : Données fictives 6 Degré de scolarité complété Secondaire Collégial Universitaire 6,0% 16,8% 9,2% 4,0% 36,0% 3,6% 4,4% 10,0% 6,0% 24,0% 2,4% 4,8% 4,8% 8,0% 20,0% Total 20,0% 32,0% 28,0% 20,0% 100,0% Martin Ducharme 201-CFG-04 6 Tests d’hypothèses Automne 2024 𝑎## = Interprétation : Distributions marginales La distribution marginale d'une variable est un tableau dans lequel on retrouve les différentes modalités de cette variable et le total associé à chacune de ces modalités. Exemple Distribution des 250 Montréalais selon leur degré de scolarité complété Degré de Primaire Secondaire Collégial Universitaire Total scolarité complété Total Distribution des 250 Montréalais selon leur revenu annuel brut Revenu annuel Faible Moyen Élevé Très élevé Total brut Total Distributions conditionnelles La distribution conditionnelle du revenu brut selon un certain degré de scolarité s'effectue en considérant chacune des colonnes comme étant un secteur précis. On calcule les fréquences relatives par rapport au total de la colonne. Distribution du revenu brut annuel selon le degré de scolarité complété. Revenu brut annuel Faible Moyen Élevé Très élevé Total Martin Ducharme Primaire Degré de scolarité complété Secondaire Collégial Universitaire. Total 7 201-CFG-04 6 Tests d’hypothèses Automne 2024 Exercice Voici le tableau de distribution conjointe d’un échantillon de 510 personnes mettant en lien leur taux de cholestérol ainsi que leur régime alimentaire. Distribution des 510 personnes interrogées selon leur taux de cholestérol et leur habitude alimentaire Régime alimentaire Végétarien Équilibré Riche en gras Total Taux de cholestérol en mg/dL de sang [100, 250[ [250, 350[ [350, 450[ [450, 600[ 60 55 28 143 53 63 36 152 40 64 42 146 8 21 40 69 Total 161 203 146 510 a) Faites le tableau de la distribution marginale de cet échantillon pour le régime alimentaire. b) Produisez le tableau de la distribution conditionnelle qui ferait le mieux ressortir la variation du taux de cholestérol pour chaque régime. Régime alimentaire Végétarien Taux de cholestérol en mg/dL de sang [100, 250[ [250, 350[ [350, 450[ [450, 600[ Total Équilibré Riche en gras Total c) À première vue, en regardant le tableau précédent, semble-t-il y avoir un lien entre le régime alimentaire et le taux de cholestérol dans le sang? 8 Martin Ducharme 201-CFG-04 6 Tests d’hypothèses Automne 2024 Test d’indépendance du Khi carré Voici les tableaux croisés illustrant les notes des étudiants selon le professeur qui leur enseigne. Répartition de 300 élèves du cours de philosophie selon le professeur et la note Professeur note Moins de 60 60-80 80 -100 Total M. Socrate 25 55 20 100 M. Platon 27 54 19 100 M. Aristote 25 53 22 100 Total 75 165 60 300 Est-ce que la note en philosophie semble dépendre du professeur? Répartition de 300 élèves du cours de français selon le professeur et la note Professeur note Moins de 60 60-80 80 -100 Total M. Camus 20 \ 63 \ 17 \ 100 M. Dumas 5 \ 50 \ 45 \ 100 M. Eco 45 \ 48 \ 7 \ 100 Total 70 161 69 300 Est-ce que la note en français semble dépendre du professeur? Répartition de 500 élèves du cours de mathématiques selon le professeur et la note Professeur note Moins de 60 60-80 80 -100 Total M. Pythagore 65 \ 122 \ 55 \ 242 M. Fermat 27 \ 78 \ 13 \ 118 M. Euler 28 \ 85 \ 27 \ 140 Total 120 285 95 500 Est-ce que la note en mathématiques semble dépendre du professeur? Martin Ducharme 9 201-CFG-04 6 Tests d’hypothèses Automne 2024 Fréquences théoriques Les fréquences théoriques d’une distribution sont les fréquences qui apparaissent lorsque les variables 𝑋 et 𝑌 sont indépendantes. 𝑓$ = (total de la ligne) × (total de la colonne) nombre total d'individus Exemple Calculons-en quelques-unes dans les tableaux précédents. Le test d’indépendance du 𝝌𝟐 (khi carré) Que peut-on conclure à l’exemple 3? Les fréquences observées ne sont pas égales aux fréquences théoriques, mais sont-elles assez éloignées pour parler de dépendance? On utilise la loi de probabilités du khi carré pour trancher. 1. La formulation des hypothèses H0 : H1 : 2. Le choix d’un seuil de signification a 3. La vérification des conditions d’application Afin de pourvoir appliquer ce test, on doit avoir : a. un échantillon de taille 𝑛 ≥ 30 b. toutes les fréquences théoriques (𝑓$ ) doit être ≥ 5 4. La détermination de la valeur critique Le 𝜒 # critique est la frontière entre l’indépendance et la dépendance des variables. À partir d’une certaine valeur de 𝜒 # , on pourra rejeter l’hypothèse d’indépendance H0. On détermine cette valeur par deux paramètres : a (risque d’erreur) et 𝑣 (degré de liberté). 𝑣 = (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑑𝑒 𝑋 − 1) × (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑑𝑒 𝑌 − 1) Ici : 𝑣 = 𝜒 # critique = 10 (voir la table en fin de document) Martin Ducharme 201-CFG-04 6 Tests d’hypothèses Automne 2024 5. La formulation de la règle de décision Si 𝜒 # > 𝜒 # critique, alors on rejette l’hypothèse nulle H0 et on accepte l’hypothèse alternative H1. Les variables 𝑋 et 𝑌 sont dépendantes. Sinon, on conserve l’hypothèse d’indépendance H0. Comme l’échantillon est choisi aléatoirement, la probabilité que 𝜒 # se retrouve dans la zone de rejet même s’il y a indépendance entre les variables n’est jamais 0 (erreur de première espèce). 6. Le calcul de 𝜒 # On mesure l’écart des fréquences observées avec les fréquences théoriques. 𝜒# = P (𝑓& − 𝑓$ )# 𝑓$ C’est le 𝜒 # calculé. Plus 𝜒 # est grand, plus les valeurs s’éloignent des valeurs théoriques, donc de l’indépendance. 𝜒# = 7. La décision Martin Ducharme 11 201-CFG-04 6 Tests d’hypothèses Automne 2024 Exemple Dans une étude portant sur la discrimination salariale entre les hommes et les femmes, des chercheurs prélèvent un échantillon de 500 personnes travaillant dans l'industrie du textile afin d'analyser la répartition des salaires. Le tableau suivant donne la répartition des répondants selon le salaire et le sexe. Effectuons l’étude de dépendance de ces variables. Répartition des 500 travailleurs de l'échantillon selon le salaire et le sexe Bas (20 000$ ou moins) salaire Moyen Élevé (entre 20 000$ et (40 000$ et plus) 40 000$ ) Femmes 109 \ 130 \ 61 \ 300 Hommes 55 91 \ 54 \ 200 Sexe Total \ 164 221 115 Total 500 1. La formulation des hypothèses H0 : H1 : 2. Le choix du seuil de signification: a = 5 % (donné) 3. La vérification des conditions d’application 4. La détermination de la valeur critique 5. La formulation de la règle de décision 12 Martin Ducharme 201-CFG-04 6 Tests d’hypothèses Automne 2024 6. Le calcul de 𝜒 # 7. La décision Coefficient de Cramér Le coefficient de Cramér, noté 𝑉, permet d’évaluer la force du lien observé entre deux variables. 𝜒# 𝑉=S 𝑛(ℎ − 1) où 𝑛 est le nombre de données et ℎ est le nombre de modalités de la variable qui en compte le moins. La valeur du coefficient peut être interprétée comme suit : Valeur de 𝑉 0,000 – 0,045 0,045 – 0,090 0,090 – 0,180 0,180 – 0,360 0,360 – 1,000 Force de la dépendance Très faible Faible Moyenne Forte Très forte Exemple Exercices : p. 315, n. 32 à 37, 38 (Cramér seulement). Martin Ducharme 13 201-CFG-04 6 Tests d’hypothèses Distribution du Automne 2024 c2 Zone de rejet de H 0 Zone de non rejet de H 0 2 c critique Degrés de liberté 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 14 a 10% 5% 2,5% 1% 0,5% 2,71 4,61 6,25 7,78 9,24 10,65 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,2 34,38 35,56 36,74 37,92 39,09 40,26 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,69 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,54 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 6,54 9,21 11,35 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,96 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,65 50,99 52,34 53,67 Martin Ducharme