Uploaded by mathis nk

6 Tests dhypothese partie 2

advertisement
201-CFG-04
6 Tests d’hypothèses
Automne 2024
Tableaux croisés (tableau de contingence)
L’étude conjointe de deux variables donne un tableau à double entrée qu'on appelle tableau de
distribution conjointe ou tableau de contingence.
Exemple
Un échantillon aléatoire de 250 Montréalais est prélevé et chaque individu est réparti selon son revenu
brut annuel et son degré de scolarité complété. Le tableau ci-dessous nous donne les résultats
obtenus.
Distribution des 250 Montréalais selon leur revenu annuel brut et leur degré de
scolarité complété
Revenu brut Primaire
annuel
Faible
20
Moyen
15
Élevé
10
Très élevé
5
Total
50
Sources : Données fictives
Degré de scolarité complété
Secondaire
Collégial
Universitaire
15
42
23
10
90
9
11
25
15
60
6
12
12
20
50
Total
50
80
70
50
250
De manière générale, un tableau à double entrée possède " i " lignes et " j " colonnes contenant de
l’information relative aux variables à l’étude. Ainsi défini, chacun des nombres de ce tableau possède
son adresse qui est écrite sous la forme générale «𝑎!" ».
Exemple
𝑎## =
Interprétation :
Distribution des 250 Montréalais selon leur revenu annuel brut et leur degré de
scolarité complété (en pourcentage).
Revenu brut Primaire
annuel
Faible
8,0%
Moyen
6,0%
Élevé
4,0%
Très élevé
2,0%
Total
20,0%
Sources : Données fictives
6
Degré de scolarité complété
Secondaire
Collégial
Universitaire
6,0%
16,8%
9,2%
4,0%
36,0%
3,6%
4,4%
10,0%
6,0%
24,0%
2,4%
4,8%
4,8%
8,0%
20,0%
Total
20,0%
32,0%
28,0%
20,0%
100,0%
Martin Ducharme
201-CFG-04
6 Tests d’hypothèses
Automne 2024
𝑎## =
Interprétation :
Distributions marginales
La distribution marginale d'une variable est un tableau dans lequel on retrouve les différentes
modalités de cette variable et le total associé à chacune de ces modalités.
Exemple
Distribution des 250 Montréalais selon leur degré de scolarité complété
Degré
de Primaire Secondaire
Collégial
Universitaire
Total
scolarité
complété
Total
Distribution des 250 Montréalais selon leur revenu annuel brut
Revenu annuel Faible
Moyen
Élevé
Très élevé Total
brut
Total
Distributions conditionnelles
La distribution conditionnelle du revenu brut selon un certain degré de scolarité s'effectue en
considérant chacune des colonnes comme étant un secteur précis. On calcule les fréquences relatives
par rapport au total de la colonne.
Distribution du revenu brut annuel selon le degré de scolarité complété.
Revenu brut
annuel
Faible
Moyen
Élevé
Très élevé
Total
Martin Ducharme
Primaire
Degré de scolarité complété
Secondaire
Collégial
Universitaire.
Total
7
201-CFG-04
6 Tests d’hypothèses
Automne 2024
Exercice
Voici le tableau de distribution conjointe d’un échantillon de 510 personnes mettant en lien leur taux
de cholestérol ainsi que leur régime alimentaire.
Distribution des 510 personnes interrogées selon leur taux de cholestérol
et leur habitude alimentaire
Régime
alimentaire
Végétarien
Équilibré
Riche en gras
Total
Taux de cholestérol en mg/dL de sang
[100, 250[ [250, 350[
[350, 450[
[450, 600[
60
55
28
143
53
63
36
152
40
64
42
146
8
21
40
69
Total
161
203
146
510
a) Faites le tableau de la distribution marginale de cet échantillon pour le régime alimentaire.
b) Produisez le tableau de la distribution conditionnelle qui ferait le mieux ressortir la variation du
taux de cholestérol pour chaque régime.
Régime
alimentaire
Végétarien
Taux de cholestérol en mg/dL de sang
[100, 250[ [250, 350[
[350, 450[
[450, 600[
Total
Équilibré
Riche en gras
Total
c) À première vue, en regardant le tableau précédent, semble-t-il y avoir un lien entre le régime
alimentaire et le taux de cholestérol dans le sang?
8
Martin Ducharme
201-CFG-04
6 Tests d’hypothèses
Automne 2024
Test d’indépendance du Khi carré
Voici les tableaux croisés illustrant les notes des étudiants selon le professeur qui leur enseigne.
Répartition de 300 élèves du cours de philosophie selon le professeur et la note
Professeur
note
Moins de 60
60-80
80 -100
Total
M. Socrate
25
55
20
100
M. Platon
27
54
19
100
M. Aristote
25
53
22
100
Total
75
165
60
300
Est-ce que la note en philosophie semble dépendre du professeur?
Répartition de 300 élèves du cours de français selon le professeur et la note
Professeur
note
Moins de 60
60-80
80 -100
Total
M. Camus
20 \
63 \
17 \
100
M. Dumas
5
\
50 \
45 \
100
M. Eco
45
\
48
\
7
\
100
Total
70
161
69
300
Est-ce que la note en français semble dépendre du professeur?
Répartition de 500 élèves du cours de mathématiques selon le professeur et la note
Professeur
note
Moins de 60
60-80
80 -100
Total
M. Pythagore
65 \
122 \
55 \
242
M. Fermat
27 \
78 \
13 \
118
M. Euler
28 \
85 \
27 \
140
Total
120
285
95
500
Est-ce que la note en mathématiques semble dépendre du professeur?
Martin Ducharme
9
201-CFG-04
6 Tests d’hypothèses
Automne 2024
Fréquences théoriques
Les fréquences théoriques d’une distribution sont les fréquences qui apparaissent lorsque les
variables 𝑋 et 𝑌 sont indépendantes.
𝑓$ =
(total de la ligne) × (total de la colonne)
nombre total d'individus
Exemple
Calculons-en quelques-unes dans les tableaux précédents.
Le test d’indépendance du 𝝌𝟐 (khi carré)
Que peut-on conclure à l’exemple 3? Les fréquences observées ne sont pas égales aux fréquences
théoriques, mais sont-elles assez éloignées pour parler de dépendance? On utilise la loi de
probabilités du khi carré pour trancher.
1. La formulation des hypothèses
H0 :
H1 :
2. Le choix d’un seuil de signification a
3. La vérification des conditions d’application
Afin de pourvoir appliquer ce test, on doit avoir :
a. un échantillon de taille 𝑛 ≥ 30
b. toutes les fréquences théoriques (𝑓$ ) doit être ≥ 5
4. La détermination de la valeur critique
Le 𝜒 # critique est la frontière entre l’indépendance et la dépendance des variables. À partir d’une
certaine valeur de 𝜒 # , on pourra rejeter l’hypothèse d’indépendance H0.
On détermine cette valeur par deux paramètres : a (risque d’erreur) et 𝑣 (degré de liberté).
𝑣 = (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑑𝑒 𝑋 − 1) × (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠 𝑑𝑒 𝑌 − 1)
Ici : 𝑣 =
𝜒 # critique =
10
(voir la table en fin de document)
Martin Ducharme
201-CFG-04
6 Tests d’hypothèses
Automne 2024
5. La formulation de la règle de décision
Si 𝜒 # > 𝜒 # critique, alors on rejette l’hypothèse nulle H0 et on accepte l’hypothèse alternative H1.
Les variables 𝑋 et 𝑌 sont dépendantes. Sinon, on conserve l’hypothèse d’indépendance H0.
Comme l’échantillon est choisi aléatoirement, la probabilité que 𝜒 # se retrouve dans la zone de
rejet même s’il y a indépendance entre les variables n’est jamais 0 (erreur de première espèce).
6. Le calcul de 𝜒 #
On mesure l’écart des fréquences observées avec les fréquences théoriques.
𝜒# = P
(𝑓& − 𝑓$ )#
𝑓$
C’est le 𝜒 # calculé. Plus 𝜒 # est grand, plus les valeurs s’éloignent des valeurs théoriques, donc de
l’indépendance.
𝜒# =
7. La décision
Martin Ducharme
11
201-CFG-04
6 Tests d’hypothèses
Automne 2024
Exemple
Dans une étude portant sur la discrimination salariale entre les hommes et les femmes, des
chercheurs prélèvent un échantillon de 500 personnes travaillant dans l'industrie du textile afin
d'analyser la répartition des salaires. Le tableau suivant donne la répartition des répondants selon le
salaire et le sexe. Effectuons l’étude de dépendance de ces variables.
Répartition des 500 travailleurs de l'échantillon selon le
salaire et le sexe
Bas
(20 000$ ou
moins)
salaire
Moyen
Élevé
(entre 20 000$ et
(40 000$ et plus)
40 000$ )
Femmes
109 \
130 \
61 \
300
Hommes
55
91 \
54 \
200
Sexe
Total
\
164
221
115
Total
500
1. La formulation des hypothèses
H0 :
H1 :
2. Le choix du seuil de signification: a = 5 % (donné)
3. La vérification des conditions d’application
4. La détermination de la valeur critique
5. La formulation de la règle de décision
12
Martin Ducharme
201-CFG-04
6 Tests d’hypothèses
Automne 2024
6. Le calcul de 𝜒 #
7. La décision
Coefficient de Cramér
Le coefficient de Cramér, noté 𝑉, permet d’évaluer la force du lien observé entre deux variables.
𝜒#
𝑉=S
𝑛(ℎ − 1)
où 𝑛 est le nombre de données et ℎ est le nombre de modalités de la variable qui en compte le
moins.
La valeur du coefficient peut être interprétée comme suit :
Valeur de 𝑉
0,000 – 0,045
0,045 – 0,090
0,090 – 0,180
0,180 – 0,360
0,360 – 1,000
Force de la dépendance
Très faible
Faible
Moyenne
Forte
Très forte
Exemple
Exercices : p. 315, n. 32 à 37, 38 (Cramér seulement).
Martin Ducharme
13
201-CFG-04
6 Tests d’hypothèses
Distribution du
Automne 2024
c2
Zone de rejet de H 0
Zone de non
rejet de H 0
2
c critique
Degrés
de liberté
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
14
a
10%
5%
2,5%
1%
0,5%
2,71
4,61
6,25
7,78
9,24
10,65
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,2
34,38
35,56
36,74
37,92
39,09
40,26
3,84
5,99
7,82
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,69
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
5,02
7,38
9,35
11,14
12,83
14,45
16,01
17,54
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
6,54
9,21
11,35
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
7,88
10,60
12,84
14,86
16,75
18,55
20,28
21,96
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
Martin Ducharme
Download