Disons que ta ville essaie d'encourager ses habitants à recycler leurs ordures ménagères, et qu'elle propose deux méthodes pour leur demander de le faire :
Si tu sais quelque chose sur une variable, peux-tu utiliser cette information pour en savoir plus sur l'autre variable ?
Tu peux utiliser le test d'indépendance du khi-deux pour y parvenir.
Le test d'indépendance du khi-deux ((\chi^{2})) est un test non paramétrique du khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées l'une à l'autre ou non.
S'il existe une relation entre les deux variables catégorielles, le fait de connaître la valeur d'une variable te renseigne sur la valeur de l'autre variable.
S'il n'y a pas de relation entre les deux variables catégorielles, elles sont indépendantes.
Hypothèses pour un test d'indépendance du khi-deux
Tous les tests du khi-deux de Pearson, pour l'indépendance, l'homogénéité et la qualité de l'ajustement, reposent sur les mêmes hypothèses de base. La principale différence réside dans la façon dont ces hypothèses s'appliquent dans la pratique. Pour pouvoir utiliser ce test, les hypothèses d'un test d'indépendance du khi-deux sont les suivantes :
Les deux variables doivent être catégoriques.
Ce test du Khi-deux utilise des tableaux croisés, en comptant les observations qui entrent dans chaque catégorie.
Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
En poursuivant l'exemple de l'introduction, trois mois après que les méthodes d'intervention de la ville ont été testées, ils examinent les résultats et placent les données dans un tableau de contingence. Les groupes qui doivent être mutuellement exclusifs sont les sous-groupes : (recycle - dépliant), (ne recycle pas - témoin), etc.
Tableau 1. Tableau de contingence, test du chi-deux pour l'indépendance.
Tableau de contingence
Intervention
Recycle
Ne recycle pas
Totaux des lignes
Brochure
46
18
56
Appel téléphonique
47
19
77
Contrôle
49
21
67
Totaux des colonnes
142
58
\(n =\) 200
Les effectifs attendus doivent être au moins égaux à \(5\).
Cela signifie que la taille de l'échantillon doit être suffisamment grande, mais il est difficile de déterminer à l'avance quelle est cette taille. En général, il suffit de s'assurer qu'il y a plus de \(5\) dans chaque catégorie.
Les observations doivent être indépendantes.
Il s'agit de la façon dont les données sont collectées. Dans l'exemple du recyclage en ville, le chercheur ne doit pas échantillonner des maisons qui sont proches les unes des autres. En d'autres termes, il est plus probable qu'une rue de ménages recycle que des ménages choisis dans des quartiers différents.
Hypothèse nulle et hypothèse alternative pour un test d'indépendance du khi-deux
Lorsqu'il s'agit de l'indépendance des variables, tu supposes presque toujours que deux variables sont indépendantes, puis tu essaies de prouver qu'elles ne le sont pas.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]
Remarque que le test du Khi-deux pour l'indépendance ne prétend pas au type de relation entre les deux variables catégorielles, mais seulement à l'existence d'une relation.
En remplaçant "Variable A" et "Variable B" par les variables de l'exemple du recyclage des villes, tu obtiens :
Ta population est l'ensemble des ménages de ta ville.
Hypothèse nulle \N-[ \N-{align}H_{0} : &\text{"si un ménage recycle" et} \\N-&\N-text{"le type d'intervention reçu"} \\N-&\N- ne sont pas liés.}\N- end{align} \]
Alternative Hypothesis \[ \begin{align}H_{a}: &\text{“if a household recycles” and} \\N-&\N- "le type d'intervention reçu"} \\N-&\N-{sont liés.}\N-{end{align}} \]
Fréquences attendues d'un test d'indépendance du khi-deux
Comme pour les autres tests du khi-deux, le test d'indépendance du khi-deux fonctionne en comparant les fréquences observées et les fréquences attendues. Tu calcules les fréquences attendues à l'aide du tableau de contingence. Ainsi, la fréquence attendue pour la ligne \(r\) et la colonne \(c\) est donnée par la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]
où ,
\(E_{r,c}\) est la fréquence attendue pour la population (ou ligne) \(r\) au niveau (ou colonne) \(c\) de la variable catégorielle,
\(r\) est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence,
\(c\) est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence,
\(n_{r}\) est le nombre d'observations de la population (ou ligne) \(r\),
\(n_{c}\) est le nombre d'observations du niveau (ou de la colonne) \(c\) de la variable catégorielle, et
\(n\) est la taille totale de l'échantillon.
Reprenons l'exemple du recyclage en ville :
Ta ville calcule maintenant les fréquences attendues en utilisant la formule ci-dessus et le tableau de contingence.
\(E_{1,1}=\frac{56 \cdot 142}{200} = 39.76\)
\(E_{1,2}=\frac{56 \cdot 58}{200} = 16.24\)
\(E_{2,1}=\frac{77 \cdot 142}{200} = 54.67\)
\(E_{2,2}=\frac{77 \cdot 58}{200} = 22.33\)
\(E_{3,1}=\frac{67 \cdot 142}{200} = 47.57\)
\(E_{3,2}=\frac{67 \cdot 58}{200} = 19.43\)
Tableau 2. Tableau de contingence avec les fréquences observées et les fréquences attendues, test du chi-deux pour l'indépendance.
Tableau de contingence avec les fréquences observées (O) et les fréquences attendues (E)
Intervention
Recycle
Ne recycle pas
Totaux des lignes
Brochure
O1,1 = 46E1,1 = 39,76
O1,2 = 18E1,2 = 16,24
56
Appel téléphonique
O2,1 = 47E2,1 = 54,67
O2,2 = 19E2,2 = 22,33
77
Contrôle
O3,1 = 49E3,1 = 47,57
O3,2 = 21E3,2 = 19,43
67
Totaux des colonnes
142
58
\(n =\) 200
Degrés de liberté pour un test d'indépendance du khi-deux
Comme dans le test du Khi-deux pour l'homogénéité, tu compares deux variables et tu as besoin que le tableau de contingence s'additionne dans les deux dimensions.
La formule pour les degrés de liberté est la même pour les tests d'homogénéité et d'indépendance :
\[ k = (r - 1) (c - 1) \]
où,
\N(k\N) est le degré de liberté,
\(r\) est le nombre de populations, qui est également le nombre de lignes dans un tableau de contingence, et
\(c\) est le nombre de niveaux de la variable catégorielle, qui est également le nombre de colonnes d'un tableau de contingence.
Formule du test d'indépendance du khi-deux
La formule (également appelée statistique de test) pour un test d'indépendance du khi-deux est la suivante :
\(O_{r,c}\) est la fréquence observée pour la population \(r\) au niveau \(c\), et
\(E_{r,c}\) est la fréquence attendue pour la population \(r\) au niveau \(c\).
La statistique du test du Khi-deux mesure l'écart entre les fréquences observées et les fréquences attendues si les deux variables ne sont pas liées.
Étapes pour calculer la statistique du test d'indépendance du khi-deux
Étape \(1\) : Créer un tableau
À l'aide de ton tableau de contingence, crée un tableau qui sépare tes valeurs observées et attendues en deux colonnes.
Tableau 3. Tableau des fréquences observées et des fréquences attendues, test d'indépendance du khi-deux.
Tableau des fréquences observées et attendues
Intervention
Résultat
Fréquence observée
Fréquence attendue
Brochure
Recyclage
46
39.76
Ne se recycle pas
18
16.24
Appel téléphonique
Recycle
47
54.67
Ne recycle pas
19
22.33
Contrôle
Recycle
49
47.57
Ne recycle pas
21
19.43
Étape \(2\) : Soustraire les fréquences attendues des fréquences observées
Ajoute une nouvelle colonne à ton tableau, intitulée "O - E". Dans cette colonne, inscris le résultat de la soustraction de la fréquence attendue à la fréquence observée.
Tableau 4. Tableau des fréquences observées et des fréquences attendues, test du khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues et O-E
Intervention
Résultat
Fréquence observée
Fréquence attendue
O - E
Brochure
Recyclage
46
39.76
6.24
Ne se recycle pas
18
16.24
1.76
Appel téléphonique
Recycle
47
54.67
-7.67
Ne recycle pas
19
22.33
-3.33
Contrôle
Recycle
49
47.57
1.43
Ne recycle pas
21
19.43
1.57
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape 3 : Élever au carré les résultats de l'étape \N(2\N)
Ajoute une nouvelle colonne à ton tableau, intitulée "(O - E)2". Dans cette colonne, inscris le résultat de la mise au carré des résultats de la colonne précédente.
Tableau 5. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues, O-E et (O-E)2
Intervention
Résultat
Fréquence observée
Fréquence attendue
O - E
(O - E)2
Brochure
Recycles
46
39.76
6.24
38.94
Ne recycle pas
18
16.24
1.76
3.10
Appel téléphonique
Recyclage
47
54.67
-7.67
58.83
Ne recycle pas
19
22.33
-3.33
11.09
Contrôle
Recyclage
49
47.57
1.43
2.04
Ne recycle pas
21
19.43
1.57
2.46
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape \(4\) : Diviser les résultats de l'étape 3 par les fréquences attendues
Ajoute à ton tableau une nouvelle colonne intitulée " (O - E)2"/E. Dans cette colonne, inscris le résultat de la division des résultats de la colonne précédente par leurs fréquences attendues.
Tableau 6. Tableau des fréquences observées et des fréquences attendues, test du Khi-deux pour l'indépendance.
Tableau des fréquences observées, attendues, O-E, (O-E)2 et (O-E)2/E
Intervention
Résultat
Fréquence observée
Fréquence attendue
O - E
(O - E)2
(O - E)2/E
Pamphlet
Recyclage
46
39.76
6.24
38.94
0.98
Ne recycle pas
18
16.24
1.76
3.10
0.19
Appel téléphonique
Recycles
47
54.67
-7.67
58.83
1.08
Ne recycle pas
19
22.33
-3.33
11.09
0.50
Contrôle
Recyclage
49
47.57
1.43
2.04
0.04
Ne recycle pas
21
19.43
1.57
2.46
0.13
Les décimales de ce tableau sont arrondies à 2 chiffres.
Étape \(5\) : Additionne les résultats de l'étape 4 pour obtenir la statistique du test du khi-deux.
Enfin, additionne toutes les valeurs de la dernière colonne de ton tableau pour calculer la statistique de ton test du khi-deux :
La formule ici utilise les nombres non arrondis des tableaux ci-dessus pour obtenir une réponse plus précise.
La statistique du test du Khi-deux de l'indépendance dans l'exemple du recyclage de la ville est :
\N[ \NChi^{2} = 2,91259 \N]
Étapes à suivre pour effectuer un test d'indépendance du khi-deux
Si la statistique de test que tu as calculée est suffisamment grande, alors tu peux tirer la conclusion que les fréquences observées ne sont pas celles auxquelles tu t'attendrais si les variables n'étaient effectivement pas liées. Mais qu'est-ce qui est considéré comme "suffisamment grand" ?
Pour déterminer si la statistique du test est suffisamment grande pour rejeter l'hypothèse nulle, tu la compares à une valeur critique tirée d'une table de distribution du khi-deux. Cette comparaison est au cœur du test d'indépendance du khi-deux.
Suis les étapes ci-dessous pour effectuer un test d'indépendance du khi-deux.
Note que les étapes \(1, 2\) et \(3\) ont été décrites en détail ci-dessus.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, qu'elles ne sont pas liées.\[ H_{0} : \text{"Variable A" et "Variable B" ne sont pas liées.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"Variable A" et "Variable B" sont liées.} \]
Étape \N(2\N) : Calculer les fréquences attendues
Utilise ton tableau de contingence pour calculer les fréquences attendues à l'aide de la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \]
Étape \N(3\N) : Calculer la statistique du test du khi-deux
Utilise la formule du test d'indépendance du khi-deux pour calculer la statistique du test du khi-deux :
En utilisant le tableau de contingence de l'exemple du recyclage urbain, rappelle-toi qu'il y a \(3\) groupes d'intervention (les lignes du tableau de contingence) et \(2\) groupes de résultats (les colonnes du tableau de contingence). Les degrés de liberté sont donc les suivants :\N[ \Nbegin{align} k &= (r - 1) (c - 1) \N&= (3 - 1) (2 - 1) \N&= 2 \Ntext{ degrés de liberté}\Nend{align} \]
Choisis un niveau de signification.
Généralement, on utilise un niveau de signification de \N( 0,05 \N), c'est donc celui qui est utilisé ici.
À l'aide d'un tableau de distribution du khi-deux ou d'une calculatrice de valeur critique, détermine la valeur critique.
D'après le tableau de distribution du khi-deux ci-dessous, pour \N(k = 2) et \N( \Nalpha = 0,05), la valeur critique est :\N[ \Nchi^{2} \Ntext{critical value} = 5,99 \N].
Tableau 7. Pourcentage de points, test du khi-deux pour l'indépendance.
Points de pourcentage de la distribution du khi-deux
Degrés de liberté(k)
Probabilité d'une valeur plus grande de X2; niveau de signification (α).
0.99
0.95
0.90
0.75
0.50
0.25
0.10
0.05
0.01
1
0.000
0.004
0.016
0.102
0.455
1.32
2.71
3.84
6.63
2
0.020
0.103
0.211
0.575
1.386
2.77
4.61
5.99
9.21
3
0.115
0.352
0.584
1.212
2.366
4.11
6.25
7.81
11.34
Étape \(5\) : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux
C'est maintenant le moment de vérité ! Ta statistique de test est-elle suffisamment grande pour rejeter l'hypothèse nulle ? Compare-la à la valeur critique que tu viens de trouver pour le savoir.
En reprenant l'exemple du recyclage de la ville, compare la statistique du test à la valeur critique.
La statistique du test du khi-deux est la suivante : \N( \Nchi^{2} = 2,91259 \N)
La valeur critique est : \( 5.99 \)
La statistique du test du khi-deux est inférieure à la valeur critique.
Étape \(6\) : Décider de rejeter ou non l'hypothèse nulle
Enfin, décide de rejeter ou non l'hypothèse nulle.
Si la valeur du Khi-deux est supérieure à la valeur critique, alors la différence entre les fréquences observées et attendues est significative ; \( (p < \alpha) \).
Cela signifie que tu rejettes l'hypothèse nulle selon laquelle les variables ne sont pas liées, et que tu as la preuve que l'hypothèse alternative est vraie.
Si la valeur du Khi-deux est inférieure à la valeur critique, la différence entre les fréquences observées et attendues n'est pas significative ; \( (p > \alpha) \).
Cela signifie que tu ne rejettes pas l'hypothèse nulle, mais que tu n'as pas la preuve que l'hypothèse alternative est vraie.
Décide s'il faut rejeter l'hypothèse nulle pour l'exemple du recyclage en ville.
La valeur du khi-deux est inférieure à la valeur critique.
La ville ne rejette donc pas l'hypothèse nulle selon laquelle le fait qu'un ménage recycle ou non et le type d'intervention qu'il reçoit ne sont pas liés.
Il n'y a pas de différence significative entre les fréquences observées et les fréquences attendues. Cela suggère que la proportion de ménages qui recyclent est la même pour toutes les interventions.
La ville conclut que ses interventions n'ont pas d'effet sur le fait que les ménages choisissent de recycler.
Utilisation de la valeur critique VS utilisation de la valeur P
Dans les étapes de réalisation d'un test d'indépendance du Khi-deux, tu as calculé et utilisé la valeur critique pour décider de rejeter ou non l'hypothèse nulle.
La valeur critique d'un test d'indépendance du Khi-deux est une valeur qui est comparée à la valeur de la statistique du test, afin que tu puisses déterminer s'il faut rejeter l'hypothèse nulle.
Il est toutefois important de savoir qu'il existe une autre option que tu peux utiliser : lavaleur\(p\)-.
La valeur \(p\) d'un test d'indépendance du Khi-deux est associée à la valeur calculée de sa statistique de test. Il s'agit de la zone située à droite de la courbe du khi-deux, avec \(k\) degrés de liberté.
L'image ci-dessous résume l'approche de la valeur critique par rapport à l'approche de la valeur \(p\).
Figure 1. Schéma montrant comment tu peux utiliser soit une valeur \(p\) soit une valeur critique pour déterminer s'il faut rejeter l'hypothèse nulle.
Test du khi-deux pour l'indépendance - Exemple
De nos jours, de nombreux demandeurs d'emploi postulent via des sites d'emploi en ligne. Des sites comme Indeed, ZipRecruiter et CareerBuilder proposent des milliers d'offres alléchantes qui invitent les gens à postuler. Il n'a jamais été aussi facile pour les recruteurs frauduleux d'attirer des personnes vulnérables et sans méfiance.
Les recruteurs frauduleux sont-ils plus répandus dans certains secteurs que dans d'autres ?
Le tableau de contingence ci-dessous contient le nombre réel d'offres d'emploi en ligne frauduleuses et non frauduleuses, par secteur d'activité. Il s'agit des secteurs d'activité les plus courants de l'ensemble de données. Il s'agit d'un ensemble de données assez important, mais qui représente bien ce que les statisticiens font dans le monde réel.
Tableau 7. Tableau de contingence, test du khi-deux pour l'indépendance.
Tableau de contingence
Industrie
Réel
Fraude
Totaux des lignes
Technologie de l'information
1702
32
1734
Logiciels informatiques
1371
5
1376
Internet
1062
0
1062
Marketing / Publicité
783
45
828
Formation
822
0
822
Services financiers
744
35
779
Soins de santé
446
51
497
Services aux consommateurs
334
24
358
Télécom.
316
26
342
Pétrole / Énergie
178
109
287
Totaux des colonnes
7758
327
\(n=\) 8085
Solution:
Étape \(1\) : Énonce les hypothèses.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.\[ H_{0} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" ne sont pas liés.} \]
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.\[ H_{a} : \text{"si une offre d'emploi est réelle" et "le secteur de l'emploi" sont liés.} \]
Étape \N(2\N) : Calculer les fréquences attendues.
En utilisant le tableau de contingence ci-dessus et la formule :\[ E_{r,c} = \frac{{r} \cdot n_{c}}{n}, \]crée un tableau qui contient les fréquences attendues que tu as calculées.
Tableau 7. Tableau des fréquences attendues, test du khi-deux pour l'indépendance.
Tableau des fréquences attendues
Secteur d'activité
Réel
Fraude
Totaux des lignes
Technologie de l'information
1663.8679
70.1321
1734
Logiciels informatiques
1320.3473
55.6527
1376
Internet
1019.0471
42.9529
1062
Marketing / Publicité
794.5113
33.4887
828
Enseignement
788.754
33.246
822
Services financiers
747.4931
31.5069
779
Soins de santé
476.8987
20.1013
497
Services aux consommateurs
343.5206
14.4794
358
Télécom.
328.1677
13.8323
324
Pétrole / Énergie
275.3922
11.6078
287
Totaux des colonnes
7758
327
\(n =\) 8085
Étape \(3\) : Calcule la statistique du test du khi-deux.
Crée un tableau pour conserver les valeurs calculées et utilise la formule :\[ \chi^{2} = \sum \frac{(O_{r,c} - E_{r,c})^{2}}{E_{r,c}} \]pour calculer la statistique de ton test.
Utilisation d'un tableau pour calculer la statistique du test du khi-deux
Secteur d'activité
Statut de l'emploi
Fréquence observée
Fréquence attendue
O - E
(O - E)2
(O - E)2/E
Technologie de l'information
Réel
1702
1633.868
68.132
4641.983
2.841
Fraude
32
70.132
-38.132
1454.057
20.733
Logiciels informatiques
Réel
1371
1320.347
50.653
2565.696
1.943
Fraude
5
55.653
-50.653
2565.696
46.102
Internet
Réel
1062
1019.047
42.953
1844.952
1.811
Fraude
0
42.953
-42.953
1844.952
42.953
Marketing / Publicité
Réel
783
794.511
-11.511
132.510
0.167
Fraude
45
33.4888
11.511
132.510
3.957
Éducation
Réel
822
788.754
33.246
1105.297
1.401
Fraude
0
33.246
-33.246
1105.297
33.246
Services financiers
Réels
744
747.493
-3.493
12.202
0.016
Fraude
35
31.507
3.493
12.202
0.387
Soins de santé
Réel
446
476.899
-30.899
954.730
2.002
Fraude
51
20.101
30.899
954.730
47.496
Services aux consommateurs
Réels
334
343.521
-9.521
90.642
0.264
Fraude
24
14.479
9.521
90.642
6.260
Télécom.
Réel
316
328.168
-12.168
148.053
0.451
Fraude
26
13.832
12.168
148.053
10.703
Pétrole / Energie
Réel
178
275.392
-97.392
9485.241
34.443
Fraude
109
11.608
97.392
9485.241
817.144
Les décimales de ce tableau sont arrondies à \(3\) chiffres.
Additionne toutes les valeurs de la dernière colonne du tableau ci-dessus pour calculer la statistique du test :\[ \begin{align}\chi^{2} &= 2.8411 + 20.7331 + 1.9432 + 46.1019 + 1.8105 \\N-&+ 42.9529 + 0.1668 + 3.9569 + 1.4013 + 33.246 \N-&+ 0.0163 + 0.3873 + 2.0020 + 47.4959 + 0.2639 \N-&+ 6.2601 + 0.4512 + 10.7034 + 34.4427 + 817.1437 \N-&= 1074.319971.\N- end{align} \]
La formule ici utilise les nombres non arrondis du tableau ci-dessus pour obtenir une réponse plus précise.
La statistique du test du khi-deux est la suivante :\[ \chi^{2} = 1074.319971 .\]
Étape \(4\) : Trouver la valeur critique du khi-deux et la valeur du khi-deux.
Dans le monde réel, un statisticien serait probablement plus intéressé par le calcul de la valeur \(p\)-valeur que par le simple fait d'indiquer si le résultat est significatif, mais les gens préfèrent de loin obtenir une conclusion plus spécifique. Disons que tu veux être vraiment sûr qu'il existe une relation avant d'en faire état, et que tu choisis un niveau de signification de \(\alpha = 0,01\).
À l'aide d'un tableau de distribution du khi-deux, regarde la ligne des degrés de liberté (9) et la colonne de la signification (0,01) pour trouver la valeur critique de (21,67).
Pour utiliser une calculatrice de valeur de \(p\), tu as besoin de la statistique du test et des degrés de liberté.
En introduisant les degrés de liberté et la statistique du test dans une calculatrice de valeur de \Npourcentage, tu obtiens une valeur de \Npourcentage très proche de \Npourcentage.
Étape 5 : Comparer la statistique du test du khi-deux à la valeur critique du khi-deux.
La statistique du test de \(1074.319971\) est beaucoup, beaucoup plus grande que la valeur critique de \(21.67\), ce qui signifie que tu as suffisamment de preuves pour rejeter l'hypothèse nulle.
Lavaleur de \(p\) est également très faible, beaucoup moins que le niveau de signification, ce qui te permettrait également de rejeter l'hypothèse nulle.
Étape 6 : Décider de rejeter ou non l'hypothèse nulle.
Il semble qu'il y ait un lien étroit entre le secteur d'activité et le nombre de recruteurs frauduleux.
Regarde le tableau de l'étape 2.
Tu peux y voir que le nombre d'emplois frauduleux dans l'industrie pétrolière est beaucoup plus élevé que prévu et qu'il contribue suffisamment à lui seul pour que tu puisses conclure que l'industrie et les escroqueries des recruteurs ne sont pas indépendantes.
Parconséquent, tu peux en toute confiance rejeter l'hypothèse nulle.
Test du Khi-deux pour l'indépendance - Principaux enseignements
Le test du Khi-deux de l'indépendance est un test non paramétrique du Khi-deux de Pearson que tu peux utiliser pour déterminer si deux variables catégorielles d'une même population sont liées entre elles ou non.
Les conditions suivantes doivent être remplies pour pouvoir utiliser un test d'indépendance du khi-deux :
Les deux variables doivent être catégoriques.
Les groupes doivent être mutuellement exclusifs, c'est-à-dire que l'échantillon est sélectionné au hasard.
Les effectifs attendus doivent être au moins égaux à \(5\).
Les observations doivent être indépendantes.
L'hypothèse nulle est que les deux variables catégorielles sont indépendantes, c'est-à-dire qu'il n'y a pas d'association entre elles, elles ne sont pas liées.
L'hypothèse alternative est que les deux variables catégorielles ne sont pas indépendantes, c'est-à-dire qu'il existe une association entre elles, elles sont liées.
La fréquence attendue pour la ligne \(r\) et la colonne \(c\) d'un test du Khi-deux de l'indépendance est donnée par la formule :
\[ E_{r,c} = \frac{n_{r} \cdot n_{c}}{n} \].
Les degrés de liberté pourun test d'indépendance du khi-deux sont donnés par la formule :
\[ k = (r - 1) (c - 1) \]
La formule (également appelée statistique de test) pour un test d'indépendance du Khi-deux est :
Apprends plus vite avec les 3 fiches sur Test du chi-carré d'indépendance
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Test du chi-carré d'indépendance
Qu'est-ce que le test du chi-carré d'indépendance?
Le test du chi-carré d'indépendance est une méthode statistique pour déterminer si deux variables catégorielles sont indépendantes l'une de l'autre.
Quand utiliser le test du chi-carré d'indépendance?
Utilisez-le lorsque vous avez des données catégorielles et que vous voulez vérifier s'il existe une association significative entre deux variables.
Comment calculer le test du chi-carré d'indépendance?
Pour calculer, comparez les fréquences observées avec les fréquences attendues dans un tableau de contingence et utilisez la formule du chi-carré.
Quels sont les critères d'application du test du chi-carré d'indépendance?
Le test nécessite des échantillons aléatoires, des observations indépendantes et des effectifs théoriques supérieurs à 5 pour chaque cellule du tableau de contingence.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.