Tu t'es donc familiarisé avec le concept des distributions du khi-deux et tu as été initié au concept des tests du khi-deux. Eh bien, tu es arrivé à la partie la plus intéressante. Il est maintenant temps d'apprendre à appliquer ces petits concepts pratiques pour effectuer des tests statistiques réels sur des ensembles de données. Le premier test du khi-deux qui peut être effectué est letest du khi-deuxa> pourlaqualitédel'ajustement. Dans cette explication, tu apprendras comment utiliser ce petit test sympa pour vérifier si une distribution se produit réellement comme prévu dans la réalité, ou si la distribution, dans la réalité, diffère de la projection d'une manière statistiquement significative.
Si tu ne te sens pas tout à fait à l'aise avec l'idée d'une distribution du khi-deux ou avec le concept de base des tests du khi-deux, ne t'en fais pas, il y a des explications StudySmarter pour les deux !
Pas la peine d'attendre alors, plongeons dans le vif du sujet !
Définition du test du khi-deux pour la qualité de l'ajustement
Qu'est-ce que le test du khi-deux pour la qualité de l'ajustement ? Eh bien...
Le test du khi-deux pour l'adéquation estun test d'hypothèse statistique utilisé pour déterminer si une distribution attendue des résultats est significativement différente de la distribution réelle observée des résultats.
On parle beaucoup de résultats, de distributions et de toutes sortes de statistiques, mais qu'est-ce que tout cela signifie ?
Imagine que tu lances un dé à 6 faces 100 fois. Tu t'attends à ce qu'il tombe sur chacune des faces à peu près autant de fois.
Si tu réalisais réellement cette opération et enregistrais les résultats, tu pourrais alors utiliser le test d'adéquation du chi carré pour vérifier si les données réelles correspondent à tes attentes, dans des limites raisonnables bien sûr.
Utile, n'est-ce pas ? Ok, maintenant que tu es familiarisé avec le pourquoi et le comment des tests du Khi-deux pour l'adéquation, entrons dans le vif du sujet. Le comment.
Test du khi-deux pour l'adéquation des hypothèses
Le test du khi-deux pour l'adéquation est un test d'hypothèse. Cela signifie qu'il faut bien sûr commencer par un ensemble d'hypothèses.
Pour effectuer un test d'hypothèse comme celui-ci, tu as besoin d'une hypothèse nulle et d'une hypothèse alternative.
Une hypothèse nulle est une hypothèse qui stipule que toute différence statistique entre les populations est due au hasard. Par exemple
\(H_0:\N) Une pièce de monnaie tirée à pile ou face tombera sur face dans 50 % des cas.
Si l'hypothèse nulle s'avère fausse à l'issue du test, qu'aura-t-on trouvé ? L'hypothèse alternative
\(H_a:\N-) Une pièce jouée à pile ou face ne tombera pas sur pile dans 50 % des cas.
Comment le test du khi-deux pour la qualité de l'ajustement prouve-t-il ou réfute-t-il l'hypothèse nulle ? Il teste la probabilité que le résultat de l'échantillon se produise si l'hypothèse nulle est vraie. Si la probabilité est suffisamment faible, l'hypothèse nulle est considérée comme fausse et l'hypothèse alternative doit être vraie.
Par exemple, supposons que ton échantillon soit composé de 100 coups de coin et que tu obtiennes le résultat suivant.
Pile
Pile
\(99\)
\(1\)
Tableau 1. Test du pile ou face.
S'il y avait une chance sur deux de tomber sur face à chaque tour, comme l'affirme l'hypothèse nulle, quelle serait la probabilité de ce résultat ? Il est intuitivement logique que la probabilité soit si faible qu'elle soit à la limite de l'impossible.
Et si tu obtenais les résultats suivants ?
Pile
Pile
\(58\)
\(42\)
Tableau 2. Test du pile ou face.
C'est un peu plus serré, donc c'est difficile à dire, mais en utilisant le test du khi-deux pour la qualité de l'ajustement, on peut déterminer si ce résultat a prouvé ou réfuté l'hypothèse nulle.
Test du khi-deux pour l'adéquation des résultats Hypothèses et conditions
Le test du Khi-deux pour l'adéquation n'est pas approprié pour être utilisé sur toutes les données. En fait, il y a des conditions(parfois appelées hypothèses) qui doivent se vérifier.
La méthode d'échantillonnage est l'échantillonnage aléatoire simple.
La variable étudiée est catégorique.
La valeur attendue des observations pour chaque catégorie doit être d'au moins cinq.
Chaque résultat de la variable étudiée doit être indépendant.
Examinons chacune de ces conditions de plus près.
Échantillonnage aléatoire
Pour que le test du Khi-deux permette de vérifier l'adéquation, l'échantillon analysé doit comporter des éléments qui ont été choisis au hasard.
Disons que tu souhaites essayer de prédire la fréquence à laquelle différents types de bonbons apparaissent dans un sac mélangé. Eh bien, si tu souhaites voir si ta prédiction est exacte, tu pourrais éventuellement utiliser un test du Khi-deux pour l'adéquation de l'échantillon seulement si les sachets que tu prends pour vérifier cela sont choisis complètement au hasard.
Variable catégorielle
Qu'est-ce qu'une variable catégorielle ? Reprenons l'exemple des sacs de bonbons mélangés de tout à l'heure. Chacun des bonbons contenus dans le sac peut être classé en fonction du type de bonbon qu'il contient. Il n'y a pas d'ordre inhérent à ces catégories, c'est pourquoi la variable est catégorique. Si, par exemple, tes catégories de données étaient les années scolaires, la variable serait simplement ordonnée de la plus faible à la plus élevée, et serait donc une variable ordinale, et non catégorielle.
De ces deux exemples de variables, seul l'exemple des bonbons est catégorique et, par conséquent, seuls les bonbons peuvent être testés à l'aide du Khi-deux pour le test d'adéquation.
Valeur attendue
La condition suivante pour un test du Khi-deux pour l'adéquation est la valeur attendue des observations de l'échantillon par catégorie, qui doit être d'au moins cinq. Cette condition est simple et agréable. Fondamentalement, ce test ne peut être utilisé que sur des échantillons de taille suffisamment importante. Ton hypothèse pourrait être qu'il y a le même nombre de chaque bonbon réparti dans les sacs. Si ton échantillon comprend \(200\) bonbons et cinq types de bonbons, alors le nombre attendu de chaque bonbon trouvé dans l'échantillon serait de \(40\). Ce nombre est supérieur à cinq et remplit donc la condition du test.
Indépendance des résultats
La dernière condition du test du khi-deux pour la qualité de l'ajustement est l'indépendance des résultats. Cela signifie que la probabilité de chaque résultat n'est pas affectée par les résultats précédents. Par exemple, en ce qui concerne le sac de bonbons, chaque fois qu'un bonbon est choisi dans le sac, il y a \(\frac{1}{5}\) chance qu'il s'agisse d'une bouteille de cola. Cela est vrai quel que soit le nombre de bouteilles de cola qui ont été choisies auparavant, ou le nombre d'oursons en gélatine. Les résultats précédents n'ont aucun effet sur celui-ci, les résultats sont donc indépendants et la condition est remplie.
Formule pour la statistique du test d'adéquation du chi carré
Une fois que les hypothèses ont été formulées et que les conditions ont été confirmées, il est temps de calculer la statistique du test du khi-deux. Cela se fait à l'aide de cette simple formule
\[Khi^2 = \sum_{i=1}^n \frac{(O_i-E_i)^2}{E_i}\]
Où \(O_i\) est la \(i^{th}\) valeur observée et \(E_i\) est la \(i^{th} \) valeur attendue.
Par exemple, avec les valeurs attendues et observées suivantes, le calcul serait effectué comme suit.
Bouteille de cola
Soucoupe volante
Ours en gomme
Dentelle de fruit
Caramel
Attendu
\(40\)
\(40\)
\(40\)
\(40\)
\(40\)
Observé
\(20\)
\(25\)
\(15\)
\(18\)
\(22\)
Tableau 3. Valeurs attendues et observées, test du chi-deux.
Tout d'abord, tu dois connaître leniveau de signification, \(\alpha\). Le niveau de signification définit la force de la preuve dont tu as besoin pour pouvoir considérer que l'hypothèse nulle est prouvée. Souvent, les niveaux de signification sont fixés à \(5\%\), (\(\alpha=0,05\)). Un niveau de signification plus bas indique qu'une plus grande force de preuve est nécessaire.
Deuxièmement, tu dois connaître le nombre dedegrés de libertédu problème. Le nombre de degrés de liberté est simplement le nombre de groupes indépendants de la variable. Cette valeur est simplement le nombre de groupes \(-1\). Par exemple, pour une variable comportant cinq groupes, le nombre de degrés de liberté est de quatre.
L 'étape suivante du test consiste à trouver la valeur du khi-deux ou la valeur p. L'une ou l'autre de ces valeurs peut être utilisée pour compléter le test.
Effectuer le test avec la valeur du khi-deux
À partir du tableau du khi-deux, tu peux trouver la valeur du khi-deux pour ton test pour le niveau de signification et les degrés de liberté de ton problème spécifique. Tu trouveras ci-dessous une petite partie du tableau.
Degrés de liberté
Niveau de signification
\(0.2\)
\(0.1\)
\(0.05\)
\(0.025\)
\(0.01\)
\(1\)
\(1.64\)
\(2.71\)
\(3.84\)
\(5.02\)
\(6.64\)
\(2\)
\(3.22\)
\(4.61\)
\(5.99\)
\(7.38\)
\(9.21\)
\(3\)
\(4.64\)
\(6.25\)
\(7.82\)
\(9.35\)
\(11.35\)
\(4\)
\(5.99\)
\(7.78\)
\(9.49\)
\(11.14\)
\(13.28\)
Tableau 4 - Valeurs du khi-deux
Revenons à l'exemple des bonbons. Si le seuil de signification est fixé à \(5\%\), quelle est la valeur du khi-deux ? Eh bien, la valeur où \(\alpha = 0,05\) et \(4\) se rencontrent est \(9,49\).
La question qui se pose maintenant est de savoir si la statistique du test est supérieure ou inférieure à la valeur du Khi-deux. Si la statistique de ton test est inférieure à la valeur du khi-deux, tu peux considérer que l'hypothèse nulle est confirmée.
Effectuer le test avec la valeur P
La valeur \(p-\)est la probabilité que (si l'hypothèse nulle est vraie) la variation de l'échantillonnage produise une estimation plus éloignée de la valeur de l'hypothèse que celle trouvée dans l'échantillon actuel. C'est un peu verbeux, En d'autres termes, c'est la probabilité qu'un échantillonnage aléatoire puisse produire un résultat moins précis que le résultat actuel.
Une fois de plus, le tableau est consulté. Cette fois, trouve où se situe ta statistique de test dans le tableau, et extrais la valeur correspondante de la ligne du niveau de signification. Par exemple, pour une statistique de test de \(5\) lorsque les degrés de liberté sont de \(3\), \(0,2< p <0,1\). Tant que la valeur de \(p-\)est supérieure au niveau de signification, l'hypothèse nulle n'a pas été réfutée.
Test du khi-deux pour la qualité de l'ajustement Exemple
(1) Un biologiste émet l'hypothèse que chacun des trois types de poissons est présent en nombre égal dans un étang. Ils prennent un échantillon aléatoire de \(120\) poissons pour tester l'hypothèse, et les résultats sont les suivants.
Achigan
Marouette
Poisson lune
\(32\)
\(52\)
\(36\)
Tableau 5. Tableau des données sur les poissons.
Degrés de liberté
Niveau de signification
\(0.2\)
\(0.1\)
\(0.05\)
\(0.025\)
\(0.01\)
\(1\)
\(1.64\)
\(2.71\)
\(3.84\)
\(5.02\)
\(6.64\)
\(2\)
\(3.22\)
\(4.61\)
\(5.99\)
\(7.38\)
\(9.21\)
\(3\)
\(4.64\)
\(6.25\)
\(7.82\)
\(9.35\)
\(11.35\)
\(4\)
\(5.99\)
\(7.78\)
\(9.49\)
\(11.14\)
\(13.28\)
Tableau 6. Degrés de liberté et niveau de signification.
(a ) Énonce les hypothèses testées.(b) Les données testées remplissent-elles les conditions d'un test du khi-deux pour la qualité de l'ajustement ?(c) Calcule la statistique du test du khi-deux.(d ) Trouve la valeur du Khi-deux des données, étant donné que le niveau de signification est \(5\%).(e) L'échantillon réfute-t-il l'hypothèse nulle ?Solution :(a) La première étape consiste à définir les hypothèses.\N(H_0\N) : Chaque type de poisson est présent en nombre égal dans l'étang.\(H_a\) : Chaque type de poisson n'est pas présent en nombre égal dans l'étang.(b) La question indique que l'échantillon est aléatoire, la première condition est donc remplie.La variable est catégorique car elle est composée de groupes non ordonnés, la deuxième condition est donc remplie.La valeur attendue de chaque groupe est \(\frac{120}{3} = 40\), ce qui est supérieur à cinq, la troisième condition est donc remplie.Enfin, lorsqu'un poisson est sorti de l'eau, il y a toujours \(\frac{1}{3}\) de chances qu'il s'agisse de l'un des types de poissons, donc chaque résultat est indépendant, et la quatrième condition est donc remplie.Oui, les quatre conditions sont remplies(c) \[\big{align}]. \chi^2& = \sum_{i=1}^n \frac{(O_i-E_i)^2}{E_i} \\\\ &=\frac{(32-40)^2}{40} +\frac{(52-40)^2}{40} + \frac{(36-40)^2}{40} \\\\ &= 5,6 \end{align}\]
Avec un niveau de signification de \(5\%\N), \N(\Nalpha = 0,05\N), la valeur du Khi-deux du tableau est \N(5,99\N).
(e) Comme la statistique du test est inférieure à la valeur du Khi-deux \((5,6 < 5,99)\), le test a montré qu'il n'y a pas suffisamment de preuves pour réfuter l'hypothèse nulle.
(2) Une école réalise une étude sur l'apparition de différentes couleurs d'yeux chez ses élèves. On suppose que \(15\%) des élèves auront les yeux verts, \(25\%) des élèves auront les yeux bleus et \(60\%) des élèves auront les yeux bruns. Parmi les 1000 élèves, 80 sont choisis au hasard. Les résultats de l'échantillon sont les suivants.
Vert
Bleu
Marron
\(18\)
\(28\)
\(34\)
Tableau 7. Données sur les couleurs.
Tableau 8. Degrés de liberté et niveau de signification.
Degrés de liberté
Niveau de signification
\(0.2\)
\(0.1\)
\(0.05\)
\(0.025\)
\(0.01\)
\(1\)
\(1.64\)
\(2.71\)
\(3.84\)
\(5.02\)
\(6.64\)
\(2\)
\(3.22\)
\(4.61\)
\(5.99\)
\(7.38\)
\(9.21\)
\(3\)
\(4.64\)
\(6.25\)
\(7.82\)
\(9.35\)
\(11.35\)
\(4\)
\(5.99\)
\(7.78\)
\(9.49\)
\(11.14\)
\(13.28\)
(a )Énonce les hypothèses testées.(b) Les données testées remplissent-elles les conditions d'un test du khi-deux pour la qualité de l'ajustement ?(c) Calcule la statistique du test du khi-deux.(d )Trouve la valeur \(p-\)des données, étant donné que le niveau de signification est \(5\%\).(e) L'échantillon réfute-t-il l'hypothèse nulle ?
Réponse :
(a ) \N-(H_0\N) :\(15\%\) des élèves auront les yeux verts, \(25\%\) des élèves auront les yeux bleus, et \(60\%\) des élèves auront les yeux bruns.
\N- (H_a\N) : Il n'est pas vrai que \N (15\N%) des élèves auront les yeux verts, \N(25\N%) des élèves auront les yeux bleus, et \N(60\N%) des élèves auront les yeux bruns.
(b) La question indique que l'échantillon est aléatoire, la première condition est donc remplie .La variable est catégorique car elle est composée de groupes non ordonnés, la deuxième condition est donc rempl ie.La valeur attendue de chaque groupe peut être calculée comme suit
\N- [Vert = 80 \Ncdot 0,15 = 12 \N]
\[Bleu = 80 \cdot 0,25 = 20\]
\N- [Brun = 80 \N- 0,6 = 48 \N]
Comme la valeur attendue de chaque groupe est supérieure à \(5\), la troisième condition est remplie.Enfin, la couleur des yeux d'un élève n'est pas affectée par la couleur des yeux d'un autre élève, la quatrième condition est donc remplie.
Maintenant, comme la statistique du test est \(10.28\), d'après le tableau
\[p < 0.01 \]
(e) Comme la valeur de \(p-\)est inférieure au seuil de signification, des preuves suffisantes ont été fournies pour réfuter l'hypothèse nulle.
\[p < 0.01 < 0.05\]
Test du khi-deux pour l'adéquation - Principaux enseignements
Le test du Khi-deux pour l'adéquation estun test d'hypothèse statistique utilisé pour déterminer si une distribution attendue des résultats est significativement différente de la distribution réelle observée des résultats.
Le test du Khi-deux pour l'adéquation ne peut être effectué que sur des données qui remplissent les quatre conditions.
Le test du Khi-deux pour l'adéquation peut être effectué soit en comparant la valeur du Khi-deux et la statistique du test, soit en comparant la valeur \(p-\)des données et le niveau de signification.
Apprends plus vite avec les 0 fiches sur Test du khi-deux pour l'ajustement
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Test du khi-deux pour l'ajustement
Qu'est-ce que le test du khi-deux pour l'ajustement ?
Le test du khi-deux pour l'ajustement évalue si une distribution observée diffère significativement d'une distribution théorique attendue.
Comment interpréter les résultats du test du khi-deux ?
Si la valeur p est inférieure au seuil choisi (par exemple, 0,05), on rejette l'hypothèse nulle et conclut que les distributions sont significativement différentes.
Quels sont les hypothèses du test du khi-deux ?
L'hypothèse nulle (H0) stipule que les données suivent la distribution attendue; l'hypothèse alternative (H1) stipule qu'elles ne la suivent pas.
Quand utiliser le test du khi-deux pour l'ajustement ?
Utilisez ce test lorsque vous voulez comparer une distribution observée avec une distribution théorique, souvent appliqué en recherche et en analyse de données.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.