Tests d'hypothèses pour deux proportions de population
Supposons que tu aies mené une enquête auprès des employés des entreprises de ton pays et que tu aies découvert que sur \(1300) employés à temps plein et \(290) employés à temps partiel, \(40) employés à temps plein et \(38) employés à temps partiel mettaient de côté au moins douze pour cent de leurs revenus sous forme d'épargne. Peux-tu tirer des conclusions sur les différences d'habitudes d'épargne entre les employés à temps plein et les employés à temps partiel ? Les tests d'hypothèse à la rescousse ! Voici un exemple de deux proportions de population, et tu verras ici comment faire un test d'hypothèse et tirer des conclusions de ce type d'échantillonnage.
Employés à temps plein des entreprises de ton pays.
\(p_1 = \) proportion de tous les employés à temps plein qui mettent de côté au moins douze pour cent de leurs revenus sous forme d'épargne.
\(n_1 = 1300\)
\N(\Nhat{p}_1 = 0.40\N)
Employés à temps partiel des entreprises de ton pays.
\(p_2 = \) proportion de tous les employés à temps partiel qui mettent au moins douze pour cent de leurs revenus de côté.
\(n_2 = 290\)
\(\hat{p}_2 = 0,38\N)
En regardant le tableau, il est clair que les tailles des échantillons sont très différentes, et que leurs proportions sont également différentes. Cependant, il sera très rare que tu trouves un exemple où les proportions des échantillons sont les mêmes. Pourquoi les proportions de l'échantillon peuvent-elles être différentes, même si tu peux finalement conclure que la proportion de personnes qui mettent de côté au moins douze pour cent de leurs revenus est la même entre les employés à temps partiel et les employés à temps plein ?
Les différences qui se produisent entre deux échantillons par simple hasard sont appelées variabilité d'échantillonnage.
L'une des principales questions auxquelles un test d'hypothèse pour deux proportions de population tente de répondre est de savoir si la différence entre les proportions de tes échantillons est due à la variabilité d'échantillonnage ou à une différence réelle entre les populations.
Comparaison de deux proportions de population avec des échantillons dépendants
L'une des hypothèses dont tu auras besoin est que tes échantillons sont indépendants.
Deux échantillons sont indépendants si le choix des membres d'un échantillon n'influence pas la façon dont les membres du second échantillon sont choisis.
Dans l'exemple concernant les employés, le fait de choisir une personne qui est employée à plein temps n'influence pas la personne que tu as choisie comme employée à temps partiel, les deux échantillons sont donc indépendants. C'est très différent des échantillons dépendants.
Deux échantillons sont dépendants si le choix des membres d'un échantillon détermine automatiquement les membres du second échantillon.
Si tu fais une étude sur des jumeaux, le fait de choisir un jumeau pour un échantillon placera automatiquement l'autre jumeau dans le second échantillon. Les jumeaux sont un exemple courant d'échantillons dépendants. C'est ce qu'on appelle des données de paires appariées, et cela nécessite une forme de test d'hypothèse différente de celle que tu verras ici.
Formuler ton hypothèse
Il y a de nombreuses façons pour que \(p_1\) soit différent de \(p_2\). Il se peut que \N(p_1 < p_2\N), ou que \N(p_1>p_2\N). Plutôt que d'essayer d'énumérer toutes les façons dont elles sont différentes et de faire un test d'hypothèse pour chacune d'entre elles, tu peux examiner la différence entre les deux proportions de la population. En fait, un test d'hypothèse pour deux proportions de population est souvent appelé test d'hypothèse pour la différence entre deux proportions de population pour cette même raison !
Dans ce type de test d'hypothèse, ton hypothèse nulle sera presque toujours que les deux proportions de population sont les mêmes. Si tu l'énonces en termes de différence, tu obtiens :
\[H_0:\N ; p_1 - p_2 = 0,\N].
Il existe alors trois variétés d'hypothèses alternatives décrites dans le tableau suivant.
Question
Hypothèse alternative
Type de test
Est-ce que \N(p_1\N) est différent de \N(p_2\N) ?
\(H_a:\N ; p_1 - p_2 \Nne 0\N)
Test bilatéral.
Est-ce que \N(p_1\N) est plus petit que \N(p_2\N) ?
\N(H_a:\N ; p_1 - p_2 < 0\N)
Test unilatéral gauche.
Est-ce que \N(p_1\N) est plus grand que \N(p_2\N) ?
\N(H_a:\N ; p_1 - p_2 > 0\N)
Test de la queue droite.
Reprenons l'exemple du début de cet article.
Ton objectif ici est de déterminer si les employés à temps plein et les employés à temps partiel ont des habitudes d'épargne différentes, les hypothèses seraient donc :
Voyons maintenant la statistique du test pour ce type de test d'hypothèse.
Statistique du test de signification pour deux proportions de population
Il est important que tes échantillons soient indépendants, sinon la statistique du test sera différente de celle présentée ici. Puisque tu utilises des échantillons indépendants, rappelle-toi que
\[ \mu_{\hat{p}_1 - \hat{p}_2} = p_1 - p_2.\N-]
Pour savoir pourquoi c'est vrai, consulte les articles Transformer des variables aléatoires et Combiner des variables aléatoires.
Pour l'exemple de l'épargne, tu as que \(n_1 = 1300\), \(n_2 = 290\), \(\hat{p}_1 = 0.40\), et \(\hat{p}_2 = 0.38\). En calculant la moyenne de la distribution d'échantillonnage \(\hat{p}_1 - \hat{p}_2 \), tu obtiens :
Jusqu'à présent, tu as seulement supposé que les échantillons étaient indépendants. Pour la partie suivante, tu devras supposer que la taille des échantillons est suffisamment grande. Si c'est le cas, tu peux utiliser le théorème de la limite centrale pour obtenir que ta distribution d'échantillonnage \(\hat{p}_1 - \hat{p}_2 \) est approximativement normale.
Comment sais-tu si tes échantillons sont suffisamment grands ? Si les quatre conditions suivantes sont remplies, tes échantillons sont suffisamment grands pour que la distribution d 'échantillonnage \(\hat{p}_1 - \hat{p}_2 \) soit approximativement normale:
Il n'est pas très difficile de vérifier que la taille des échantillons dans l'exemple des économies est suffisamment grande pour que la distribution d'échantillonnage soit approximativement normale.
La dernière condition pour utiliser ce type de test d'hypothèse est que ton échantillon soit inférieur à \(10\%\) de la population globale. Dans ce cas, la taille de l'échantillon est certainement inférieure à \(10\%) de tous les habitants de ton pays, cette condition est donc également remplie.
Test Z pour la différence entre les proportions de la population
Lorsqu'on effectue un test d'hypothèse sur la différence entre les proportions d'une population, on utilise un test Z. Pour ce faire, tu devras calculer la différence entre les proportions d'une population et celles d'une autre. Pour ce faire, tu dois calculer la statistique du test, qui utilise la différence entre les deux proportions. Pour faciliter un peu les calculs, il est utile de trouver :
\[ \begin{align}\hat{p}_c &= \frac{\text{nombre de succès dans les deux échantillons} }{\text{total des deux tailles d'échantillons}} \\N- &= \frac{1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2} \N- [end{align}\N]
La combinaison des chiffres pour obtenir une proportion globale s'appelle la mise en commun, et \(p_c\) s'appelle la proportion mise en commun (ou combinée).
Pour revenir à l'exemple de l'épargne, \N(n_1 = 1300\N), \N(n_2 = 290\N), \N(\Nhat{p}_1 = 0,40\N), et \N(\Nhat{p}_2 = 0,38\N).
Terminons le test d'hypothèse pour l'exemple de l'épargne. Aucun niveau de signification n'a été donné, tu devras donc prendre en compte les conséquences des erreurs de type I et de type II. Voir Erreurs dans les tests d'hypothèse pour plus d'informations et d'exemples. Dans cet exemple, une erreur de type I consisterait à décider que les proportions d'épargne ne sont pas les mêmes pour les deux groupes, alors qu'en fait elles sont identiques.
Une erreur de type II consisterait à ne pas penser qu'il y a une différence dans la proportion de population entre les deux groupes alors qu'en fait elles ne sont pas les mêmes. Aucune de ces deux erreurs n'est très grave (contrairement à un essai médical où le type d'erreur a beaucoup plus d'importance) et le choix d'un niveau de signification de \(\alpha = 0,05\) est donc satisfaisant.
N'oublie pas qu'il s'agit d'un test bilatéral ! La valeur de \(P\)est donc deux fois la surface sous la courbe de \(z\)et à droite de la valeur de \(z\). En d'autres termes :
\[ \begin{align} P\text{-valeur} &= 2(\text{area under curve to the right of }0.63) \\N &= 2\cdot P(z>0.63) \N &= 2(0.2643) \N &\Napprox 0.529 \Nend{align} \]
La valeur de P est supérieure au seuil de signification de \ (\alpha = 0,05\), tu ne rejetteras donc pas l'hypothèse nulle.
Rappelle-toi que tu ne dois jamais dire des choses comme "l'hypothèse nulle est vraie". Pour savoir pourquoi, consulte l'article Test d'hypothèse.
Communiquer ta conclusion peut être la partie la plus difficile d'un test d'hypothèse. Qu'est-ce que cela signifie de ne pas rejeter l'hypothèse nulle ?
Solution :
L'objectif initial était de découvrir s'il existe une différence dans les habitudes d'épargne entre les employés à temps plein et à temps partiel des sociétés de ton pays. L'hypothèse nulle est qu'il n'y a pas de différence dans les habitudes d'épargne entre les deux groupes. En ne rejetant pas l'hypothèse nulle, ce que tu dis, c'est qu'il n'y a pas de preuve convaincante qu'il existe une différence dans les habitudes d'épargne entre les employés à temps plein et les employés à temps partiel.
Pourquoi y avait-il alors une différence dans les proportions de la population ? C'est peut-être dû à la variabilité de l'échantillonnage. Tout ce que tu peux dire à partir des proportions de l'échantillon, c'est que tu n'es pas convaincu qu'il y ait une différence entre les deux proportions de l'échantillon.
Exemple de test d'hypothèse sur deux proportions de population
Examinons un autre exemple de test d'hypothèse pour la différence entre deux proportions de population.
De nombreux propriétaires de bouledogues signalent que leur animal ronfle, et en fait, leur bouledogue ronfle plus fréquemment à mesure qu'il vieillit.
Chiot bulldog endormi.
Tu as décidé de faire un test pour voir si c'est vraiment vrai ou si ce n'est peut-être qu'une question de perception. Tu divises donc les bouledogues en deux groupes, ceux qui ont moins de trois ans et ceux qui ont plus de trois ans, et tu choisis un échantillon aléatoire de 700 propriétaires de bouledogues pour les interroger sur les ronflements de leur chien. À partir des réponses au sondage (tout le monde ne répond pas aux sondages), tu crées le tableau suivant :
Population
Proportion de la population
Taille de l'échantillon
Proportion de l'échantillon
Bouledogues âgés de moins de 3 ans.
\Proportion de bouledogues âgés de moins de 3 ans qui ronflent plus de cinq fois par semaine.
\(n_1 = 300\)
\N-(\Nhat{p}_1 = 0.26\N)
Les bouledogues âgés de plus de 3 ans.
\(p_2 = \) proportion de bouledogues âgés de plus de 3 ans qui ronflent plus de cinq fois par semaine.
\(n_2 = 291\)
\N-(\Nhat{p}_2 = 0.392\N)
Avant d'aller plus loin, vérifions que les conditions pour effectuer un test d'hypothèse pour deux proportions de population sont remplies. Tout d'abord, les échantillons sont indépendants puisqu'un bouledogue ne peut pas avoir à la fois moins de \(3\) ans et plus de \(3\) ans. En outre, il y a certainement bien plus de 591 millions de personnes dans le monde qui possèdent des bulldogs, de sorte que le nombre de propriétaires de bulldogs échantillonnés est inférieur à 10 millions de la population totale des personnes qui possèdent des bulldogs. Aussi ,
\N(n_1\hat{p_1} = 300(0.26)=78 \g 10\),
\(n_2\hat{p_2} = 291(0.392) = 114 \ge 10\).
\N- (n_1(1-p_1) = 300(1-0.26) = 222 \N- 10\N)
\N(n_2(1-p_2) = 291(1-0.392) = 176.9 \ge 10\N).
Toutes les conditions d'application du test sont donc remplies.
L'étape suivante consiste à décider de l'hypothèse nulle et de l'hypothèse alternative. L'hypothèse nulle serait :
\[H_0 : \N ; p_2-p_1 = 0\N]
ou, en d'autres termes, qu'il n'y a pas de différence entre les deux groupes en ce qui concerne le ronflement. L'hypothèse alternative serait qu'il existe une différence dans les taux de ronflement des deux groupes, donc :
\[H_a:\N ; p_2-p_1 \ne 0\N].
Calcul du taux de réussite regroupé (parfois appelé taux de réussite combiné) :
Remarque que tu utilises ici \(p_2-p_1\) comme hypothèse nulle simplement pour que \(\hat{p_2} - \hat{p_1} \) soit positive. En fait, la version que tu choisis pour l'hypothèse nulle n'a pas d'importance, tant que tu es cohérent tout au long de ton travail et que tu t'assures que ton calcul de \(z\) correspond.
N'oublie pas qu'il s'agit d'un test bilatéral ! La valeur de \(P\)est donc deux fois la surface sous la courbe de \(z\)et à droite de la valeur de \(z\). En d'autres termes :
\N-[ \N- \N- \N- \N{align} P\text{-valeur} &= 2(\text{aire sous la courbe à droite de }3.425) \\N &= 2\cdot P(z>3.425) \N &\Napprox 2(0.0003) \N &= 0.0006, \Nend{align} \]
où la valeur de \(P(z>3,425)\N) peut être trouvée à l'aide d'une table normale standard ou d'une calculatrice.
Ainsi, à un niveau de signification de \(\alpha = 0,05\), tu peux rejeter l'hypothèse nulle et conclure qu'il y a une différence dans le ronflement des bouledogues en fonction de l'âge.
Ta conclusion aurait-elle été différente si l'hypothèse alternative avait été :
\[H_a:\N ; p_2-p_1 > 0?\N].
Solution :
Le principal changement aurait été le calcul de la valeur de \ (P\). Puisqu'il s'agit d'un test unilatéral, dans ce cas, le calcul serait le suivant :
\[ \begin{align} P\text{valeur} &= \text{aire sous la courbe à droite de }3,425 \\N &= P(z>3,425) \N &\Napprox 0,0003 \Nend{align} \]
Au niveau de signification (alpha = 0,05), tu rejetterais toujours l'hypothèse nulle et tu conclurais que les bouledogues âgés de plus de 3 ans ronflent plus que les bouledogues âgés de moins de 3 ans.
Test d'hypothèse sur les proportions de deux populations - Principaux enseignements
Deux échantillons sont indépendants si le choix des membres d'un échantillon n'influence pas la façon dont les membres du second échantillon sont choisis.
Deux échantillons sont dépendants si la sélection des membres d'un échantillon détermine automatiquement les membres du second échantillon.
Pour un test d'hypothèse portant sur deux proportions de population, l'hypothèse nulle sera presque toujours que les deux proportions de population sont identiques.
Les conditions d'application d'un test d'hypothèse pour la différence de deux proportions de population sont :
Les échantillons sont indépendants.
L'échantillon est inférieur à \(10\%\) de la population globale.
\(n_1\hat{p_1} \ge 10\), \(n_2\hat{p_2} \g 10\), \(n_1(1-p_1) \g 10\), et \(n_2(1-p_2) \g 10\) où \(n_1\) est la taille du premier échantillon, \(n_2\) est la taille du second échantillon, \(p_1\) est la proportion de succès dans le premier échantillon, et \ (p_2\) est la proportion de succès dans le second échantillon.
La formule des proportions regroupées est la suivante : \[ \begin{align}\hat{p}_c &= \frac{\text{nombre de réussites dans les deux échantillons} }{\text{total des deux tailles d'échantillon}} \\N- &= \frac{1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2}. \N- [end{align}\N]
La formule de la statistique de test est \[ z = \frac{\hat{p_1} - \hat{p_2} }{\sqrt{ \dfrac{\hat{p}_c (1-\hat{p}_c) }{n_1} +\dfrac{\hat{p}_c (1-\hat{p}_c) }{n_2} } }\]
Apprends plus vite avec les 8 fiches sur Tests d'hypothèses pour deux proportions de population
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Tests d'hypothèses pour deux proportions de population
Qu'est-ce qu'un test d'hypothèse pour deux proportions?
Un test d'hypothèse pour deux proportions compare les proportions de succès dans deux populations pour déterminer si elles sont statistiquement différentes.
Quand utiliser un test d'hypothèse pour deux proportions?
Utilisez ce test lorsque vous voulez comparer les proportions de succès entre deux groupes distincts, comme deux traitements différents.
Quel est le niveau de signification dans un test d'hypothèse pour deux proportions?
Le niveau de signification, souvent noté alpha, est la probabilité de rejeter à tort l'hypothèse nulle, généralement fixé à 0,05.
Comment interpréter les résultats d'un test d'hypothèse pour deux proportions?
Si la p-valeur est inférieure au niveau de signification, rejetez l'hypothèse nulle et concluez que les proportions sont différentes de manière significative.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.