Sauter à un chapitre clé
Test d'hypothèse pour la différence de deux proportions de population
Commençons par énumérer ce que tu sais grâce à l'exemple au début de cet article.
Population | Proportion de la population | Taille de l'échantillon | Proportion de l'échantillon |
Employés à temps plein des entreprises de ton pays. | \(p_1 = \) proportion de tous les employés à temps plein qui mettent de côté au moins douze pour cent de leurs revenus sous forme d'épargne. | \(n_1 = 1300\) | \N(\Nhat{p}_1 = 0.40\N) |
Employés à temps partiel des entreprises de ton pays. | \(p_2 = \) proportion de tous les employés à temps partiel qui mettent au moins douze pour cent de leurs revenus de côté. | \(n_2 = 290\) | \(\hat{p}_2 = 0,38\N) |
En regardant le tableau, il est clair que les tailles des échantillons sont très différentes, et que leurs proportions sont également différentes. Cependant, il sera très rare que tu trouves un exemple où les proportions des échantillons sont les mêmes. Pourquoi les proportions de l'échantillon peuvent-elles être différentes, même si tu peux finalement conclure que la proportion de personnes qui mettent de côté au moins douze pour cent de leurs revenus est la même entre les employés à temps partiel et les employés à temps plein ?
Les différences qui se produisent entre deux échantillons par simple hasard sont appelées variabilité d'échantillonnage.
L'une des principales questions auxquelles un test d'hypothèse pour deux proportions de population tente de répondre est de savoir si la différence entre les proportions de tes échantillons est due à la variabilité d'échantillonnage ou à une différence réelle entre les populations.
Comparaison de deux proportions de population avec des échantillons dépendants
L'une des hypothèses dont tu auras besoin est que tes échantillons sont indépendants.
Deux échantillons sont indépendants si le choix des membres d'un échantillon n'influence pas la façon dont les membres du second échantillon sont choisis.
Dans l'exemple concernant les employés, le fait de choisir une personne qui est employée à plein temps n'influence pas la personne que tu as choisie comme employée à temps partiel, les deux échantillons sont donc indépendants. C'est très différent des échantillons dépendants.
Deux échantillons sont dépendants si le choix des membres d'un échantillon détermine automatiquement les membres du second échantillon.
Si tu fais une étude sur des jumeaux, le fait de choisir un jumeau pour un échantillon placera automatiquement l'autre jumeau dans le second échantillon. Les jumeaux sont un exemple courant d'échantillons dépendants. C'est ce qu'on appelle des données de paires appariées, et cela nécessite une forme de test d'hypothèse différente de celle que tu verras ici.
Formuler ton hypothèse
Il y a de nombreuses façons pour que \(p_1\) soit différent de \(p_2\). Il se peut que \N(p_1 < p_2\N), ou que \N(p_1>p_2\N). Plutôt que d'essayer d'énumérer toutes les façons dont elles sont différentes et de faire un test d'hypothèse pour chacune d'entre elles, tu peux examiner la différence entre les deux proportions de la population. En fait, un test d'hypothèse pour deux proportions de population est souvent appelé test d'hypothèse pour la différence entre deux proportions de population pour cette même raison !
Dans ce type de test d'hypothèse, ton hypothèse nulle sera presque toujours que les deux proportions de population sont les mêmes. Si tu l'énonces en termes de différence, tu obtiens :
\[H_0:\N ; p_1 - p_2 = 0,\N].
Il existe alors trois variétés d'hypothèses alternatives décrites dans le tableau suivant.
Question | Hypothèse alternative | Type de test |
Est-ce que \N(p_1\N) est différent de \N(p_2\N) ? | \(H_a:\N ; p_1 - p_2 \Nne 0\N) | Test bilatéral. |
Est-ce que \N(p_1\N) est plus petit que \N(p_2\N) ? | \N(H_a:\N ; p_1 - p_2 < 0\N) | Test unilatéral gauche. |
Est-ce que \N(p_1\N) est plus grand que \N(p_2\N) ? | \N(H_a:\N ; p_1 - p_2 > 0\N) | Test de la queue droite. |
Reprenons l'exemple du début de cet article.
Ton objectif ici est de déterminer si les employés à temps plein et les employés à temps partiel ont des habitudes d'épargne différentes, les hypothèses seraient donc :
\[ \begin{align} &H_0:\; p_1 -p_2 = 0 \\ & H_a: \N- p_1-p_2 \Nne 0, \Nend{align} \]
et il s'agirait d'un test bilatéral.
Voyons maintenant la statistique du test pour ce type de test d'hypothèse.
Statistique du test de signification pour deux proportions de population
Il est important que tes échantillons soient indépendants, sinon la statistique du test sera différente de celle présentée ici. Puisque tu utilises des échantillons indépendants, rappelle-toi que
\[ \mu_{\hat{p}_1 - \hat{p}_2} = p_1 - p_2.\N-]
Pour savoir pourquoi c'est vrai, consulte les articles Transformer des variables aléatoires et Combiner des variables aléatoires.
Pour l'écart-type,
\[ \sigma_{\hat{p}_1 - \hat{p}_2} = \sqrt{ \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} }.\]
Pour l'exemple de l'épargne, tu as que \(n_1 = 1300\), \(n_2 = 290\), \(\hat{p}_1 = 0.40\), et \(\hat{p}_2 = 0.38\). En calculant la moyenne de la distribution d'échantillonnage \(\hat{p}_1 - \hat{p}_2 \), tu obtiens :
\[\begin{align} \mu_{\hat{p}_1 - \hat{p}_2} &= p_1 - p_2 \\N- &= 0.40 - 0.38 \N- &= 0.02 \Nend{align}\N]
L'écart-type pour \(\hat{p}_1 - \hat{p}_2 \) est :
\[ \begin{align} \sigma_{\hat{p}_1 - \hat{p}_2} &= \sqrt{ \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} } \N- &= \sqrt{ \frac{0.40(1-0.40)}{1300} + \frac{0.38(1-0.38)}{290} } \N- &= \sqrt{\frac{0.24}{1300} + \frac{0.2356}{290} } \\N- &\N- environ 0.03157 \N- end{align} \]
Jusqu'à présent, tu as seulement supposé que les échantillons étaient indépendants. Pour la partie suivante, tu devras supposer que la taille des échantillons est suffisamment grande. Si c'est le cas, tu peux utiliser le théorème de la limite centrale pour obtenir que ta distribution d'échantillonnage \(\hat{p}_1 - \hat{p}_2 \) est approximativement normale.
Comment sais-tu si tes échantillons sont suffisamment grands ? Si les quatre conditions suivantes sont remplies, tes échantillons sont suffisamment grands pour que la distribution d 'échantillonnage \(\hat{p}_1 - \hat{p}_2 \) soit approximativement normale:
\N[n_1\hat{p_1} \ge 10\N].
\N- [n_2\hat{p_2} \ge 10\N].
\N- [n_1(1-p_1) \N- \N- \N- \N- \N- \N- \N- \N- \N] et
\N-[n_2(1-p_2) \N-[10\N].
Il n'est pas très difficile de vérifier que la taille des échantillons dans l'exemple des économies est suffisamment grande pour que la distribution d'échantillonnage soit approximativement normale.
La dernière condition pour utiliser ce type de test d'hypothèse est que ton échantillon soit inférieur à \(10\%\) de la population globale. Dans ce cas, la taille de l'échantillon est certainement inférieure à \(10\%) de tous les habitants de ton pays, cette condition est donc également remplie.
Test Z pour la différence entre les proportions de la population
Lorsqu'on effectue un test d'hypothèse sur la différence entre les proportions d'une population, on utilise un test Z. Pour ce faire, tu devras calculer la différence entre les proportions d'une population et celles d'une autre. Pour ce faire, tu dois calculer la statistique du test, qui utilise la différence entre les deux proportions. Pour faciliter un peu les calculs, il est utile de trouver :
\[ \begin{align}\hat{p}_c &= \frac{\text{nombre de succès dans les deux échantillons} }{\text{total des deux tailles d'échantillons}} \\N- &= \frac{1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2} \N- [end{align}\N]
La combinaison des chiffres pour obtenir une proportion globale s'appelle la mise en commun, et \(p_c\) s'appelle la proportion mise en commun (ou combinée).
Pour revenir à l'exemple de l'épargne, \N(n_1 = 1300\N), \N(n_2 = 290\N), \N(\Nhat{p}_1 = 0,40\N), et \N(\Nhat{p}_2 = 0,38\N).
\N(\Nhat{p}_2 = 0,38\N), ce qui signifie que :
\[ \begin{align}\hat{p}_c &= \frac{n_1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2}. \N- &= \Nfrac{1300(0.40)+ 290(0.38) }{1300+ 290}. \N- &= \Nfrac{630.2}{1590} \N- & \N- environ 0,3964 \Nend{align}\N]
Tant que ton hypothèse nulle est \N(H_0:\N;p_1 -p_2 = 0\N), la statistique de test peut être calculée à l'aide de la formule :
\[ z = \frac{\hat{p_1} - \hat{p_2} }{\sqrt{ \dfrac{\hat{p}_c (1-\hat{p}_c) }{n_1} +\dfrac{\hat{p}_c (1-\hat{p}_c) }{n_2} } }\]
Calcul de la statistique de test pour l'exemple de l'épargne :
\[ \begin{align} z &= \frac{\hat{p_1} - \hat{p_2} }{\sqrt{ \dfrac{\hat{p}_c (1-\hat{p}_c) }{n_1} +\dfrac{\hat{p}_c (1-\hat{p}_c) }{n_2} } } \\N- &= \frac{0.40 - 0.38 }{\sqrt{ \dfrac{0.3964 (1-0.3964 ) }{1300} +\dfrac{0.3964 (1-0.3964 ) }{290} } } \N- & \N- environ 0,63,\Nend{align} \]
Arrondi à \(2\) décimales.
Terminons le test d'hypothèse pour l'exemple de l'épargne. Aucun niveau de signification n'a été donné, tu devras donc prendre en compte les conséquences des erreurs de type I et de type II. Voir Erreurs dans les tests d'hypothèse pour plus d'informations et d'exemples. Dans cet exemple, une erreur de type I consisterait à décider que les proportions d'épargne ne sont pas les mêmes pour les deux groupes, alors qu'en fait elles sont identiques.
Une erreur de type II consisterait à ne pas penser qu'il y a une différence dans la proportion de population entre les deux groupes alors qu'en fait elles ne sont pas les mêmes. Aucune de ces deux erreurs n'est très grave (contrairement à un essai médical où le type d'erreur a beaucoup plus d'importance) et le choix d'un niveau de signification de \(\alpha = 0,05\) est donc satisfaisant.
N'oublie pas qu'il s'agit d'un test bilatéral ! La valeur de \(P\)est donc deux fois la surface sous la courbe de \(z\)et à droite de la valeur de \(z\). En d'autres termes :
\[ \begin{align} P\text{-valeur} &= 2(\text{area under curve to the right of }0.63) \\N &= 2\cdot P(z>0.63) \N &= 2(0.2643) \N &\Napprox 0.529 \Nend{align} \]
La valeur de P est supérieure au seuil de signification de \ (\alpha = 0,05\), tu ne rejetteras donc pas l'hypothèse nulle.
Rappelle-toi que tu ne dois jamais dire des choses comme "l'hypothèse nulle est vraie". Pour savoir pourquoi, consulte l'article Test d'hypothèse.
Communiquer ta conclusion peut être la partie la plus difficile d'un test d'hypothèse. Qu'est-ce que cela signifie de ne pas rejeter l'hypothèse nulle ?
Solution :
L'objectif initial était de découvrir s'il existe une différence dans les habitudes d'épargne entre les employés à temps plein et à temps partiel des sociétés de ton pays. L'hypothèse nulle est qu'il n'y a pas de différence dans les habitudes d'épargne entre les deux groupes. En ne rejetant pas l'hypothèse nulle, ce que tu dis, c'est qu'il n'y a pas de preuve convaincante qu'il existe une différence dans les habitudes d'épargne entre les employés à temps plein et les employés à temps partiel.
Pourquoi y avait-il alors une différence dans les proportions de la population ? C'est peut-être dû à la variabilité de l'échantillonnage. Tout ce que tu peux dire à partir des proportions de l'échantillon, c'est que tu n'es pas convaincu qu'il y ait une différence entre les deux proportions de l'échantillon.
Exemple de test d'hypothèse sur deux proportions de population
Examinons un autre exemple de test d'hypothèse pour la différence entre deux proportions de population.
De nombreux propriétaires de bouledogues signalent que leur animal ronfle, et en fait, leur bouledogue ronfle plus fréquemment à mesure qu'il vieillit.
Tu as décidé de faire un test pour voir si c'est vraiment vrai ou si ce n'est peut-être qu'une question de perception. Tu divises donc les bouledogues en deux groupes, ceux qui ont moins de trois ans et ceux qui ont plus de trois ans, et tu choisis un échantillon aléatoire de 700 propriétaires de bouledogues pour les interroger sur les ronflements de leur chien. À partir des réponses au sondage (tout le monde ne répond pas aux sondages), tu crées le tableau suivant :
Population | Proportion de la population | Taille de l'échantillon | Proportion de l'échantillon |
Bouledogues âgés de moins de 3 ans. | \Proportion de bouledogues âgés de moins de 3 ans qui ronflent plus de cinq fois par semaine. | \(n_1 = 300\) | \N-(\Nhat{p}_1 = 0.26\N) |
Les bouledogues âgés de plus de 3 ans. | \(p_2 = \) proportion de bouledogues âgés de plus de 3 ans qui ronflent plus de cinq fois par semaine. | \(n_2 = 291\) | \N-(\Nhat{p}_2 = 0.392\N) |
Avant d'aller plus loin, vérifions que les conditions pour effectuer un test d'hypothèse pour deux proportions de population sont remplies. Tout d'abord, les échantillons sont indépendants puisqu'un bouledogue ne peut pas avoir à la fois moins de \(3\) ans et plus de \(3\) ans. En outre, il y a certainement bien plus de 591 millions de personnes dans le monde qui possèdent des bulldogs, de sorte que le nombre de propriétaires de bulldogs échantillonnés est inférieur à 10 millions de la population totale des personnes qui possèdent des bulldogs. Aussi ,
\N(n_1\hat{p_1} = 300(0.26)=78 \g 10\),
\(n_2\hat{p_2} = 291(0.392) = 114 \ge 10\).
\N- (n_1(1-p_1) = 300(1-0.26) = 222 \N- 10\N)
\N(n_2(1-p_2) = 291(1-0.392) = 176.9 \ge 10\N).
Toutes les conditions d'application du test sont donc remplies.
L'étape suivante consiste à décider de l'hypothèse nulle et de l'hypothèse alternative. L'hypothèse nulle serait :
\[H_0 : \N ; p_2-p_1 = 0\N]
ou, en d'autres termes, qu'il n'y a pas de différence entre les deux groupes en ce qui concerne le ronflement. L'hypothèse alternative serait qu'il existe une différence dans les taux de ronflement des deux groupes, donc :
\[H_a:\N ; p_2-p_1 \ne 0\N].
Calcul du taux de réussite regroupé (parfois appelé taux de réussite combiné) :
\[ \begin{align}\hat{p}_c &= \frac{1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2} \N- &= \Nfrac{300(0.26)+291(0.392)}{300+291} \\N- \N- environ 0,325 . \N- [end{align}\N]
La statistique de test est alors :
\[\begin{align} z &= \frac{\hat{p_2} - \hat{p_1} }{\sqrt{ \dfrac{\hat{p}_c (1-\hat{p}_c) }{n_1} +\dfrac{\hat{p}_c (1-\hat{p}_c) }{n_2} } } \\N- &= \frac{ 0.392 - 0.26 }{\sqrt{ \dfrac{0.325 (1-0.325) }{300} +\dfrac{0.325 (1-0.325) }{291} } } \\N- &\N- environ 3.425 \Nend{align}\N]
Remarque que tu utilises ici \(p_2-p_1\) comme hypothèse nulle simplement pour que \(\hat{p_2} - \hat{p_1} \) soit positive. En fait, la version que tu choisis pour l'hypothèse nulle n'a pas d'importance, tant que tu es cohérent tout au long de ton travail et que tu t'assures que ton calcul de \(z\) correspond.
N'oublie pas qu'il s'agit d'un test bilatéral ! La valeur de \(P\)est donc deux fois la surface sous la courbe de \(z\)et à droite de la valeur de \(z\). En d'autres termes :
\N-[ \N- \N- \N- \N{align} P\text{-valeur} &= 2(\text{aire sous la courbe à droite de }3.425) \\N &= 2\cdot P(z>3.425) \N &\Napprox 2(0.0003) \N &= 0.0006, \Nend{align} \]
où la valeur de \(P(z>3,425)\N) peut être trouvée à l'aide d'une table normale standard ou d'une calculatrice.
Ainsi, à un niveau de signification de \(\alpha = 0,05\), tu peux rejeter l'hypothèse nulle et conclure qu'il y a une différence dans le ronflement des bouledogues en fonction de l'âge.
Ta conclusion aurait-elle été différente si l'hypothèse alternative avait été :
\[H_a:\N ; p_2-p_1 > 0?\N].
Solution :
Le principal changement aurait été le calcul de la valeur de \ (P\). Puisqu'il s'agit d'un test unilatéral, dans ce cas, le calcul serait le suivant :
\[ \begin{align} P\text{valeur} &= \text{aire sous la courbe à droite de }3,425 \\N &= P(z>3,425) \N &\Napprox 0,0003 \Nend{align} \]
Au niveau de signification (alpha = 0,05), tu rejetterais toujours l'hypothèse nulle et tu conclurais que les bouledogues âgés de plus de 3 ans ronflent plus que les bouledogues âgés de moins de 3 ans.
Test d'hypothèse sur les proportions de deux populations - Principaux enseignements
- Deux échantillons sont indépendants si le choix des membres d'un échantillon n'influence pas la façon dont les membres du second échantillon sont choisis.
- Deux échantillons sont dépendants si la sélection des membres d'un échantillon détermine automatiquement les membres du second échantillon.
- Pour un test d'hypothèse portant sur deux proportions de population, l'hypothèse nulle sera presque toujours que les deux proportions de population sont identiques.
- Les conditions d'application d'un test d'hypothèse pour la différence de deux proportions de population sont :
- Les échantillons sont indépendants.
- L'échantillon est inférieur à \(10\%\) de la population globale.
- \(n_1\hat{p_1} \ge 10\), \(n_2\hat{p_2} \g 10\), \(n_1(1-p_1) \g 10\), et \(n_2(1-p_2) \g 10\) où \(n_1\) est la taille du premier échantillon, \(n_2\) est la taille du second échantillon, \(p_1\) est la proportion de succès dans le premier échantillon, et \ (p_2\) est la proportion de succès dans le second échantillon.
- La formule des proportions regroupées est la suivante : \[ \begin{align}\hat{p}_c &= \frac{\text{nombre de réussites dans les deux échantillons} }{\text{total des deux tailles d'échantillon}} \\N- &= \frac{1\hat{p_1} + n_2\hat{p_2} }{n_1 + n_2}. \N- [end{align}\N]
- La formule de la statistique de test est \[ z = \frac{\hat{p_1} - \hat{p_2} }{\sqrt{ \dfrac{\hat{p}_c (1-\hat{p}_c) }{n_1} +\dfrac{\hat{p}_c (1-\hat{p}_c) }{n_2} } }\]
Apprends avec 8 fiches de Tests d'hypothèses pour deux proportions de population dans l'application gratuite StudySmarter
Tu as déjà un compte ? Connecte-toi
Questions fréquemment posées en Tests d'hypothèses pour deux proportions de population
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus