C'est là que la distribution \(t\) entre en jeu. Cet article t'aidera à réaliser un test d'hypothèse pour déterminer la différence entre les moyennes de deux populations indépendantes et normalement distribuées.
Comparaison de deux moyennes : Vue d'ensemble du test d'hypothèse
La distribution \(t\)peut également être utilisée pour tester les moyennes de deux distributions normales indépendantes lorsque les variances sont inconnues et que les tailles des échantillons sont petites. Pour ce faire, tu devras supposer que les populations ont la même variance et tu devras donc utiliser une estimation groupée de la variance.
Pour un rappel sur la distribution \(t\) et ses propriétés, voir l'article Distribution T.
Contrairement au test de\(t\)}pairage, où tu compares les résultats d'une expérience avant et après un traitement, tu compares ici deux distributions normales indépendantes.
Décris le type de test d'hypothèse que tu utiliserais dans les scénarios suivants.
1. Une société de téléphonie mobile a publié une nouvelle mise à jour de son logiciel. Elle t'a demandé de trouver des preuves statistiques pour appuyer son affirmation selon laquelle la mise à jour du logiciel a amélioré l'autonomie de la batterie.
2. Une animalerie vend des chiots Welsh Corgi provenant de deux éleveurs différents. Elle souhaite déterminer s'il existe une différence significative entre les poids des chiots de chaque éleveur.
Solution
1. Pour réaliser cette expérience, tu aurais besoin de collecter des échantillons d'informations sur l'autonomie de la batterie du téléphone avant et après la mise à jour du logiciel. Comme les échantillons seront prélevés dans la même population après qu'un changement a été effectué, ils ne sont pas indépendants. Par conséquent, tu dois utiliser un test t par paires.
2. Dans ce cas, tu devrais prélever des échantillons de poids chez deux éleveurs différents et donc deux distributions indépendantes. Tu dois supposer que les populations ont les mêmes variances, tu devras donc utiliser une estimation groupée de la variance pour trouver la valeur t et non un test t apparié.
Test d'hypothèse pour la différence de deux moyennes
Le test d'hypothèse pour la différence de deux moyennes suit les étapes suivantes :
Trouve l'hypothèse nulle et l'hypothèse alternative, \(H_0\) et \(H_1\).
Détermine le niveau de signification à partir des questions, \(\alpha\).
Détermine le nombre de degrés de liberté, \(\upsilon\).
Trouve la région critique.
Calcule l'estimation groupée de la variance, \(s^2_p\).
Calcule \N(t\N).
Compare la valeur de \(t\) avec ta région critique et tire ta conclusion, en précisant si le résultat est significatif et en indiquant ce que cela signifie dans le contexte de la question.
Examinons ensuite les hypothèses dont tu auras besoin pour effectuer le test.
Hypothèse nulle pour la comparaison de deux moyennes
Lors de la comparaison de deux moyennes, ton hypothèse nulle stipulera que la différence entre les deux populations que tu testes est égale à zéro. En d'autres termes, l'hypothèse nulle est qu'il n'y a pas de différence entre les moyennes des populations.
Les échantillons sont prélevés à partir de deux distributions, \(X\) et \(Y\), en supposant qu'elles sont indépendantes et normalement distribuées.
Pour effectuer un test d'hypothèse sur la différence entre les moyennes de ces distributions, utilise l'hypothèse nulle suivante ,
\[H_0:\N-, \Nmu _x =\Nmu _y.\N]
Qu'en est-il de l'hypothèse alternative ?
Hypothèse alternative pour la comparaison de deux moyennes
L'hypothèse alternative pour comparer deux moyennes dépend du fait que tu souhaites tester si une distribution particulière est plus grande que l'autre (test unilatéral) ou simplement s'il y a une différence (test bilatéral).
Lorsque tu utilises un test bilatéral, n'oublie pas de diviser le niveau de signification entre les deux queues !
N'oublie pas de lire attentivement la question pour déterminer quel type d'hypothèse alternative utiliser.
Les échantillons sont prélevés à partir de deux distributions, \(X\) et \(Y\), en supposant qu'elles sont indépendantes et normalement distribuées.
Dans le cas où tu souhaites tester si les moyennes sont différentes (c'est un test bilatéral), tu auras l' hypothèse alternative suivante,
[H_1:\N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N- \N]
Dans le cas où tu souhaites tester si la moyenne de \(X\) est supérieure à la moyenne de \(Y\) (c'est un test unilatéral), tu auras l'hypothèse alternative suivante,
\[H_1:\, \mu _x > \mu _y.\]
Voyons maintenant les calculs que cela implique.
Comparaison des moyennes de deux populations Test d'hypothèse : Calculs
Lorsque l'on teste la différence entre les moyennes, il faut effectuer quelques calculs supplémentaires pour trouver l'estimation groupée de la variance et la valeur de \(t\N) que l'on souhaite tester.
En utilisant les variances des échantillons, \(s^2_x\) et \(s^2_y\), et la taille de chaque échantillon, \(n_x\) et \(n_y\), l'estimation groupée de la variance est donnée par la formule suivante
\[s^2_p=\frac{(n_x-1)s^2_x+(n_y-1)s^2_y}{(n_x-1)+(n_y-1)}.\]
Une fois que tu as trouvé \(s^2_p\), tu dois trouver la valeur critique de \(t\) qui va avec.
Étant donné les moyennes et les variances des échantillons \(\bar{x}\), \(\bar{y}\), \(s^2_x\) et \(s^2_y\) et l'estimation groupée de la variance \(s^2_p\), la valeur critique \(t\), \(t^*\) est :
\[t^*=\frac{(\bar{x}-\bar{y})-(\mu _x - \mu _y)}{\sqrt{s^2_p\left(\dfrac{1}{n_x}+\dfrac{1}{n_y}\right)}}.\nbsp;\nbsp;\nbsp;\nbsp;\nbsp;\nbsp;\nbsp;\nbsp;\nbsp ;]
Exemples de tests d'hypothèses sur les moyennes de deux populations
Voyons maintenant quelques exemples d'utilisation et de calcul de ces statistiques dans le cadre d'un test d'hypothèse réel.
Une animalerie vend des chiots Welsh Corgi pour le compte de deux éleveurs de chiots, \(X\) et \(Y\). Ils ont échantillonné les poids des chiots de chaque éleveur.
Fig. 1 - Les chiots améliorent toujours les mathématiques !
Poids des chiots de l'éleveur \(X\) en kilogrammes : \(5.44,5.32,5.21,5.67.\)
Poids des chiots de l'éleveur \(Y\) en kilogrammes : \(5.02,4.99,5.42,5.21,5.11.\)
L'animalerie souhaite savoir s'il existe une différence statistiquement significative entre les poids des chiots de chaque éleveur.
a. Si tu voulais tester la différence entre les poids des chiots, quelles hypothèses doivent être faites ?
b. Teste si les poids moyens des chiots des deux éleveurs sont différents au niveau de confiance \(10\%).
Solution
a. Pour tester la différence de poids des chiots, les hypothèses à faire sont que les échantillons de chiots sont normalement distribués, indépendants et ont les mêmes variances.
b. Le test est bilatéral, les hypothèses sont donc ,
\N- [\N-] &H_0:\N, \Nmu _x=\Nmu _y \N- [\N-] &H_1 : \,\mu _x \neq \mu _y.\end{align}\]
Il s'agit d'un test bilatéral puisque l'hypothèse alternative est que les poids moyens sont différents. Le niveau de signification est de \(10\)%, la région critique aura donc une probabilité de \(0,05\) dans chaque queue de la distribution.
Le nombre de degrés de liberté est
\N- [\N-upsilon = (4-1)+(5-1)=7.\N]
Pour trouver les degrés de liberté dans ce cas, tu dois additionner les degrés de liberté de chaque échantillon. Tu peux aussi utiliser la formule \(\upsilon = n_x+n_y-2\).
La valeur critique peut être trouvée à l'aide d'une calculatrice ou de tables de probabilités :
\[t_{\upsilon =7}(0.05)=1.895.\]
Ensuite, trouve l'estimation groupée de la variance. Tu devrais avoir \(\bar{x}=5.41\) et \(\bar{y}=5.17.\).
Les variances des échantillons sont \(s^2_x=0.038866667 \) et \(s^2_y=0.03015\).
Par conséquent, l'estimation groupée de la variance est,
\[\N-[\N-]s^2_p &= \frac{(n_x-1)s^2_x+(n_y-1)s^2_y}{(n_x-1)+(n_y-1)} \N&= \frac{(4-1)0.038867 +(5-1)0.03015 }{(4-1)+(5-1)} \N&=0.033886 \N-[\N-] texte{ à 5 s.f.} \N- [\N- \N- \N- \N- \N- \N- \N]
Ta valeur de \(t^*\) est alors :
\[\begin{align} t&=\frac{(\bar{x}-\bar{y})-(\mu _x - \mu _y)}{\sqrt{s^2_p\left(\dfrac{1}{n_x}+\dfrac{1}{n_y}\right)}}\&=\dfrac{(5.41-5.17)-(0)}{\sqrt{0.033886\left(\dfrac{1}{4}+\dfrac{1}{5}\right)}}\\&=1.9435\end{align}\]
Puisque \(t^*=1.9435>1.895=t_\upsilon\), ta valeur de \(t^*\) se situe dans la région critique. Par conséquent, au niveau de signification de \(10\)%, tu peux rejeter l'hypothèse nulle.
En conclusion, il existe des preuves suggérant qu'il y a une différence entre les moyennes des poids des chiots Welsh Corgi des deux éleveurs.
Ce deuxième exemple est légèrement différent du premier. La méthode devra être légèrement adaptée.
Un service de livraison de nourriture, \N(A\N), affirme que son délai moyen de livraison de nourriture est plus de \N(5\N) minutes plus rapide que le délai de livraison de son concurrent, \N(B\N).
Un échantillon aléatoire des délais de livraison de chaque entreprise est collecté :
- Délai de livraison des produits alimentaires pour \(A\), en minutes : \(22,16,45,23,39,32.\)
- Délai de livraison de la nourriture pour \N(B\N), en minutes : \(34,42,63,18,25,46,47.\)
Le service de livraison de nourriture \N(B\N) t'engage pour tester si cette affirmation est statistiquement significative au niveau de signification \N(10\N%). Effectue un test d'hypothèse pour la différence entre les moyennes et explique ce que cela signifie pour les deux services de livraison de nourriture.
Solution
Puisque les échantillons sont indépendants, l'hypothèse nulle serait normalement que les deux moyennes sont identiques. Cependant, l'affirmation est que le service \N(A) est en moyenne \N(5) minutes plus rapide que son concurrent, donc l'hypothèse nulle est plutôt \N(\Nmu _A=\Nmu _B -5 \N). Puisque tu t'intéresses uniquement à la question de savoir si le temps de livraison des repas est plus important pour un service, les hypothèses sont :
\N- [\N-] &H_0:\N,\Nmu _A=\Nmu _B -5 \N- &H_1 : \,\mu_A < \mu _B-5. \N- [Fin{align}\N]
Il s'agit d'un test unilatéral. Le niveau de signification est de \(10\)%, la région critique aura donc une probabilité de \(0,10\) dans la queue gauche de la distribution.
Le nombre de degrés de liberté est
\N- [\N-upsilon = (6-1)+(7-1)=11.\N]
La valeur critique peut être trouvée à l'aide d'une calculatrice ou de tables de probabilités,
\[t_{\upsilon =11}(0.10)=1.363.\]
Puisque tu veux seulement savoir si \(\mu _a\) est inférieur à \(\mu _b -5\), la valeur critique est \(t_{upsilon = -1,363\).
Si l'hypothèse alternative avait été supérieure à, tu aurais utilisé \(t_\upsilon = 1,363\) à la place.
Trouve ensuite l'estimation groupée de la variance. Tu as \(\bar{a}=29.5\) et \(\bar{b}=39.3\). Les variances des échantillons sont \(s^2_a=123.50 \) et \(s^2_b=226.57 \). Par conséquent, l'estimation groupée de la variance est :
\[\N-[\N-]s^2_p &= \frac{(n_a-1)s^2_a+(n_b-1)s^2_b}{(n_a-1)+(n_b-1)} \N&= \frac{(6-1)123.50 +(7-1)226.57 }{(6-1)+(7-1)} \N&=179.72 \N-[\N-]\N-[\N-]text{ à 5 s.f.} \N- [end{align}\N]
La valeur de \(t^*\) est donc,
\[\N- t^*&=\frac{(\Nbar{a}-\Nbar{b})-(\Nmu _a - \Nmu _b)}{\sqrt{s^2_p\Nleft(\Ndfrac{1}{n_a}+\Ndfrac{1}{n_b}\Nright)}\N&=\dfrac{(29.5 -39.3)-(-5)}{\sqrt{179.72 \left(\dfrac{1}{6}+\dfrac{1}{7}\right)}}\\&=-0.64357.\end{align}\]
Puisque l'hypothèse nulle stipule que \(\mu _x=\mu _y-5\), tu auras \(\mu _x-\mu _y=-5\).
Puisque \(t^*=-0.64357>-1.363=t_\upsilon \), la valeur de \(t\) se situe dans la zone d'acceptation. Par conséquent, au niveau de signification \(10\%\), tu ne parviens pas à rejeter l'hypothèse nulle.
Cela signifie qu'il n'y a pas de preuves suffisantes pour suggérer que le service de livraison \N(A) a un délai de livraison supérieur à \N(5) minutes plus rapide que le service de livraison \N(B).
Pour une explication plus détaillée de l'estimation groupée de la variance, consulte l'article Estimation groupée de la variance.
Comparaison de deux moyennes - Test d'hypothèse - Principaux enseignements
- La distribution \(t\) peut être utilisée pour tester les moyennes de deux distributions normales indépendantes lorsque les variances sont inconnues
- Les hypothèses sont que les populations sont indépendantes, normales et ont la même variance.
- La formule de l'estimation groupée de la variance est [s^2_p=\frac{(n_x-1)s^2_x+(n_y-1)s^2_y}{(n_x-1)+(n_y-1)}.\N-].
- La valeur de \(t^*\) est \[t^*=\dfrac{(\bar{x}-\bar{y})-(\mu _x - \mu _y)}{\sqrt{s^2_p\left(\dfrac{1}{n_x}+\dfrac{1}{n_y}\right)}}.\]