Supposons qu'il y ait un procès, il est courant de supposer qu'une personne est innocente à moins qu'il n'y ait suffisamment de preuves pour suggérer qu'elle est coupable. Après le procès, le juge déclare le défendeur coupable, mais il s'avère que le défendeur n'était pas coupable. C'est un exemple d'erreur de type I.
Définition d'une erreur de type I
Supposons que tu aies effectué un test d'hypothèse qui conduit au rejet de l'hypothèse nulle \(H_0\). S'il s'avère que l'hypothèse nulle est vraie, tu as commis une erreur de type I. Supposons maintenant que tu aies effectué un test d'hypothèse et accepté l'hypothèse nulle, mais qu'en fait \(H_0\) soit fausse, alors tu as commis une erreur de type II. Le tableau suivant est un bon moyen de s'en souvenir :
| \N-(H_0\N) vrai | \N- \N- \N- \N- \N- \N(H_0\N) faux |
Rejeter \N(H_0\N) | Erreur de type I | Pas d'erreur |
Ne pas rejeter \(H_0\) | Pas d'erreur | Erreur de type II |
Uneerreur de type I se produit lorsque tu as rejeté \(H_0\) alors que \(H_0\) est vrai.
Cependant, il y a une autre façon d'envisager les erreurs de type I.
Une erreur de type I est un faux positif
Les erreurs de type I sont également connues sous le nom de faux positifs. En effet, rejeter \(H_0\) alors que \(H_0\) est vrai implique que le statisticien a faussement conclu que le test était statistiquement significatif alors qu'il ne l'était pas. Un exemple concret de faux positif est celui d'une alarme incendie qui se déclenche alors qu'il n'y a pas d'incendie ou celui d'un diagnostic erroné de maladie. Comme tu peux l'imaginer, les faux positifs peuvent conduire à une désinformation importante, en particulier dans le cas de la recherche médicale. Par exemple, lors d'un test de dépistage du COVID-19, la probabilité d'obtenir un résultat positif alors que tu n'as pas le COVID-19 a été estimée à environ \(2,3\%\). Ces faux positifs peuvent conduire à une surestimation de l'impact du virus, ce qui entraîne un gaspillage de ressources.
Savoir que les erreurs de type I sont des faux positifs est un bon moyen de se rappeler la différence entre les erreurs de type I et les erreurs de type II, que l'on appelle faux négatifs.
Erreurs de type I et Alpha
Une erreur de type I se produit lorsque l'hypothèse nulle est rejetée alors qu'elle est en fait vraie. La probabilité d'une erreur de type I est communément désignée par \(\alpha\) et c'est ce que l'on appelle la taille du test.
La taille d'un test, \(\alpha\), est la probabilité de rejeter l'hypothèse nulle, \(H_0\), lorsque \(H_0\) est vraie, ce qui est égal à la probabilité d'une erreur de type I. La taille d'un test est l'importance de la signification de l'hypothèse nulle.
La taille d'un test est le niveau de signification du test et celui-ci est choisi avant que le test ne soit effectué. Les erreurs de type 1 ont une probabilité de \(\alpha\) qui correspond au niveau de confiance que le statisticien fixera lorsqu'il effectuera le test d'hypothèse.
Par exemple, si un statisticien fixe un niveau de confiance de \N(99\N%), il y a \N(1\N%) de chance ou une probabilité de \N(\Nalpha=0,01\N) que tu obtiennes une erreur de type 1. D'autres choix courants pour \(\alpha\) sont \(0,05\) et \(0,1\). Par conséquent, tu peux diminuer la probabilité d'une erreur de type I en réduisant le niveau de signification du test.
Probabilité d'une erreur de type I
Tu peux calculer la probabilité qu'une erreur de type I se produise en examinant la région critique ou le niveau de signification. La région critique d'un test est déterminée de manière à ce que la probabilité d'une erreur de type I soit inférieure ou égale au seuil de signification \(\alpha\).
Il faut faire une distinction importante entre les variables aléatoires continues et discrètes lorsqu'on étudie la probabilité d'une erreur de type I. Lorsqu'il s'agit de variables aléatoires discrètes, la probabilité d'une erreur de type I est le niveau de signification réel, alors que lorsque la variable aléatoire en question est continue, la probabilité d'une erreur de type I est égale au niveau de signification du test.
Pour trouver la probabilité d'une erreur de type 1 :
\[\begin{align} \mathbb{P}(\text{Type I error})&=\mathbb{P}(\text{rejeter } H_0 \text{ quand }H_0 \text{ est vrai}) \\N &=\mathbb{P}(\text{être dans la région critique}) \Nend{align}\N]
Pour les variables aléatoires discrètes :
\[\mathbb{P}(\text{Type I error})\leq \alpha.\]
Pour les variables aléatoires continues :
\[\mathbb{P}(\text{Type I error})= \alpha.\]
Exemples discrets d'erreurs de type I
Alors, comment trouver la probabilité d'une erreur de type I si tu as une variable aléatoire discrète ?
La variable aléatoire \(X\) est distribuée de façon binomiale. Supposons qu'un échantillon de 10 soit prélevé et qu'un statisticien veuille tester l'hypothèse nulle \(H_0 : \ ; p=0,45\) contre l'hypothèse alternative \(H_1:\ ; pneq0,45\).
a) Trouve la région critique pour ce test.
b) Indique la probabilité d'une erreur de type I pour ce test.
Solution :
a) Puisqu'il s'agit d'un test à deux extrémités, à un niveau de signification de \(5\%\), les valeurs critiques, \(c_1\) et \(c_2\) sont telles que
\N- [\N- Début{align} \mathbb{P}(X\leq c_1) &\leq0.025 \n- \n- \n- \n- \n- \n- \n- \n- \n- et } \mathbb{P}(X\geq c_2) &\leq 0.025. \N- [end{align}\N]
\(\mathbb{P}(X\geq c_2) = 1-\mathbb{P}(X\leq c_2-1)\leq0.025\) ou \( \mathbb{P}(X\leq c_2-1) \geq0.975\)
Supposons que \(H_0\) soit vrai. Alors, sous l'hypothèse nulle \N(X\sim B(10,0.45)\N), à partir des tableaux statistiques :
\[ \begin{align} &\mathbb{P}(X \leq 1)=0.0233<0.025 \\ & \mathbb{P}(X \leq 2)=0.0996>0.025.\end{align}\]
La valeur critique est donc \(c_1=1\). Pour la deuxième valeur critique,
\[ \begin{align} &\mathbb{P}(X \leq 7)=0.9726<0.975 \\ & \mathbb{P}(X \leq 8)=0.996>0.975. \N- [Fin{align}\N-]
Par conséquent, \(c_2-1=8\) donc la valeur critique est \(c_2=9\).
La région critique pour ce test sous un niveau de signification de \(5\%\) est donc la suivante
\N-[\N-{ X\Nleq 1\Nright\N}\Ncup \N-{ X\Ngeq 9\Nright\N}.\N]
b) Une erreur de type I se produit lorsque tu rejettes \N(H_0\N) mais que \N(H_0\N) est vraie, c'est-à-dire qu'il s'agit de la probabilité que tu te trouves dans la région critique étant donné que l'hypothèse nulle est vraie.
Sous l'hypothèse nulle, \(p=0,45\), donc,
\N- [\N- Début{align} \mathbb{P}(\text{Type I error})&=\mathbb{P}(X\leq1 \mid p=0.45)+\mathbb{P}(X\geq9 \mid p=0.45) \mathbb{P}(X\geq9 \mid p=0.45) &=0.0233+1-0.996 \mathbb{P}(X\leq1 \mid p=0.45)+\mathbb{P}(X\geq9 \mid p=0.45). \N- [end{align}\N-]
Jetons un coup d'œil à un autre exemple.
On lance une pièce de monnaie jusqu'à ce qu'on obtienne une queue.
a) En utilisant une distribution appropriée, trouve la région critique pour un test d'hypothèse qui vérifie si la pièce est biaisée en faveur de face au niveau de signification \(5\%\).
b) Indique la probabilité d'une erreur de type I pour ce test.
Solution :
a) Soit \(X\) le nombre de lancers de pièces avant d'obtenir une queue.
On peut alors répondre à cette question en utilisant la distribution géométrique comme suit puisque le nombre d'échecs (face) \(k - 1\) avant le premier succès/queue avec une probabilité de queue donnée par \(p\).
Par conséquent, \(X\sim \rm{Geo}(p)\) où \(p\) est la probabilité d'obtenir une queue. L'hypothèse nulle et l'hypothèse alternative sont donc
\\N-[ \N-{align} &H_0 : \N- ; p=\Nfrac{1}{2}] \N-[ \N-{align}]. \\N-texte{et } &H_1 : \N- ; p<\frac{1}{2}. \N-END{align}\N]
Ici, l'hypothèse alternative est celle que tu veux établir, c'est-à-dire que la pièce est biaisée en faveur de face, et l'hypothèse nulle est la négation de cette hypothèse, c'est-à-dire que la pièce n'est pas biaisée.
Sous l'hypothèse nulle, \(X\sim \rm{Geo}) \left(\frac{1}{2}\right)\).
Comme il s'agit d'un test unilatéral au niveau de signification \(5\%), tu veux trouver la valeur critique \(c\) telle que \(\mathbb{P}(X\geq c) \leq 0.05 \N). Cela signifie que tu veux
\[ \left(\frac{1}{2}\right)^{c-1} \leq 0.05. \]
Par conséquent
\[ (c-1)\ln\left(\frac{1}{2}\right) \leq \ln(0.05), \]
ce qui signifie que \(c >5.3219\).
Par conséquent, la région critique pour ce test est \N(X \geq 5,3219=6\N).
Ici, tu as utilisé le fait que, pour une distribution géométrique \(X\sim \rm{Geo}(p)\),
\N[\Nmathbb{P}(X \Ngeq x)=(1-p)^{x-1}.\N]
b) Puisque \(X\) est une variable aléatoire discrète, \(\mathbb{P}(\text{Type I error})\leq \alpha\), et la probabilité d'une erreur de type I est le niveau de signification réel. Ainsi, la probabilité d'une erreur de type I est le niveau de signification réel.
\[\begin{align} \mathbb{P}(\text{Erreur de type I})&= \mathbb{P}( \text{rejeter } H_0 \text{ quand } H_0 \text{ est vrai}) \\N &=\mathbb{P}(X\geq 6 \mid p=0.5) \\N- &= \N-gauche(\Nfrac{1}{2}\Ndroite)^{6-1} \N- &=0.03125. \N- [end{align}\N]
Exemples continus d'erreur de type I
Dans le cas continu, pour trouver la probabilité d'une erreur de type I, tu devras simplement donner le niveau de signification du test donné dans la question.
La variable aléatoire \N(X\N) est normalement distribuée de telle sorte que \N(X\Nsim N(\Nmu ,4)\N). Supposons qu'un échantillon aléatoire de \(16\) observations soit prélevé et que \(\bar{X}\) soit la statistique de test. Un statisticien veut tester \(H_0:\mu=30\) contre \(H_1:\mu<30\) en utilisant un niveau de signification de \(5\%\).
a) Trouve la région critique.
b) Indique la probabilité d'une erreur de type I.
Solution :
a) Sous l'hypothèse nulle, tu as \N(\bar{X}\sim N(30,\frac{4}{16})\N).
Définis
\[Z=\frac{\bar{X}-\mu}{\frac{\mu}{\sqrt{n}}}\sim N(0,1).\]
Au niveau de signification \(5\%\) pour un test unilatéral, d'après les tableaux statistiques, la région critique pour \(Z\) est \(Z<-1,6449\).
Par conséquent, tu rejettes H_0 si
\[\begin{align} \frac{\bar{X}-\mu}{\frac{\mu}{\sqrt{n}}}&=\frac{\bar{X}-30}{\frac{2}{\sqrt{16}}} \N- &\N- -1,6449.\Nend{align}\N]
Par conséquent, après quelques réarrangements, la région critique pour \(\bar{X}\) est donnée par \(\bar{X} \leq 29.1776\).
b) Puisque \(X\) est une variable aléatoire continue, il n'y a pas de différence entre le niveau de signification cible et le niveau de signification réel. Par conséquent, \(\mathbb{P}(\text{Type I error})= \alpha\), c'est-à-dire que la probabilité d'une erreur de type I \(\alpha\) est la même que le niveau de signification du test, donc
\N[\Nmathbb{P}(\Ntexte{Erreur de type I})=0.05.\N]
Relation entre les erreurs de type I et de type II
La relation entre les probabilités des erreurs de type I et de type II est importante dans les tests d'hypothèse, car les statisticiens veulent minimiser ces deux types d'erreurs. Pourtant, pour minimiser la probabilité de l'une, tu augmentes la probabilité de l'autre.
Par exemple, si tu réduis la probabilité d'une erreur de type II (la probabilité de ne pas rejeter l'hypothèse nulle alors qu'elle est fausse) en diminuant le niveau de signification d'un test, cela augmente la probabilité d'une erreur de type I. Ce phénomène de compromis est souvent traité en donnant la priorité à la minimisation de la probabilité des erreurs de type I.
Pour plus d'informations sur les erreurs de type II, consulte notre article sur les erreurs de type II.
Erreurs de type I - Principaux enseignements
- Une erreur de type I se produit lorsque tu as rejeté \(H_0\) alors que \(H_0\) est vrai.
- Les erreurs de type I sont également connues sous le nom de faux positifs.
- La taille d'un test, \(\alpha\), est la probabilité de rejeter l'hypothèse nulle, \(H_0\), lorsque \(H_0\) est vrai et elle est égale à la probabilité d'une erreur de type I.
- Tu peux diminuer la probabilité d'une erreur de type I en réduisant le niveau de signification du test.
- Il existe un compromis entre les erreurs de type I et de type II, car tu ne peux pas diminuer la probabilité d'une erreur de type I sans augmenter la probabilité d'une erreur de type II, et vice versa.