Statistique inférentielle
En statistiques, il y a deux grands domaines : la statistique inférentielle et la statistique descriptive. Dans ce dernier, nous cherchons à connaître les caractéristiques d'une série statistique. Par exemple, nous pouvons calculer la moyenne, l'écart-type et les quartiles. Quant à la statistique inférentielle, nous cherchons à déduire des informations sur la population statistique étudiée. Ce résumé de cours inclut certains concepts et méthodes détaillés de la statistique inférentielle, mais elle reste un domaine assez vaste. Dans certains contextes, il peut être compliqué d'appliquer ces approches, notamment dû à la taille de la population étudiée. C'est pour cela que nous devons étudier plutôt un échantillon.
Échantillonnage : définition
Si nous voulions connaître la taille moyenne de la population française, cela prendrait énormément de temps et d'argent pour mesurer (ou demander) tout le monde. Il serait plutôt nécessaire de sélectionner un échantillon représentatif.
Dans ce contexte, un échantillon est un groupe de personnes ou d'objets qui proviennent de la population statistique étudiée. L'échantillonnage fait référence à la sélection d'un échantillon représentatif de la population statistique étudiée.
Si nous voulions connaître la taille moyenne de la population française, nous pouvons sélectionner 1000 personnes au hasard pour former un échantillon.
Imagine un échantillon qui n'est composé que d'une personne ou d'un objet. Oui, c'est un échantillon, mais il est clair que cet échantillon ne nous permettrait pas d'en déduire des informations exactes sur la population étudiée. Alors, quand pouvons-nous faire confiance aux résultats obtenus à partir d'un échantillon ? Dans ce résumé de cours, nous détaillerons deux indicateurs qui nous aident à prendre une décision : l'intervalle de fluctuation et l'intervalle de confiance. Or, pour comprendre ces concepts, nous devons rappeler des informations clés sur la loi binomiale.
L'échantillonnage à l'aide de la loi binomiale
Une loi binomiale est une loi de probabilité. Nous utilisons cette loi de probabilité pour calculer la probabilité qu'il y ait un certain nombre de succès parmi \(n\) expériences. Pour caractériser une loi binomiale, il faut donc connaître le taux de réussite, \(p\), et le nombre d'expériences, \(n\).
Nous disons que \(X\) suit une loi binomiale si la probabilité d'avoir \(k\) succès en ayant effectué \(n\) expériences est égale à : \[ \mathbb{P}(X = k) = \binom{n}{k} p^{k}(1-p)^{n-k} \]
Nous lançons un dé. Si le résultat est 6, nous gagnons 10 €. Estimons la probabilité que nous gagnons 100 € au bout de 15 lancers de dé.
Pour gagner 100 €, il faut avoir un 6, dix fois. De plus, la probabilité d'avoir un 6 (un succès selon notre vocabulaire) est \( \frac{1}{6}\).
Ici, \(p=\frac{1}{6}\), \(n=15\) et \(k=10\).
\( \mathbb{P}(X = 10) = \binom{15}{10} (\frac{1}{6})^{10} (\frac{5}{6} )^{5} \)
\( \mathbb{P}(X = 10) = 0{,}00002 \)
Maintenant que tu comprends ce qu'est une loi binomiale, nous pouvons aborder la notion d'intervalle de fluctuation.
Utiliser l'intervalle de fluctuation en échantillonnage
Imagine que tu joues à pile ou face 20 fois. Pour une pièce de monnaie non-truquée, nous devons avoir pile autant de fois que nous avons face. Si nous avons neuf fois pile et onze fois face, il est raisonnable de dire que cela ne remet pas en cause le résultat théorique. Or, s'il y a quatre fois pile et 16 fois face, ce n'est plus la même histoire. L'intervalle de fluctuation nous permet de s'avoir si un écart entre la fréquence observée et la proportion théorique est dû à la nature aléatoire de l'expérience, ou si ces deux valeurs sont vraiment différentes.
La proportion théorique est la fraction de la population statistique qui correspond à la caractéristique étudiée.
La fréquence observée est la proportion de l'échantillon qui correspond à la caractéristique étudiée.
Si nous jouions à pile ou face 20 fois, et nous obtenons 14 fois pile, la fréquence observée est \(\frac{14}{20} = 0{,}7\). Or, la proportion théorique est \(\frac{1}{2} = 0{,}5\), d'après les règles de base de probabilité.
En statistiques, il y a souvent plusieurs façons de définir le même concept. Cela ne signifie pas que ces définitions sont contradictoires. Au contraire, ces définitions sont souvent équivalentes, selon les conditions. Voyons comment à travers les différentes définitions d'intervalle de fluctuation.
L'intervalle de fluctuation à 95 % est un intervalle qui possède deux propriétés définitoires :
- le centre (ou milieu) de l'intervalle est la proportion théorique ;
- la probabilité que la fréquence observée appartient à cet intervalle est au moins 0,95.
Pour un échantillon de taille \(n \geq 25\) et une proportion théorique \(p\), telle que \(0{,}2 \leq p \leq 0{,}8\), l'intervalle de fluctuation est : \[ \left[ p - \frac{1}{\sqrt{n}}, p + \frac{1}{\sqrt{n}} \right] \]
Nous parlerons de l'intervalle de fluctuation à 95 % tout au long de ce résumé de cours. Sache que nous pouvons également considérer des intervalles de fluctuation à 99 % (ou à n'importe quel autre seuil). Les valeurs numériques utilisées pour définir l'intervalle de fluctuation changeront en conséquence.
Quelqu'un (avec beaucoup de temps libre) a joué a pile ou face 400 fois. Comme la proportion théorique est \(\frac{1}{2}\), l'intervalle de fluctuation est \( \left[\frac{1}{2} - \frac{1}{\sqrt{400}}, \frac{1}{2} + \frac{1}{\sqrt{400}} \right] = \left[\frac{9}{20}, \frac{11}{20} \right]\), ou \( [0{,}45, 0{,}55]\) de façon équivalente.
L'avantage de cette définition est qu'il est facile à appliquer. Or, il n'est applicable que sous certaines conditions. La caractérisation suivante de l'intervalle de fluctuation est moins restrictive.
Soit \(X\) une variable aléatoire qui suit une loi binomiale sur un échantillon de taille \(n\). Soient \(a\) et \(b\) les plus petits entiers tels que \(\mathbb{P}(X \leq a) > 0{,}025\) et \(\mathbb{P}(X \leq b) > 0{,}975\). L'intervalle de fluctuation à 95 % est : \[ \left[ \frac{a}{n}, \frac{b}{n} \right]\]
N'hésite pas à te rappeler (ou découvrir) les concepts qu'il te faut sur une loi de probabilité en consultant notre résumé de cours à ce sujet.
D'après sa saison précédente, une équipe de foot sait qu'elle gagne approximativement 60 % de ses matchs. Cette saison, elle aura dix matchs. Déterminons son intervalle de fluctuation.
Selon l'énoncé, et en suivant la notation au-dessus, \(n = 10\). Il faut donc déterminer \(a\) et \(b\). Même s'il est possible de trouver \(a\) et \(b\) en utilisant la formule de la loi binomiale correspondante avec une calculatrice, un tableau, comme celui ci-dessous est souvent fourni.
\(k\) | \(\mathbb{P}(X \leq k) \) |
\(1\) | \(0{,}00168\) |
\(2\) | \(0{,}01229\) |
\(3\) | \(0{,}05476\) |
\(4\) | \(0{,}16624\) |
\(5\) | \(0{,}3669\) |
\(6\) | \(0{,}61772\) |
\(7\) | \(0{,}83271\) |
\(8\) | \(0{,}95364\) |
\(9\) | \(0{,}99395\) |
Le plus petit \(k\) tel que \(\mathbb{P}(X \leq k) > 0{,}025 \) est 3, comme \(\mathbb{P}(X \leq 2) = 0{,}01229 \) et \(\mathbb{P}(X \leq 2) = 0{,}05476\). Par définition, \(a = 3\).
Le plus petit \(k\) tel que \(\mathbb{P}(X \leq k) > 0{,}975 \) est 9, comme \(\mathbb{P}(X \leq 8) = 0{,}95364 \) et \(\mathbb{P}(X \leq 9) = 0{,}99395\). Par définition, \(b = 9\).
Ainsi, l'intervalle de fluctuation est \[ \left[ \frac{3}{10}, \frac{9}{10} \right]\].
Si la taille de l'échantillon augmente, la taille de l'intervalle de fluctuation diminue.
Selon le théorème central limite, sous certaines conditions, une loi binomiale peut être approchée par une loi normale. Ce théorème permet d'appliquer les propriétés de la loi normale pour aboutir à une troisième définition de l'intervalle de fluctuation.
Soit un échantillon d'effectif \(n\) et dont la proportion théorique de la population correspondante se note \(p\), avec \(n\) et \(p\) vérifiant les conditions suivantes :
- \(n\) est suffisamment grand (plus que 30) ;
- \(np \geq 5\) ;
- \(n(1-p) \geq 5\).
L'intervalle de fluctuation à 95 % est alors donné par : \[ \left[ p - 1{,}96\sqrt{\frac{p(1-p)}{n}}, p + 1{,}96\sqrt{\frac{p(1-p)}{n}} \ \right]\]
Reprenons l'exemple pour notre première définition et imaginons que quelqu'un a joué a pile ou face 400 fois. Comme la proportion théorique est \(\frac{1}{2}\), l'intervalle de fluctuation est \[ \left[ \frac{1}{2} - 1{,}96\sqrt{\frac{\frac{1}{2}(1-\frac{1}{2})}{400}}, \frac{1}{2} + 1{,}96\sqrt{\frac{\frac{1}{2}(1-\frac{1}{2})}{400}} \ \right]\] Après avoir effectué les calculs nécessaires, nous trouvons que l'intervalle de fluctuation est \( [0{,}402, 0{,}598] \)
En réalité, la première définition de l'intervalle de fluctuation présentée ici est une approximation de cette définition. Peu importe quelle définition nous utilisons, l'interprétation reste la même. Nous devons distinguer deux cas d'utilisation de l'intervalle de fluctuation.
- Cas 1 : Nous connaissons la proportion théorique.
- Si la fréquence observée se trouve dans l'intervalle de fluctuation, alors l'échantillon est considéré représentatif de la population étudiée.
- Si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors l'échantillon ne représente pas fidèlement les caractéristiques de la population étudiée.
- Cas 2 : Nous faisons une hypothèse sur la proportion de la population.
- Si la fréquence observée se trouve dans l'intervalle de fluctuation, alors nous acceptons l'hypothèse.
- Si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors nous rejetons l'hypothèse.
Cas 1 : Pour un jeu de pile ou face, la proportion théorique est 0,5. Si quelqu'un obtient 217 fois pile, en ayant joué 400 fois, la fréquence observée est 0,5425. D'après les exemples précédents, l'intervalle de fluctuation est \( [0{,}402, 0{,}598] \) ou \( [0{,}45, 0{,}55]\), si nous décidons d'utiliser l'approximation. Comme la fréquence observée appartient à l'intervalle de fluctuation, nous pouvons considérer cet échantillon représentatif de la population.
Cas 2 : Le coach d'une équipe de foot estime qu'elle gagne approximativement 60 % de ses matchs. Cette saison, elle a joué dix matchs et en a gagné quatre. La fréquence observée est donc 0,4. D'après un des exemples précédents, l'intervalle de fluctuation est \( [ 0{,}3, 0{,}9]\). Puisque la fréquence observée est incluse dans l'intervalle de fluctuation, le coach peut accepter son hypothèse que l'équipe gagne 60 % de ses matchs.
Même si nous disons que l'hypothèse est « acceptée », le fait que la fréquence observée soit dans l'intervalle de fluctuation n'est pas une garantie de la validité de l'hypothèse. Pour cette raison, certain(e)s scientifiques disent également que nous « ne rejetons pas » l'hypothèse.
Utiliser l'intervalle de confiance en échantillonnage
Quelle est la différence entre un intervalle de fluctuation et un intervalle de confiance ? Un intervalle de fluctuation nous donne un encadrement de la fréquence observée, alors qu'un intervalle de confiance encadre la proportion théorique. En d'autres termes :
il y a 95 % de chances que la fréquence observée d'un échantillon soit incluse dans l'intervalle de fluctuation ;
il y a 95 % de chances que la proportion théorique de la population soit incluse dans l'intervalle de confiance.
Sinon, leurs formules sont très similaires : il suffit de remplacer le \(p\) avec un \(f\).
Soit un échantillon de taille \(n\) dont la fréquence observée d'une certaine caractéristique est \(f\). L'intervalle de confiance au niveau de 95 % est : \[ \left[ f - 1{,}96\sqrt{\frac{f(1-f)}{n}}, f + 1{,}96\sqrt{\frac{f(1-f)}{n}} \ \right]\] Nous pouvons simplifier ces expressions grâce à certaines formules de probabilité. Ainsi, l'intervalle de confiance au niveau de 95 % s'écrit également : \[ \left[ f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}} \right] \]
Samy a eu 12 sur 20 dans son contrôle de maths. Il s'est dit que sa note doit être proche de la moyenne. Comme il voulait comparer sa note à la moyenne de la classe, il a demandé à ses 8 voisins leurs notes et a trouvé une moyenne de 10,3. Ainsi, \(f = 10{,}3\) et \(f = 8\). L'intervalle de confiance est donc \( \left[ 10{,}3 - \frac{1}{\sqrt{8}}, 10{,}3 + \frac{1}{\sqrt{8}} \right] \). Après avoir simplifié, l'intervalle de confiance est \([7{,}47, 13{,}1]\).
Nous interprétons l'intervalle de confiance et l'intervalle de fluctuation de façon analogue :
si la fréquence se trouve dans l'intervalle de fluctuation, alors nous acceptons (ou nous ne rejettons pas) l'hypothèse ;
si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors nous rejetons hypothèse.
Si nous continuons avec l'exemple ci-dessous, l'hypothèse de Samy est que la moyenne de la classe est environ 12. Comme 12 appartient à l'intervalle de confiance \([7{,}47, 13{,}1]\), nous pouvons accepter l'hypothèse que la moyenne de la classe est 12.
Les intervalles de fluctuation et les intervalles de confiance sont deux concepts élémentaires de la statistique inférentielle. Sache qu'il y a bien d'autres indicateurs, méthodes et tests que nous pouvons appliquer pour rejeter ou valider (ou plutôt, pour ne pas rejeter) nos hypothèses.
Échantillonnage - Points clés
- L'objectif de la statistique inférentielle est de déduire des informations sur la population statistique étudiée à partir d'un échantillon représentatif.
- L'échantillonnage est la consitution d'un échantillon représentatif, c'est-à-dire, une partie de la population statistique étudiée.
- Une loi binomiale est une loi de probabilité qui sert à calculer la probabilité qu'il y ait un certain nombre de succès parmi un certain nombre d'expériences.
- L'intervalle de fluctuation à 95 % contient la fréquence observée de 95 % d'échantillons. Il y a trois formules qui nous pouvons appliquer selon les conditions :
- \(\left[ p - \frac{1}{\sqrt{n}}, p + \frac{1}{\sqrt{n}} \right] \) ;
- \(\left[ \frac{a}{n}, \frac{b}{n} \right]\) ;
- \(\left[ p - 1{,}96\sqrt{\frac{p(1-p)}{n}}, p + 1{,}96\sqrt{\frac{p(1-p)}{n}} \ \right]\).
- L'intervalle de confiance contient la proportion théorique de la population avec une probabilité de 95 %. Nous pouvons utiliser la formule \( \left[ f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}} \right] \).