Échantillonnage

Mobile Features AB

Certains sondages comparent les tailles moyennes de personnes habitant dans différents pays. Rappelle-toi que la Chine a une population d'environ un milliard. Penses-tu que les personnes menant cette enquête ont mesuré (ou demandé la taille) de chaque adulte en Chine ? Dans ce contexte et dans plusieurs autres, effectuer un sondage sur l'ensemble de la population statistique prendrait trop de temps et trop d'argent. Il faut donc constituer un échantillon représentatif de la population grâce à des méthodes d'échantillonnage. Dans ce résumé de cours, nous allons commencer par un aperçu du domaine de la statistique inférentielle, avant de définir l'échantillonnage. Par la suite, nous donnerons des informations clés sur la loi binomiale, qui nous permettra définir et interpréter deux concepts importants : l'intervalle de confiance et l'intervalle de fluctuation

C'est parti

Achieve better grades quicker with Premium

PREMIUM
Karteikarten Spaced Repetition Lernsets AI-Tools Probeklausuren Lernplan Erklärungen Karteikarten Spaced Repetition Lernsets AI-Tools Probeklausuren Lernplan Erklärungen
Kostenlos testen

Geld-zurück-Garantie, wenn du durch die Prüfung fällst

Review generated flashcards

Inscris-toi gratuitement
Tu as atteint la limite quotidienne de l'IA

Commence à apprendre ou crée tes propres flashcards d'IA

Équipe éditoriale StudySmarter

Équipe enseignants Échantillonnage

  • Temps de lecture: 13 minutes
  • Vérifié par l'équipe éditoriale StudySmarter
Sauvegarder l'explication Sauvegarder l'explication
Sign up for free to save, edit & create flashcards.
Sauvegarder l'explication Sauvegarder l'explication
  • Fact Checked Content
  • Last Updated: 12.03.2023
  • reading time:13 min
Tables des matières
Tables des matières
  • Fact Checked Content
  • Last Updated: 12.03.2023
  • reading time:13 min
  • Content creation process designed by
    Lily Hulatt Avatar
  • Content cross-checked by
    Gabriel Freitas Avatar
  • Content quality checked by
    Gabriel Freitas Avatar
Sign up for free to save, edit & create flashcards.
Sauvegarder l'explication Sauvegarder l'explication

Sauter à un chapitre clé

    Statistique inférentielle

    En statistiques, il y a deux grands domaines : la statistique inférentielle et la statistique descriptive. Dans ce dernier, nous cherchons à connaître les caractéristiques d'une série statistique. Par exemple, nous pouvons calculer la moyenne, l'écart-type et les quartiles. Quant à la statistique inférentielle, nous cherchons à déduire des informations sur la population statistique étudiée. Ce résumé de cours inclut certains concepts et méthodes détaillés de la statistique inférentielle, mais elle reste un domaine assez vaste. Dans certains contextes, il peut être compliqué d'appliquer ces approches, notamment dû à la taille de la population étudiée. C'est pour cela que nous devons étudier plutôt un échantillon.

    Échantillonnage : définition

    Si nous voulions connaître la taille moyenne de la population française, cela prendrait énormément de temps et d'argent pour mesurer (ou demander) tout le monde. Il serait plutôt nécessaire de sélectionner un échantillon représentatif.

    Dans ce contexte, un échantillon est un groupe de personnes ou d'objets qui proviennent de la population statistique étudiée. L'échantillonnage fait référence à la sélection d'un échantillon représentatif de la population statistique étudiée.

    Si nous voulions connaître la taille moyenne de la population française, nous pouvons sélectionner 1000 personnes au hasard pour former un échantillon.

    Imagine un échantillon qui n'est composé que d'une personne ou d'un objet. Oui, c'est un échantillon, mais il est clair que cet échantillon ne nous permettrait pas d'en déduire des informations exactes sur la population étudiée. Alors, quand pouvons-nous faire confiance aux résultats obtenus à partir d'un échantillon ? Dans ce résumé de cours, nous détaillerons deux indicateurs qui nous aident à prendre une décision : l'intervalle de fluctuation et l'intervalle de confiance. Or, pour comprendre ces concepts, nous devons rappeler des informations clés sur la loi binomiale.

    L'échantillonnage à l'aide de la loi binomiale

    Une loi binomiale est une loi de probabilité. Nous utilisons cette loi de probabilité pour calculer la probabilité qu'il y ait un certain nombre de succès parmi \(n\) expériences. Pour caractériser une loi binomiale, il faut donc connaître le taux de réussite, \(p\), et le nombre d'expériences, \(n\).

    Nous disons que \(X\) suit une loi binomiale si la probabilité d'avoir \(k\) succès en ayant effectué \(n\) expériences est égale à : \[ \mathbb{P}(X = k) = \binom{n}{k} p^{k}(1-p)^{n-k} \]

    Nous lançons un dé. Si le résultat est 6, nous gagnons 10 €. Estimons la probabilité que nous gagnons 100 € au bout de 15 lancers de dé.

    Pour gagner 100 €, il faut avoir un 6, dix fois. De plus, la probabilité d'avoir un 6 (un succès selon notre vocabulaire) est \( \frac{1}{6}\).

    Ici, \(p=\frac{1}{6}\), \(n=15\) et \(k=10\).

    \( \mathbb{P}(X = 10) = \binom{15}{10} (\frac{1}{6})^{10} (\frac{5}{6} )^{5} \)

    \( \mathbb{P}(X = 10) = 0{,}00002 \)

    Maintenant que tu comprends ce qu'est une loi binomiale, nous pouvons aborder la notion d'intervalle de fluctuation.

    Utiliser l'intervalle de fluctuation en échantillonnage

    Imagine que tu joues à pile ou face 20 fois. Pour une pièce de monnaie non-truquée, nous devons avoir pile autant de fois que nous avons face. Si nous avons neuf fois pile et onze fois face, il est raisonnable de dire que cela ne remet pas en cause le résultat théorique. Or, s'il y a quatre fois pile et 16 fois face, ce n'est plus la même histoire. L'intervalle de fluctuation nous permet de s'avoir si un écart entre la fréquence observée et la proportion théorique est dû à la nature aléatoire de l'expérience, ou si ces deux valeurs sont vraiment différentes.

    La proportion théorique est la fraction de la population statistique qui correspond à la caractéristique étudiée.

    La fréquence observée est la proportion de l'échantillon qui correspond à la caractéristique étudiée.

    Si nous jouions à pile ou face 20 fois, et nous obtenons 14 fois pile, la fréquence observée est \(\frac{14}{20} = 0{,}7\). Or, la proportion théorique est \(\frac{1}{2} = 0{,}5\), d'après les règles de base de probabilité.

    En statistiques, il y a souvent plusieurs façons de définir le même concept. Cela ne signifie pas que ces définitions sont contradictoires. Au contraire, ces définitions sont souvent équivalentes, selon les conditions. Voyons comment à travers les différentes définitions d'intervalle de fluctuation.

    L'intervalle de fluctuation à 95 % est un intervalle qui possède deux propriétés définitoires :

    • le centre (ou milieu) de l'intervalle est la proportion théorique ;
    • la probabilité que la fréquence observée appartient à cet intervalle est au moins 0,95.

    Pour un échantillon de taille \(n \geq 25\) et une proportion théorique \(p\), telle que \(0{,}2 \leq p \leq 0{,}8\), l'intervalle de fluctuation est : \[ \left[ p - \frac{1}{\sqrt{n}}, p + \frac{1}{\sqrt{n}} \right] \]

    Nous parlerons de l'intervalle de fluctuation à 95 % tout au long de ce résumé de cours. Sache que nous pouvons également considérer des intervalles de fluctuation à 99 % (ou à n'importe quel autre seuil). Les valeurs numériques utilisées pour définir l'intervalle de fluctuation changeront en conséquence.

    Quelqu'un (avec beaucoup de temps libre) a joué a pile ou face 400 fois. Comme la proportion théorique est \(\frac{1}{2}\), l'intervalle de fluctuation est \( \left[\frac{1}{2} - \frac{1}{\sqrt{400}}, \frac{1}{2} + \frac{1}{\sqrt{400}} \right] = \left[\frac{9}{20}, \frac{11}{20} \right]\), ou \( [0{,}45, 0{,}55]\) de façon équivalente.

    L'avantage de cette définition est qu'il est facile à appliquer. Or, il n'est applicable que sous certaines conditions. La caractérisation suivante de l'intervalle de fluctuation est moins restrictive.

    Soit \(X\) une variable aléatoire qui suit une loi binomiale sur un échantillon de taille \(n\). Soient \(a\) et \(b\) les plus petits entiers tels que \(\mathbb{P}(X \leq a) > 0{,}025\) et \(\mathbb{P}(X \leq b) > 0{,}975\). L'intervalle de fluctuation à 95 % est : \[ \left[ \frac{a}{n}, \frac{b}{n} \right]\]

    N'hésite pas à te rappeler (ou découvrir) les concepts qu'il te faut sur une loi de probabilité en consultant notre résumé de cours à ce sujet.

    D'après sa saison précédente, une équipe de foot sait qu'elle gagne approximativement 60 % de ses matchs. Cette saison, elle aura dix matchs. Déterminons son intervalle de fluctuation.

    Selon l'énoncé, et en suivant la notation au-dessus, \(n = 10\). Il faut donc déterminer \(a\) et \(b\). Même s'il est possible de trouver \(a\) et \(b\) en utilisant la formule de la loi binomiale correspondante avec une calculatrice, un tableau, comme celui ci-dessous est souvent fourni.

    \(k\)\(\mathbb{P}(X \leq k) \)
    \(1\)\(0{,}00168\)
    \(2\)\(0{,}01229\)
    \(3\)\(0{,}05476\)
    \(4\)\(0{,}16624\)
    \(5\)\(0{,}3669\)
    \(6\)\(0{,}61772\)
    \(7\)\(0{,}83271\)
    \(8\)\(0{,}95364\)
    \(9\)\(0{,}99395\)

    Le plus petit \(k\) tel que \(\mathbb{P}(X \leq k) > 0{,}025 \) est 3, comme \(\mathbb{P}(X \leq 2) = 0{,}01229 \) et \(\mathbb{P}(X \leq 2) = 0{,}05476\). Par définition, \(a = 3\).

    Le plus petit \(k\) tel que \(\mathbb{P}(X \leq k) > 0{,}975 \) est 9, comme \(\mathbb{P}(X \leq 8) = 0{,}95364 \) et \(\mathbb{P}(X \leq 9) = 0{,}99395\). Par définition, \(b = 9\).

    Ainsi, l'intervalle de fluctuation est \[ \left[ \frac{3}{10}, \frac{9}{10} \right]\].

    Si la taille de l'échantillon augmente, la taille de l'intervalle de fluctuation diminue.

    Selon le théorème central limite, sous certaines conditions, une loi binomiale peut être approchée par une loi normale. Ce théorème permet d'appliquer les propriétés de la loi normale pour aboutir à une troisième définition de l'intervalle de fluctuation.

    Soit un échantillon d'effectif \(n\) et dont la proportion théorique de la population correspondante se note \(p\), avec \(n\) et \(p\) vérifiant les conditions suivantes :

    • \(n\) est suffisamment grand (plus que 30) ;
    • \(np \geq 5\) ;
    • \(n(1-p) \geq 5\).

    L'intervalle de fluctuation à 95 % est alors donné par : \[ \left[ p - 1{,}96\sqrt{\frac{p(1-p)}{n}}, p + 1{,}96\sqrt{\frac{p(1-p)}{n}} \ \right]\]

    Reprenons l'exemple pour notre première définition et imaginons que quelqu'un a joué a pile ou face 400 fois. Comme la proportion théorique est \(\frac{1}{2}\), l'intervalle de fluctuation est \[ \left[ \frac{1}{2} - 1{,}96\sqrt{\frac{\frac{1}{2}(1-\frac{1}{2})}{400}}, \frac{1}{2} + 1{,}96\sqrt{\frac{\frac{1}{2}(1-\frac{1}{2})}{400}} \ \right]\] Après avoir effectué les calculs nécessaires, nous trouvons que l'intervalle de fluctuation est \( [0{,}402, 0{,}598] \)

    En réalité, la première définition de l'intervalle de fluctuation présentée ici est une approximation de cette définition. Peu importe quelle définition nous utilisons, l'interprétation reste la même. Nous devons distinguer deux cas d'utilisation de l'intervalle de fluctuation.

    • Cas 1 : Nous connaissons la proportion théorique.
      • Si la fréquence observée se trouve dans l'intervalle de fluctuation, alors l'échantillon est considéré représentatif de la population étudiée.
      • Si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors l'échantillon ne représente pas fidèlement les caractéristiques de la population étudiée.
    • Cas 2 : Nous faisons une hypothèse sur la proportion de la population.
      • Si la fréquence observée se trouve dans l'intervalle de fluctuation, alors nous acceptons l'hypothèse.
      • Si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors nous rejetons l'hypothèse.

    Cas 1 : Pour un jeu de pile ou face, la proportion théorique est 0,5. Si quelqu'un obtient 217 fois pile, en ayant joué 400 fois, la fréquence observée est 0,5425. D'après les exemples précédents, l'intervalle de fluctuation est \( [0{,}402, 0{,}598] \) ou \( [0{,}45, 0{,}55]\), si nous décidons d'utiliser l'approximation. Comme la fréquence observée appartient à l'intervalle de fluctuation, nous pouvons considérer cet échantillon représentatif de la population.

    Cas 2 : Le coach d'une équipe de foot estime qu'elle gagne approximativement 60 % de ses matchs. Cette saison, elle a joué dix matchs et en a gagné quatre. La fréquence observée est donc 0,4. D'après un des exemples précédents, l'intervalle de fluctuation est \( [ 0{,}3, 0{,}9]\). Puisque la fréquence observée est incluse dans l'intervalle de fluctuation, le coach peut accepter son hypothèse que l'équipe gagne 60 % de ses matchs.

    Même si nous disons que l'hypothèse est « acceptée », le fait que la fréquence observée soit dans l'intervalle de fluctuation n'est pas une garantie de la validité de l'hypothèse. Pour cette raison, certain(e)s scientifiques disent également que nous « ne rejetons pas » l'hypothèse.

    Utiliser l'intervalle de confiance en échantillonnage

    Quelle est la différence entre un intervalle de fluctuation et un intervalle de confiance ? Un intervalle de fluctuation nous donne un encadrement de la fréquence observée, alors qu'un intervalle de confiance encadre la proportion théorique. En d'autres termes :

    • il y a 95 % de chances que la fréquence observée d'un échantillon soit incluse dans l'intervalle de fluctuation ;

    • il y a 95 % de chances que la proportion théorique de la population soit incluse dans l'intervalle de confiance.

    Sinon, leurs formules sont très similaires : il suffit de remplacer le \(p\) avec un \(f\).

    Soit un échantillon de taille \(n\) dont la fréquence observée d'une certaine caractéristique est \(f\). L'intervalle de confiance au niveau de 95 % est : \[ \left[ f - 1{,}96\sqrt{\frac{f(1-f)}{n}}, f + 1{,}96\sqrt{\frac{f(1-f)}{n}} \ \right]\] Nous pouvons simplifier ces expressions grâce à certaines formules de probabilité. Ainsi, l'intervalle de confiance au niveau de 95 % s'écrit également : \[ \left[ f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}} \right] \]

    Samy a eu 12 sur 20 dans son contrôle de maths. Il s'est dit que sa note doit être proche de la moyenne. Comme il voulait comparer sa note à la moyenne de la classe, il a demandé à ses 8 voisins leurs notes et a trouvé une moyenne de 10,3. Ainsi, \(f = 10{,}3\) et \(f = 8\). L'intervalle de confiance est donc \( \left[ 10{,}3 - \frac{1}{\sqrt{8}}, 10{,}3 + \frac{1}{\sqrt{8}} \right] \). Après avoir simplifié, l'intervalle de confiance est \([7{,}47, 13{,}1]\).

    Nous interprétons l'intervalle de confiance et l'intervalle de fluctuation de façon analogue :

    • si la fréquence se trouve dans l'intervalle de fluctuation, alors nous acceptons (ou nous ne rejettons pas) l'hypothèse ;

    • si la fréquence observée n'est pas incluse dans l'intervalle de fluctuation, alors nous rejetons hypothèse.

    Si nous continuons avec l'exemple ci-dessous, l'hypothèse de Samy est que la moyenne de la classe est environ 12. Comme 12 appartient à l'intervalle de confiance \([7{,}47, 13{,}1]\), nous pouvons accepter l'hypothèse que la moyenne de la classe est 12.

    Les intervalles de fluctuation et les intervalles de confiance sont deux concepts élémentaires de la statistique inférentielle. Sache qu'il y a bien d'autres indicateurs, méthodes et tests que nous pouvons appliquer pour rejeter ou valider (ou plutôt, pour ne pas rejeter) nos hypothèses.

    Échantillonnage - Points clés

    • L'objectif de la statistique inférentielle est de déduire des informations sur la population statistique étudiée à partir d'un échantillon représentatif.
    • L'échantillonnage est la consitution d'un échantillon représentatif, c'est-à-dire, une partie de la population statistique étudiée.
    • Une loi binomiale est une loi de probabilité qui sert à calculer la probabilité qu'il y ait un certain nombre de succès parmi un certain nombre d'expériences.
    • L'intervalle de fluctuation à 95 % contient la fréquence observée de 95 % d'échantillons. Il y a trois formules qui nous pouvons appliquer selon les conditions :
      • \(\left[ p - \frac{1}{\sqrt{n}}, p + \frac{1}{\sqrt{n}} \right] \) ;
      • \(\left[ \frac{a}{n}, \frac{b}{n} \right]\) ;
      • \(\left[ p - 1{,}96\sqrt{\frac{p(1-p)}{n}}, p + 1{,}96\sqrt{\frac{p(1-p)}{n}} \ \right]\).
    • L'intervalle de confiance contient la proportion théorique de la population avec une probabilité de 95 %. Nous pouvons utiliser la formule \( \left[ f - \frac{1}{\sqrt{n}}, f + \frac{1}{\sqrt{n}} \right] \).
    Questions fréquemment posées en Échantillonnage

    Quel est le but de l'échantillonnage ? 

    Le but de l'échantillonnage est de choisir un échantillon représentatif de la population statistique étudiée. À partir d'un échantillon, nous pouvons déterminer son intervalle de fluctuation et son intervalle de confiance pour tester nos hypothèses. 

    Comment calculer l'intervalle de fluctuation ?

    Pour calculer l'intervalle de fluctuation, il faut connaître la proportion théorique de la caractéristique étudiée dans la population statistique (souvent notée p) et la taille de l'échantillon (notée n). Ensuite, il faut substituer ces valeurs dans la formule appropriée. 

    Quelle est la différence entre intervalle de fluctuation et intervalle de confiance ?

    Un intervalle de fluctuation est la plage autour d'une statistique dans laquelle le véritable paramètre de la population est censé se situer avec un certain degré de certitude. Il fournit des informations sur l'ampleur attendue des erreurs aléatoires dans les données. Un intervalle de confiance, quant à lui, est une déclaration sur la probabilité qu'un paramètre de population se situe dans un intervalle spécifique. Il fournit des informations sur la probabilité d'observer un résultat dans des études futures.

    Pourquoi prendre un intervalle de confiance de 95% ? 

    L'utilisation d'un intervalle de confiance à 95 % donne l'assurance que la valeur réelle de la statistique se situe dans cette fourchette. Il est également révélateur de la précision de la mesure - plus l'intervalle est large, plus l'incertitude est grande. Un intervalle de confiance étroit indique une mesure plus précise.

    Sauvegarder l'explication

    Teste tes connaissances avec des questions à choix multiples

    Quelle formule correspond à un intervalle de confiance ? 

    Il y a 95 % de chances que la fréquence observée d'un échantillon soit incluse dans un intervalle de fluctuation à 95 %.

    Il y a 95 % de chances que la proportion théorique de la population soit incluse dans l'intervalle de confiance à 95 %.

    Suivant
    How we ensure our content is accurate and trustworthy?

    At StudySmarter, we have created a learning platform that serves millions of students. Meet the people who work hard to deliver fact based content as well as making sure it is verified.

    Content Creation Process:
    Lily Hulatt Avatar

    Lily Hulatt

    Digital Content Specialist

    Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.

    Get to know Lily
    Content Quality Monitored by:
    Gabriel Freitas Avatar

    Gabriel Freitas

    AI Engineer

    Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.

    Get to know Gabriel

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 13 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !