Supposons que tu veuilles connaître la moyenne des notes des élèves de terminale du lycée d'Atlanta, en Géorgie. Pour calculer la valeur exacte, tu devrais demander à la population, c'est-à-dire à tous les élèves de terminale d'Atlanta, en Géorgie, leur moyenne générale. Cela semble épuisant ! Mais que se passerait-il si tu prenais un échantillon au lieu de demander à tous les élèves de terminale ? C'est l'idée qui sous-tend les distributions d'échantillonnage.
Pour en revenir à l'exemple ci-dessus, disons que tu sélectionnes et échantillonnes au hasard \(100\) élèves de terminale et que tu calcules la moyenne de la moyenne générale à partir de cet échantillon. Cette moyenne ne sera pas la même que la moyenne de tous les élèves de terminale d'Atlanta. Elle pourrait être inférieure ou supérieure, mais il est fort probable qu'elle ne soit pas exactement égale à la moyenne de la population.
Si tu choisis un deuxième échantillon de 100 élèves de terminale, la moyenne de cet échantillon sera très probablement différente de la moyenne de ton premier échantillon. Ainsi, les échantillons aléatoires sélectionnés produiraient des valeurs moyennes différentes. Malgré cette variété de valeurs, lorsque de nombreuses moyennes d'échantillons sont obtenues, tu peux reporter ces moyennes collectées sur un graphique, et celui-ci peut alors fournir une moyenne estimée de l'ensemble de la population. Ce processus explique le concept de création de distributions d'échantillonnage de la moyenne.
Définition des distributions d'échantillonnage
Une valeur calculée en prélevant des informations sur un échantillon s'appelle une statistique. Les statistiques te permettent d'estimer les données d'une population entière. Comme tu l'as vu dans l'exemple ci-dessus, différents échantillons aléatoires peuvent donner des valeurs différentes pour une statistique ; cette différence est appelée variabilité d'échantillonnage (ou erreur d'échantillonnage). Cette variabilité d'échantillonnage peut être réduite en augmentant la taille de l'échantillon.
La distribution formée par toutes les valeurs possibles des statistiques de l'échantillon obtenues pour chaque échantillon différent possible d'une taille donnée s'appelle la distribution d'échantillonnage.
Conditions pour les distributions d'échantillonnage
Pour que la distribution d'échantillonnage estime réellement l'ensemble de la population, tu dois t'assurer que ces deux critères sont vérifiés :
Condition de randomisation: la condition la plus importante nécessaire à la création d'une distribution d'échantillonnage est que tes données proviennent d'échantillons sélectionnés au hasard.
Indépendance (condition de \(10\%)): les valeurs échantillonnées doivent être indépendantes les unes des autres. Réaliser cette condition revient à considérer des tailles d'échantillons ne dépassant pas \(10\%\) de l'ensemble de la population.
Revenons à l'exemple de la moyenne des notes. Pour la condition de randomisation, à moins que tu ne disposes d'une liste des élèves ayant la meilleure moyenne à Atlanta, il suffit de choisir au hasard n'importe quel élève \(100\) pour satisfaire cette condition.
D'autre part, pour la condition d'indépendance, il n'est pas déraisonnable de supposer qu'il y a plus de 10 000 élèves de terminale à Atlanta, de sorte que la probabilité de 10 % est de 1 000 %. Toute taille d'échantillon inférieure à 1 000 000 satisfait à cette condition, il est donc acceptable de considérer des échantillons d'une taille de 100 000.
Types de distributions d'échantillonnage
Il existe 3 types de distributions d'échantillonnage :
Elle est utilisée pour estimer une proportion de la population. Elle calcule la proportion de réussite, ou la chance, qu'un événement spécifique se produise. La moyenne de chaque groupe de la proportion de l'échantillon est une représentation de la proportion de réussite estimée de la population entière.
Distribution des moyennes par échantillonnage
Il s'agit de calculer les moyennes de tous les groupes de l'échantillon à partir d'une population sélectionnée. Ensuite, la moyenne des moyennes de tous les échantillons est une moyenne estimée de la population entière.
Distribution en T
Elle est axée sur une petite population. Elle est utilisée pour mesurer la moyenne de la population et d'autres mesures statistiques telles que les intervalles de confiance, la régression linéaire et les différences statistiques. Comme cette distribution utilise les scores \(t\)pour calculer les probabilités, elle n'entre pas dans le cadre de cet article.
Formule pour les distributions d'échantillonnage
La proportion de l'échantillon, désignée par \(\widehat{p}\), est calculée en comptant le nombre de succès dans l'échantillon (un succès signifie qu'un individu possède la caractéristique qui nous intéresse) et en le divisant par la taille totale de l'échantillon \(n\).
\[\widehat{p}=\frac{\text{nombre de succès dans l'échantillon}}{n}.\]
La moyenne de l'échantillon, désignée par \(\Noverline{x}\N), est calculée en additionnant toutes les valeurs obtenues à partir de l'échantillon et en les divisant par la taille totale de l'échantillon \N(n\N). L'idée est la même que celle de trouver la moyenne d'un ensemble de données. La formule est la suivante
\[\overline{x}=\frac{x_1+x_2+...+x_n}{n},\]
où \(\overline{x}\) est la moyenne de l'échantillon, \(x_i\) est chacune des valeurs de l'échantillon, et \(n\) est la taille de l'échantillon.
Moyenne et écart-type des distributions d'échantillonnage
Toutes les distributions de probabilité ont des caractéristiques qui les distinguent. Les distributions d'échantillonnage ne font pas exception, connaître la moyenne et l'écart type peut te donner beaucoup d'informations sur la forme de la distribution.
Moyenne et écart type de la proportion de l'échantillon
Soit \(p\) la proportion de succès dans une population et \(\widehat{p}\) la proportion de l'échantillon, c'est-à-dire la proportion de succès dans un échantillon aléatoire de taille \(n\), alors la distribution d'échantillonnage de \(\widehat{p}\) a une moyenne et un écart type donnés par \[\mu_\widehat{p}=p\,\text{ et }\, \sigma_\widehat{p}=\sqrt{\frac{p(1-p)}{n}}.\]
De plus, si \[np\geq 10,\text{ and }\, n(1-p)\geq 10,\] alors, la distribution d'échantillonnage de \(\widehat{p}\) est similaire à une distribution normale.
Un échantillon aléatoire est sélectionné dans une population qui a une proportion de succès \(p=0,72\). Calcule la moyenne et l'écart type de la distribution d'échantillonnage de \(\widehat{p}\) avec une taille d'échantillon \(n=20\).
Solution:
En utilisant les formules énoncées précédemment, la moyenne est égale à la proportion de succès de la population, soit \[\mu_\widehat{p}=0,72,\] tandis que l'écart-type est donné par \[\sigma_\widehat{p} =\sqrt{\frac{0,72(0,28)}{20}}\approx 0,100.\].
Moyenne et écart-type de la moyenne de l'échantillon
Soit \(\mu\) la moyenne et \(\sigma\) l'écart type de la population. Si \(\overline{x}\) est la moyenne d'un échantillon aléatoire de taille \(n\), la distribution d'échantillonnage de \(\overline{x}\) a une moyenne et un écart type donnés par \[\mu_\overline{x}=\mu\,\text{ et }\, \sigma_\overline{x}=\frac{\sigma}{\sqrt{n}}.\N].
L'écart type de la distribution d'échantillonnage des moyennes est également connu sous le nom d'erreur standard de la moyenne (SEM).
Si la taille de l'échantillon \(n\) est suffisamment grande (selon le théorème de la limite centrale, \(n\geq 30\) est suffisant) alors, la distribution d'échantillonnage de \(\overline{x}\) est similaire à une distribution normale.
Un échantillon aléatoire est sélectionné dans une population dont la moyenne est \(\mu=80\) et l'écart type \(\sigma=5\). Calcule la moyenne et l'écart type de la distribution d'échantillonnage de \(\overline{x}\) avec une taille d'échantillon \(n=35\).
Solution:
En utilisant les formules énoncées précédemment, la moyenne de l'échantillon est égale à la moyenne de la population, donc \\N[\Nmu_overline{x}=80.\N] Et pour l'écart type de la moyenne de l'échantillon
Voyons un exemple utilisant les distributions d'échantillonnage.
Un restaurant a déclaré que \(30\%\) de ses clients aiment l'ananas sur leur pizza. S'il y a 100 clients un jour donné, quelle est la probabilité qu'au moins 40 % de ces clients achètent une pizza à l'ananas ?
Solution:
(1)Note que \(p=0.30\), \((1-p)=0.70\) et la taille de l'échantillon est \(n=100\). Ainsi, la moyenne \(\mu_widehat{p}=0,30\) et l'écart type \[\sigma_{\widehat{p}}=\sqrt{\frac{(0,30)(0,70)}{100}}approx 0,046.\N].
(2) Puisque \(np=100(0.30)=30>10\) et \(n(1-p)=100(0.70)=70>10\), la distribution d'échantillonnage de \(\widehat{p}\) est similaire à une distribution normale, et tu peux l'utiliser plus tard pour calculer la probabilité.
(3) En convertissant \(\widehat{p}\) en \(z\)-score (voir l'article \(z\)-scores pour plus de détails), tu auras
Ainsi, la probabilité qu'au moins \(40\%) de ces clients demandent une pizza à l'ananas est \(0,015\).
Voyons un autre exemple.
Une entreprise affirme que la durée de vie moyenne de ses ampoules est de \(2,000\) heures avec un écart type de \(300\) heures. Quelle est la probabilité qu'un échantillon aléatoire de 50 ampoules ait une durée de vie moyenne inférieure à 1 900 heures ?
Solution:
(1) La taille de l'échantillon étant de \(n=50\), selon le théorème de la limite centrale, la distribution d'échantillonnage de la moyenne \(\overline{x}\) suit une distribution normale avec une moyenne \(\mu_\overline{x}=2\,000\) et un écart type \[\sigma_\overline{x}=\frac{300}{\sqrt{50}} \approx 42.426. \].
(2) En convertissant les \(\overline{x}\) en \(z\)-cores et en utilisant la table normale standard (voir l'article Distribution normale standard pour plus d'informations), tu auras
Ainsi, la probabilité que, dans un échantillon de taille \(n=50\) ampoules, la durée de vie moyenne soit inférieure à \(1,900\) heures est de \(0,0094\).
Distribution d'échantillonnage - Points clés
Une distribution d'échantillonnage montre toutes les statistiques possibles qui peuvent être obtenues à partir de tous les échantillons possibles de la population.
La distribution d'échantillonnage de la proportion \(\widehat{p}\) a une moyenne et un écart type \[\mu_\widehat{p}=p\, \text{ et }]. \,\sigma_\widehat{p}=\sqrt{\frac{p(1-p)}{n}}.\]
Lorsque \(np\geq 10\) et \(n(1-p)\geq 10,\) la distribution d'échantillonnage de la proportion \(\widehat{p}\) se comporte comme une distribution normale.
La distribution d'échantillonnage de la moyenne \N(\Noverline{x}\N) a une moyenne et un écart type \N[\Nmu_\Noverline{x}=\Nmu\N,\Ntext{et }, \Nsigma_\Noverline{x}=\Nfrac{\Nsigma}{\Nsqrt{n}}.\N].
Lorsque \(n\geq 30\), le théorème de la limite centrale stipule que la distribution d'échantillonnage de la moyenne \(\overline{x}\) se comporte comme une distribution normale.
Apprends plus vite avec les 5 fiches sur Distributions d'échantillonnage
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Distributions d'échantillonnage
Qu'est-ce qu'une distribution d'échantillonnage?
Une distribution d'échantillonnage est la distribution des statistiques calculées à partir de nombreux échantillons d’une même population.
Pourquoi les distributions d'échantillonnage sont-elles importantes?
Les distributions d'échantillonnage sont cruciales pour estimer la variabilité et la précision des statistiques d'échantillons.
Comment calculer la distribution d'échantillonnage?
Pour calculer une distribution d'échantillonnage, prenez plusieurs échantillons d'une population, calculez une statistique pour chaque échantillon, et analysez la distribution de ces statistiques.
Quelle est la relation entre la taille de l'échantillon et la distribution d'échantillonnage?
Plus la taille de l'échantillon est grande, plus la distribution d'échantillonnage se rapproche de la distribution normale, selon le théorème central limite.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.