L'estimation est quelque chose que tu utilises tous les jours sans même y penser. Tu estimes le temps qu'il te faudra pour aller au travail, la quantité de sel à ajouter à ta cuisine et les résultats de ton équipe de football préférée. Cela ne veut pas dire que tu as toujours raison ! Alors, comment savoir si tes estimations sont bonnes ? Comment peux-tu savoir si elles sont biaisées ou non ?
C'estlàqu'intervientlebiais d'estimation utilisé par les statisticiens. Puisque ton estimation est basée sur une idée moyenne de la façon dont les choses se sont passées dans le passé, tu peux utiliser un estimateur pour la moyenne et, à partir de là, déterminer s'il est biaisé ou non.
La comparaison des estimateurs et la détermination de la variance ou de l'erreur type d'un estimateur sont expliquées dans l'article Qualité des estimateurs.
Définition du biais d'un estimateur
Disons, par exemple, que tu souhaites trouver la longueur moyenne des poissons d'un aquarium. Non seulement il y a un très grand nombre de poissons à mesurer, mais il est également très difficile d'attraper et de mesurer tous les poissons.
Au lieu de mesurer chaque poisson de la population (ce que l'on appelle un recensement), une meilleure approche consisterait à prendre un échantillon de poissons et, à partir de cet échantillon, à trouver une estimation de la longueur moyenne des poissons. C'est ce qu'on appelle un estimateur.
Mais avant tout, tu dois savoir ce qu'est une statistique.
La statistique, \N(T\N), est composée de \N(n\N) échantillons de la variable aléatoire \N(X\N) (c'est-à-dire \N(X_1,X_2,X_3,...,X_n\N)). Ces observations sont indépendantes etsont toutes identiquement distribuées.
On parle souvent de statistiques de test pour les différencier du mot "statistiques". Mathématiquement, cela signifie que la statistique utilisée pour estimer un paramètre, \(T\), sera composée de \(n\) échantillons aléatoires indépendants prélevés sur une variable aléatoire, \(X\).
Un estimateur est une statistique utilisée pour estimer un paramètre de la population. Une estimation est la valeur de l'estimateur lorsqu'elle est obtenue à partir d'un échantillon.
Tu peux aussi voir un estimateur appelé estimation ponctuelle. Il est important de pouvoir reconnaître ce que sont les estimateurs. Jette un coup d'œil à l'exemple suivant.
Explique pourquoi les fonctions suivantes sont ou ne sont pas des estimateurs lorsque \(X_1, X_2,...,X_n\) sont tirées d'une population avec les paramètres \(\mu\) et \(\sigma\).
i) \N- \N(\Ndfrac{X_3+X_6}{2}\N)
ii) \(\dfrac{\sum(X_i-\mu)^2}{n}\)
Solution :
i) La fonction
\[\dfrac{X_3+X_6}{2}\]
est un estimateur puisqu'elle est composée d'échantillons indépendants et identiquement distribués.
ii) D'autre part
\[\dfrac{\sum(X_i-\mu)^2}{n}\]
n'est pas un estimateur puisqu'il contient \(\mu\) qui n'est pas un échantillon. En fait, cet estimateur potentiel n'est même pas une statistique. La variable \(\mu\) est le paramètre de la population ! Tu ne peux pas utiliser une formule impliquant le paramètre de la population pour estimer le paramètre de la population.
Jetons un coup d'œil rapide à ce sujet.
Aperçu du biais de l'estimateur
Toutes les statistiques ne sont pas des estimateurs fiables. Pour déterminer la validité de la capacité d'une statistique à estimer un paramètre, tu devras trouver la valeur attendue de la statistique.
Si l'espérancede la statistique est différente du paramètre que tu veux estimer, alors cela t'indique que la statistique est biaisée.
Tu peux considérer le biais comme unemesure de l'asymétrie de ta distribution d'échantillonnage ou de la distance qui sépare ton estimateur du paramètre de la population. Plus la distribution d'échantillonnage est asymétrique, plus le biais est élevé.
Pour plus d'informations sur l'asymétrie, voir l'article Asymétrie.
Explication du biais d'un estimateur
Tu peux écrire la définition d'une estimation biaisée ou non biaisée à l'aide d'une notation mathématique simple.
Si \(\hat{\theta}\) est une statistique utilisée pour estimer le paramètre de population \(\theta\), \(\hat{\theta}\) est sans biais lorsque
\[\text {E}(\hat{\theta})=\theta\]
où \(\text{E}\) est la notation de la valeur attendue. Toute statistique qui n'est pas sans biais est dite biaisée.
Si \(\hat{\theta}\) est biaisée, le biais peut être trouvé en utilisant la formule suivante :
Cela montre que \(\text {E}(\bar{X})=\mu\), ce qui signifie que \(\bar{X}\) est un estimateur sans biais du paramètre \(\mu\). Cela signifie qu'en moyenne, cette statistique donnera la bonne valeur pour le paramètre estimé.
Le fait que l'exemple précédent te donne un estimateur sans biais est la raison pour laquelle tu le verras utilisé pour construire des intervalles de confiance.
Exemple de biais d'estimateur
Tous les estimateurs ne sont pas sans biais !
On te donne
\[T=\frac{X_1+2X_2}{n}\]
comme candidat pour un estimateur du paramètre de la moyenne d'une distribution, \(t\), où \(n\) est le nombre total d'échantillons prélevés. Trouve le biais de cette statistique.
Solution :
Dans ce problème, le paramètre de la population est la moyenne, \(t\). Pour trouver le biais, tu peux donc utiliser la formule suivante
Par conséquent, le biais de l'estimateur \(T\) est
\N-[\N-texte{Bias}(T) = \Ndfrac{t(3-n)}{n}.\N]
Biais de la formule d'estimation
Si la moyenne de l'échantillon est un moyen d'obtenir un estimateur sans biais, ce n'est pas le seul. Voyons plutôt comment appliquer la formule de l'estimateur du biais à la variance.
Pour trouver un estimateur de la variance de la population, tu peux essayer d'utiliser la variance de l'échantillon qui serait notée comme suit
Cependant, comme cette formule utilise la moyenne de l'échantillon, \(\bar{X}\), plutôt que \(\mu\), la moyenne de la population, la variance d'un échantillon sera biaisée en faveur de la moyenne de l'échantillon plutôt que de la moyenne de la population.
Tu peux donc utiliser une autre statistique : la variance de l'échantillon. Tu obtiendras ainsi un estimateur sans biais de la variance de la population, \(\sigma^2\).
Un estimateur sans biais de la variance de la population, \(\sigma^2\), est la variance de l'échantillon, \(S^2\) :
En général, \(S^2\) est utilisé pour désigner l'estimateur de la variance de la population, et \(s^2\) est utilisé pour désigner une estimation particulière. Il vaut la peine d'apprendre les deux formules équivalentes ci-dessus, car elles sont beaucoup plus faciles à appliquer que la première.
Examinons la preuve que \(s^2\) est une estimation sans biais de \( \sigma ^2\). En d'autres termes, l'objectif est de montrer que \ (\text {E}(s^2)=\sigma ^2\).
Pour ce faire, tu dois écrire l'espérance de la variance de l'échantillon
Puisque \(\text {E}(s^2)=\sigma ^2\), tu as montré que \(s^2\) est une estimation sans biais de la variance de la population, \(\sigma ^2\).
Bien que tu n'aies pas besoin de mémoriser la preuve, il est toujours bon de lire et de comprendre les étapes pour s'assurer que tu as une bonne compréhension du sujet.
Biais de l'estimateur - Principaux enseignements
Un estimateur est une statistique utilisée pour estimer un paramètre de la population. Une estimation est la valeur de l'estimateur lorsqu'elle est obtenue à partir d'un échantillon.
La statistique, \N(T\N), est composée de \N(n\N) échantillons de la variable aléatoire \N(X\N) (c'est-à-dire \N(X_1,X_2,X_3,\Npoints ,X_n\N)). Ces observations sont indépendantes et distribuées de façon identique.
Si \(\hat{\theta}\) est une statistique utilisée pour estimer le paramètre de population \(\theta\), \(\hat{\theta}\) est sans biais lorsque \(\text {E}(\hat{\theta})=\theta\).
Si \(\hat{\theta}\) est biaisée, le biais peut être quantifié à l'aide de la formule suivante :\[\text{Bias}(\hat{\theta})=\text {E}(\hat{\theta})-\theta.\].
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.