Suppose que tu disposes d'un ensemble de données dont la distribution est approximativement normale. Supposons également que tu connaisses l'écart-type de l'ensemble de données. Y a-t-il beaucoup de choses que tu puisses discerner sur les données à partir de ces informations ? Eh bien, en fait, il y en a pas mal, grâce à la règleempirique.
La règle empirique peut être utilisée pour juger de la probabilité de certaines valeurs dans un ensemble de données, ainsi que pour vérifier la présence de valeurs aberrantes dans ton ensemble de données et bien d'autres choses encore. Qu'est-ce que la règle empirique et quel est son rapport avec les distributions normales et les écarts types ?
Définition de la règle empirique
La règle empirique porte plusieurs noms. On l'appelle parfois la règle \(95 \%\), la règle des trois sigmas ou la règle \(68\)-\(95\)-\(99,7\).
Elle est généralement appelée règle empirique, car il s'agit d'une règle fondée sur de nombreuses observations d'ensembles de données, et non d'une preuve mathématique logique ou définitive.
La règle empirique est une règle statistique basée sur des observations qui montrent que presque toutes les données d'une distribution normale se situent à moins de trois écarts types de la moyenne.
D'où viennent les autres noms ? Eh bien, la règle empirique peut te dire encore plus de choses, et les indices se trouvent dans les noms. Il s'agit de pourcentages et d'écarts types.
Les pourcentages de la règle empirique
Comme nous l'avons mentionné précédemment, l'un des noms de la règle empirique est la règle \ (68\)-\(95\)-\(99,7\). Ce nom est en fait assez révélateur lorsque l'on examine la règle empirique dans son intégralité. Elle s'énonce comme suit
Pour un ensemble de données normalement distribuées, environ \N(68\N%) des observations se situent à moins d'un écart type de la moyenne, environ \N(95\N%) des observations se situ ent à moins dedeux écarts types de la moyenne, etenviron \N(99,7\N%) des observations se situent à moins de trois écarts types de la moyenne.
\(68%), (95%), (99,7%), tu comprends ?
Si tu te souviens de ces trois pourcentages, tu peux les utiliser pour déduire toutes sortes d'ensembles de données normalement distribuées.
Mais attends un peu, on l'appelle aussi parfois la règle des trois sigmas.
Eh bien, le symbole de l'écart type est sigma, \(\sigma\). On l'appelle parfois la règle des trois sigmas parce qu'elle stipule que presque toutes les observations se situent à moins de trois sigmas de la moyenne.
Une convention standard consiste à considérer toutes les observations qui se situent en dehors de ces trois sigmas comme des valeurs aberrantes . Cela signifie qu'il ne s'agit pas d'observations typiquement attendues et qu'elles ne sont pas indicatives de la tendance générale. Dans certaines applications, la barre de ce qui est considéré comme une valeur aberrante peut être explicitement fixée à autre chose, mais trois sigmas constituent une bonne règle empirique.
Jetons un coup d'œil à ce que tout cela représente sur un graphique.
Règle empirique Graphique de la distribution normale
Prenons l'exemple de la distribution normale suivante dont la moyenne est \(m\) et l'écart type \(\sigma\).
Fig. 1. Courbe de distribution normale.
Il est possible de la diviser selon la règle empirique.
Fig. 2. La règle empirique.
Cette représentation graphique démontre vraiment les principaux enseignements que l'on peut tirer de la règle empirique. Il est très clair que pratiquement toutes les observations se situent à moins de trois écarts types de la moyenne. Il peut y avoir très occasionnellement des valeurs aberrantes, mais elles sont extrêmement rares.
Le plus gros morceau se situe clairement entre \(-\sigma\) et \(\sigma\), comme l'indique la règle empirique.
Tu te dis peut-être : "Super, cette règle semble utile, je vais l'utiliser tout le temps !". Mais méfie-toi et fais attention. La règle empirique n' est valable que pour les données qui sont normalement distribuées.
Exemples de règles empiriques
Jetons un coup d'œil à quelques exemples pour voir comment nous pouvons mettre tout cela en pratique.
(1) On mesure la taille de toutes les élèves d'une classe. On constate que les données sont approximativement distribuées normalement, avec une taille moyenne de 2,5 m et un écart type de 2,5 m. Il y a 12 élèves de sexe féminin dans la classe. Il y a 12 élèves de sexe féminin dans la classe.
(a ) En utilisant la règle empirique, combien d'élèves environ ont une taille comprise entre \(5ft\N,2\N) et \N(5ft\N,4\N) ?
(b ) En utilisant la règle empirique, combien d'élèves se situent entre \(4ft,8\) et \(5ft,4\) ?
(c) Un élève a une taille de \(5ft,9\), cet élève peut-il être considéré comme une valeur aberrante ?
Solution :
(a) \(5ft\,4\) est la moyenne plus un écart type. La règle empirique stipule que \(68\%\) des observations se situent à moins d'un écart-type de la moyenne. Comme la question ne porte que sur la moitié supérieure de cet intervalle, il sera de \(34\%). Par conséquent
\N- [0,34 \Ncdot 12 = 4,08 \N]
Le nombre d'élèves de sexe féminin de la classe dont la taille est comprise entre \N(5ft\N,2\N) et \N(5ft\N,4\N) est \N(4\N).
(b) \N-(4ft\N,8\N) est la moyenne moins deux écarts types, et \N-(5ft\N) est la moyenne moins un écart type. Selon la règle empirique, \(95\%\) des observations se situent à moins de deux écarts types de la moyenne, et \(68\%\) des observations se situent à moins d'un écart type de la moyenne.
Comme la question ne porte que sur les moitiés inférieures de ces intervalles, ils deviennent respectivement \(47,5\N%) et \N(34\N%). L'intervalle que nous recherchons est la différence entre ces deux intervalles.
\[47.5\% - 34\% = 13.5\%\]
Par conséquent
\N- 0,135 \Ncdot 12 = 1,62 \N]
Le nombre d'élèves de sexe féminin de la classe dont la taille est comprise entre \N(4ft\N,8\N) et \N(5ft\N) est \N(1\N).
(c) \N-(5ft,9\N) est supérieur à la moyenne de plus de \N(3\N) écarts-types, cette élève peut donc être considérée comme une valeur aberrante.
(2) Un écologiste enregistre la population de renards dans une forêt chaque année pendant dix ans. Il constate qu'en moyenne, \(150\) renards vivent dans la forêt une année donnée au cours de cette période, avec un écart type de \(15\) renards. Les données sont à peu près normalement distribuées.
(a ) D'après la règle empirique, à quelle fourchette de taille de population peut-on s'attendre au cours des dix années ?
(b) Lesquelles des valeurs suivantes seraient considérées comme des valeurs de population aberrantes ?
\N- 100, \N- 170, \N- 110, \N- 132 \N]
Réponse :
(a) Selon la règle empirique, toute observation ne se situant pas à moins de trois écarts-types de la moyenne est généralement considérée comme une valeur aberrante. Par conséquent, notre fourchette est la suivante
\[ \mu - 3\sigma < P < \mu + 3\sigma\]
\N- [150 - 3 \cdot 15 < P < 150+ 3 \cdot 15\N]
\[150-45 < P < 150+45\]
\[105 < P < 195\]
(b) \(100\) est le seul à ne pas se situer à moins de trois écarts-types de la moyenne, c'est donc la seule valeur aberrante.
Règle empirique - Principaux enseignements
La règle empirique stipule que pour les ensembles de données normalement distribués, \(68\%) des observations se situent à moins d'un écart type de la moyenne, \(95\%) des observations se situent à moins de deux écarts types de la moyenne, et \(99,7\%) des observations se situent à moins de trois écarts types de la moyenne.
Elle est également connue sous le nom de règle \(68\%)-\(95\%)-\(99,7\%), règle des trois sigmas et règle \(95\%).
En général, toute observation qui ne se situe pas à moins de trois écarts-types de la moyenne peut être considérée comme une valeur aberrante.
Apprends plus vite avec les 0 fiches sur Règle empirique
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Règle empirique
Qu'est-ce que la règle empirique?
La règle empirique, ou la règle des 68-95-99.7, est une ligne directrice statistique qui indique comment les données sont réparties dans une courbe en cloche.
Comment utiliser la règle empirique?
Pour utiliser la règle empirique, identifiez la moyenne et l'écart-type, puis appliquez les pourcentages 68%, 95%, et 99.7% autour de la moyenne.
Pourquoi la règle empirique est-elle importante?
La règle empirique est importante car elle aide à comprendre la distribution des données dans une distribution normale, facilitant l'interprétation des résultats.
Quels sont les niveaux de confiance de la règle empirique?
Les niveaux de confiance de la règle empirique sont de 68% pour un écart-type, 95% pour deux écarts-types, et 99.7% pour trois écarts-types.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.