Trouver un paramètre de population tel que la moyenne de la population ou \(\mu\) peut être plus facile à dire qu'à faire. Il n'est pas toujours pratique ou rentable de voyager à travers le monde pour collecter des données. Au lieu de cela, tu dois te contenter de ton échantillon et l'utiliser pour obtenir une fourchette de valeurs pour ton paramètre. Et cela t'amène à ce que l'on appelle les intervalles de confiance.
Cet article traite de ce qu'est un intervalle de confiance, de son interprétation, des types d'intervalles de confiance tels que les intervalles de confiance pour la moyenne de la population et pour la proportion, et fournit des exemples d'intervalles de confiance.En statistiques, l'intervalle de confiance est représenté par les lettres \(CI\).
Un intervalle de confiance est une plage de valeurs probables pour estimer un paramètre de la population.
La principale raison pour laquelle tu veux faire une estimation par intervalle de confiance plutôt qu'une estimation ponctuelle - une seule statistique - est que les résultats d'un échantillon varient d'un échantillon à l'autre.
Supposons que tu veuilles estimer le pourcentage d'élèves qui mangent des petits gâteaux pendant la pause dans une école. Tu peux imaginer que si tu collectes des données à partir de trois échantillons, chaque échantillon au cours d'une semaine différente, les trois échantillons seront probablement différents. Les résultats, et les pourcentages des échantillons, seraient très probablement différents aussi.
Tu as donc besoin d'une mesure pour savoir de combien tu peux t'attendre à ce que ces résultats changent si tu devais répéter ton étude. Cette prévision des variations de tes statistiques d'un échantillon à l'autre est mesurée par la marge d'erreur.
La marge d'erreur représente un certain nombre d'écarts types de ta statistique que tu ajoutes et soustrais pour avoir une certaine confiance dans tes résultats.
Reprenons l'exemple précédent.
Imaginons que le premier échantillon comprenne 150 élèves et que le pourcentage de mangeurs de cupcakes soit de 35 %, la marge d'erreur pourrait être de 1,5 %. Cela signifie que le pourcentage réel d'élèves qui mangent des petits gâteaux pendant les pauses dans l'ensemble de la population scolaire devrait être de 35 % ± 1,5 % (c'est-à-dire entre 33,5 % et 36,5 %).
Ici, tu utilises ton échantillon pour estimer une plage de valeurs - un intervalle de confiance - où il y a une probabilité de trouver la vraie valeur du paramètre inconnu qui t'intéresse. Cette probabilité te donne une certaine confiance dans tes résultats, et elle est appelée niveau de confiance.
Le niveau de confiance est la probabilité, donnée en pourcentage, que ton résultat soit proche de la valeur réelle du paramètre de la population qui t'intéresse si tu répétais sans cesse la collecte de l'échantillon.
Sans plus attendre, voyons comment construire un intervalle de confiance.
Formule de l'intervalle de confiance
La terminologie présentée dans la section précédente te donne en fait un indice sur les éléments nécessaires pour construire un intervalle de confiance. Par exemple, la formule de l'intervalle de confiance pour la moyenne est la suivante :
\[CI=\overline{x}\pm z \frac{\sigma_s}{\sqrt{n}} \]
Ici, nous pouvons identifier :
\(\overline{x}\) : La moyenne de l'échantillon.
\(z\) : Le niveau de confiance.
\(\sigma_s\) : L'écart type de l'échantillon : L'écart type de l'échantillon.
\(n\) : La taille de l'échantillon.
Si tu veux en savoir plus sur les échantillons, la moyenne de l'échantillon et l'écart type de l'échantillon, consulte notre article intitulé Moyenne de l'échantillon.
Avec ces éléments, tu peux construire un intervalle de confiance.
Le niveau de confiance ou \(z\) est fixé par toi. Cette variable \(z\) est le pourcentage de tes résultats qui se rapprocheront d'une valeur si tu répètes ton expérience.Proposons une expérience facile. Tu mesures la taille d'un échantillon d'élèves d'un collège. Les élèves les plus petits mesurent 1,5m, et les plus grands 1,87m. Disons que tu veux un intervalle de confiance de 95 % ; si tu choisis au hasard un élève du collège en dehors de l'échantillon, tu t'attends à ce que sa taille se situe dans l'intervalle que tu as choisi avec une probabilité de 95 % si les variables pour calculer l'intervalle de confiance sont choisies correctement.
Supposons que nous ayons les mesures du poids de pièces de monnaie de même valeur. Certaines pièces auront plus de poids, et d'autres non. Les pièces pèsent \(50gr\) et ont une déviation de leur poids de \(0gr\) à \(2gr\). Si elles suivent une distribution normale, tu auras la même chose que ci-dessous :
Tu choisis un intervalle où tu sais que \(66,3\N%\Nvivent. C'est-à-dire que \(64,2\%) de l'écart de poids de la pièce sera là. Tu peux voir l'intervalle ci-dessous. L'intervalle est inférieur et supérieur à la moyenne \(m\) dans ce cas.
Cependant, s'il ne s'agit que d'un échantillon d'une grande population, la moyenne et l'intervalle peuvent être différents pour l'ensemble des pièces en circulation sur le marché.
Si tu répètes l'expérience avec un autre échantillon de pièces et que tu veux que les valeurs ou la valeur moyenne soient proches de l'échantillon original, un intervalle de confiance apparaîtra.Par exemple, plus l'intervalle de confiance est bon, plus notre moyenne sera proche de la valeur moyenne de la population totale. Les moyennes de l'ancien échantillon et du nouvel échantillon seront alors proches.
L'intervalle de confiance devient de plus en plus étroit au fur et à mesure que l'échantillon augmente.
Types d'intervalles de confiance
Cependant, les intervalles de confiance peuvent avoir plusieurs significations.
Les types d'intervalles de confiance que tu verras ci-dessous sont :
L'intervalle de confiance pour la moyenne de la population.
L'intervalle de confiance pour la proportion de la population.
L'intervalle de confiance pour la différence de deux proportions.
L'intervalle de confiance pour la pente d'un modèle de régression.
Intervalle de confiance pour la moyenne de la population
Disons que tu prélèves un échantillon \(a\) d'une population entière \(A\). Cet échantillon \(a\N) a une moyenne \N(\Noverline{x_a}\N). Si l'échantillonnage comporte suffisamment de données et que le sondage est aléatoire, alors les paramètres de l'échantillon ressembleront à ceux de la grande population. Plus la méthode d'échantillonnage est bonne, plus la moyenne de l'échantillon ressemblera à la moyenne de la population entière.Dans ce cas, l'intervalle de confiance est la plage \([x_1 - x_2]\) dans l'échantillon original \(a\), sur laquelle nous avons une valeur de probabilité \(P\) pour trouver la moyenne de la population.
Disons donc que tu as une moyenne \(\Noverline{x_a}\N) et un intervalle de confiance de \N(90\N%\N) autour de cette moyenne. L'intervalle va de la valeur \(x_1\) à la valeur \(x_2\). Dans ce cas, la moyenne de la population \(A\) a \(90\%) de probabilités de se trouver à l'intérieur de cet intervalle.
Cela a une autre implication : si tu prends un autre échantillon, il est très probable que la moyenne de cet échantillon se trouve également dans cette fourchette. Prenons un exemple numérique.
Disons que nous avons des données qui suivent une distribution normale. Sa moyenne est de \(0\) et son écart type de \(1\). Ces données sont un échantillon d'une population plus large. Les données de l'échantillon sont nombreuses, au moins \(2000\) échantillons.Disons que tu veux que l'intervalle de confiance pour la moyenne ait un niveau de confiance de \(95\%\). Pour trouver la valeur de \N(z\N), tu dois aller dans les tableaux de scores z et choisir une valeur de \N(z\N) proche de \N(0,95\N). La valeur de ce niveau de confiance est \N(z=1,64\N).Si nous introduisons ceci dans la formule que tu as vue dans les premiers paragraphes :
\[CI=0 \pm 1,64 \frac{1}{\sqrt{2000}}=0,0366 \].
Nous pouvons alors affirmer avec un degré de confiance de 95 % que la moyenne de toute la population est de 0 % avec un écart de 0,036 %.
Tableau 1. \Valeurs de \N(Z\N) pour le niveau de confiance de \N(95\N%). La valeur \(1.64\) est prise dans la colonne et la ligne où la valeur \(z \cdot 100\) est plus proche de \(95\) en rouge.
z
0
0.01
0.02
0.03
0.04
0.05
0.0
0.500
0.5040
0.5080
0.5160
0.5199
0.5239
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.3
0.6179
...
...
...
...
...
0.4
0.6554
...
...
...
...
...
0.5
0.6915
...
...
...
...
...
0.6
0.7257
...
...
...
...
...
0.7
...
...
...
...
...
...
0.8
...
...
...
...
...
...
0.9
...
...
...
...
...
...
1.0
...
...
...
...
...
...
1.1
...
...
...
...
...
...
1.2
...
...
...
...
...
...
1.3
...
...
...
...
...
...
1.4
...
...
...
...
...
...
1.5
...
...
...
...
0.9382
0.9394
1.6
...
...
...
...
0.9495
0.9505
La taille de l'échantillon affectera l'intervalle de confiance dans l'exemple précédent. Si l'échantillon n'était que de 1 000, le résultat serait de 0,051.
Le niveau de confiance est la probabilité que l'intervalle contienne la vraie valeur du paramètre.
Intervalle de confiance pour la différence de deux moyennes
Disons que tu as deux échantillons provenant de deux populations. Par exemple, les échantillons de poids d'une classe de 8e année en Angleterre et d'une classe de 9e année en Écosse. Tu veux trouver la différence entre les moyennes des deux échantillons.Cela pourrait être facile : calcule la moyenne du poids de la classe en Angleterre \(w_E\) et soustrais-la de la moyenne de la classe en Ecosse \(w_S\). Cependant, les échantillons sont aléatoires, leurs moyennes ne ressemblent pas à la moyenne de la classe \(8\) en Angleterre et à la moyenne de la classe \(9\) en Écosse. Nous avons des incertitudes sur le rusult possible.Dans ce cas, nous disposons d'une formule pour calculer l'intervalle de confiance. La moyenne de deux populations différentes est définie comme suit :
\(s_1{,}s_2\) : sont les variances des échantillons.
Intervalle de confiance pour une proportion de la population
Tu as vu ce qui se passe avec l'intervalle de confiance dans une distribution normale. Dans ce type de distribution, les valeurs sont continues. Cependant, il existe d'autres types de distributions, comme la distribution binomiale. Dans ce cas, les valeurs sont le résultat d'une expérience de type Bernoulli. Dans une distribution de type Bernoulli, les résultats n'ont que deux issues.Dans ces distributions, nous pouvons tester une question.
Disons que tu veux interroger les gens sur un candidat à la présidence.
Les gens font un sondage aléatoire, en appelant les maisons des gens. Les maisons interrogées couvrent différents milieux socio-économiques et différents lieux, ce qui rend l'étude aussi aléatoire que possible. Dans l'enquête, un \(67\%) de personnes confirment leur vote pour le candidat \(A\).Cependant, il y a un problème, vous avez des incertitudes. Les personnes qui ont donné les réponses ne correspondent pas à la population totale. Dans ce cas, le pourcentage réel peut varier.Disons que les personnes qui ont fait le sondage confirment que leur étude a un taux de certitude de \(90%\). Dans ce cas, une variation de \(\pm 6,7\%\) est possible. La valeur réelle pourrait être \N(60,3 %) ou \N(73,7 %).Dans ces cas, l'intervalle de confiance de la proportion mentionnée, qui est \N(67 %), est important parce qu'il t'indique quelque chose. L'intervalle de confiance nous indique une histoire où ce candidat, même dans le pire des cas, peut gagner avec plus de \(50\%\) des voix. Mais que se passe-t-il si l'intervalle de confiance est inférieur ? Si l'intervalle de confiance est de \(70\%), la valeur peut tomber en dessous de \(50\%) et le candidat peut perdre même si \(67\%) des gens votent pour lui.C'est pourquoi l'intervalle de confiance pour les proportions est très important. Étant donné une proportion de la population, il peut nous dire quelle est sa valeur par rapport à l'ensemble de la population.
\[p=Z\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}\]
\(\hat{p}\) : c'est la proportion ou le pourcentage.
\(Z\) : est la valeur du niveau de confiance comme dans le tableau que tu as utilisé précédemment.
\N(n\N) : c'est la taille de l'échantillon.
Intervalle de confiance pour la différence de deux proportions
Tout comme lorsque tu as l'intervalle de confiance de deux moyennes de deux échantillons de deux populations, cela peut exister aussi pour les proportions. Dans ce cas, tu as deux proportions obtenues à partir d'échantillons.
Les deux échantillons étudient la même question dans les populations \N(A) et \N(B), mais leurs résultats sont différents \N(\Nqui{p_1}\N) et \N(\Nqui{p_2}\N). Dans ce cas, l'intervalle de confiance pour la différence de deux proportions est donné par l'équation suivante :
\[(\hat{p_1}-\hat{p_2})\pm Z \sqrt{\dfrac{\hat{p_1}(1-\hat{p_1})}{n_1}+\dfrac{\hat{p_2}(1-\hat{p_2})}{n_2} }\]
Intervalle de confiance pour la pente d'un modèle de régression
Si tu soupçonnes l'existence d'une relation linéaire entre deux variables, tu peux construire un intervalle de confiance pour la pente d'un modèle de régression. Rappelle-toi que tu peux utiliser la régression linéaire ou la technique de régression par les moindres carrés pour créer la ligne qui correspond le mieux aux données.
Supposons que tu aies recueilli des données au cours des 20 dernières années sur l'âge moyen des électeurs. Si tu penses que l'âge moyen des électeurs a diminué au cours des 20 dernières années, tu pourrais établir un intervalle de confiance pour la pente de ton modèle de régression linéaire afin de déterminer s'il existe une relation linéaire entre le temps et l'âge moyen des électeurs.
Pour savoir comment tirer des conclusions de ce type d'intervalle de confiance, lis notre article sur la justification des affirmations basées sur l'intervalle de confiance de la pente d'un modèle de régression.
Interprétation des intervalles de confiance
Encore une fois, un intervalle de confiance est un intervalle contenant les valeurs probables d'un paramètre de la population basé sur un ou plusieurs échantillons aléatoires, avec un niveau de confiance de \(c\%\).
Le niveau de confiance indique que la méthode utilisée pour créer un intervalle de confiance particulier réussit à capturer la valeur du paramètre réel de la population environ \(c\%\) du temps.
Attention : un niveau de confiance de \(X\%\) ne signifie pas que la probabilité que le paramètre se trouve entre les limites de l'intervalle de confiance est de \(X\%\).
Encore une fois, un niveau de confiance de \(c\N%\N) concerne la méthode utilisée pour produire l'intervalle de confiance.
Ainsi, l'interprétation que tu dois faire d'un intervalle de confiance est que tu peux être sûr(e) que la valeur réelle du paramètre est incluse dans l'intervalle calculé.
Les niveaux de confiance les plus courants sont \N(90\N%), \N(95\N%) et \N(99\N%).
Suppose qu'un intervalle de confiance de 95 % indique que la moyenne de la population est supérieure à 150 % et inférieure à 200 %. Comment interpréterais-tu cette affirmation ?
"Cela signifie qu'il y a une chance sur deux (95 %) que la moyenne de la population soit comprise entre 150 et 200."
"Cela signifie qu'il y a \N(95\N%\N) de niveau de confiance que la vraie valeur du paramètre de la population est comprise entre \N(150\N) et \N(200\N)".
Considérations sur la marge d'erreur, le niveau de confiance et la taille de l'échantillon
Tu pourrais penser qu'en visant un intervalle étroit pour estimer ton paramètre, tu te rapproches de la connaissance de sa vraie valeur puisqu'elle est plus précise. Il est plus pratique et plus précis pour toi de savoir que tu rencontres un ami dans le quartier \(X\), plutôt que dans la ville \(Y\).
Mais dans les intervalles de confiance, tu dois penser à l'inverse : plus la largeur de l'intervalle est petite, moins tu es sûr que la vraie valeur du paramètre se trouve dans cet intervalle. Bien que la précision diminue, il est beaucoup plus sûr de supposer que le paramètre se trouve dans la ville \(Y\), plutôt que dans le quartier \(X\) parce que la même ville peut contenir d'autres quartiers dans lesquels le paramètre peut être présent.
Cela signifie que
plus le niveau de confiance est élevé, plus l'intervalle de confiance est large.
Un intervalle de confiance avec un niveau de confiance de 99 % est plus large qu'un intervalle de confiance de 95 %, qui est plus large qu'un intervalle de confiance de 90 %, pour la même situation.
Une autre chose que tu pourrais remarquer dans les formules présentées est que la taille de l'échantillon affecte également la marge d'erreur. Dans toutes les situations présentées, la taille de l'échantillon \(n\) apparaît au dénominateur de l'erreur standard. Ainsi ,
plus la taille de l'échantillon est grande, plus l'intervalle de confiance est étroit
(car plus la valeur de l'erreur type est petite).
Exemple d'intervalles de confiance
Terminons cet article par deux exemples où l'on calcule l'intervalle de confiance d'une moyenne et l'intervalle de confiance de deux proportions.
Supposons que tu disposes des données sur la taille des élèves de plusieurs collèges. Les données indiquent leur taille et la moyenne des données est \(\mu=1,5m\). Si l'écart type est égal à \(1\). Dans ce cas, nous voulons connaître l'intervalle de confiance pour la moyenne si l'échantillon a une taille de \(3000\) individus.
En utilisant la formule pour l'intervalle de confiance, tu as :
\[CI=1,5 \pm Z \frac{1}{\sqrt{3000}}=X \].
Disons que tu veux un niveau de confiance comme dans le premier problème :
\[CI=1,5m \pm 1,64 \frac{1}{\sqrt{3000}} \]
\N- [CI=1.5m \Npm 0.029 \N]
Disons que tu veux calculer l'intervalle de confiance d'une proportion. Cette proportion est \(62\%\). Nous voulons à nouveau un niveau de confiance de \(95\%\). Dans ce cas, l'échantillon était composé de 6734 personnes.\N-[p=Z\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}]
Si tu remplaces les valeurs :
\[p=0.0097\]
Intervalles de confiance - Principaux enseignements
Un intervalle de confiance est une plage de valeurs probables pour estimer un paramètre de la population.
La marge d'erreur représente un certain nombre d'écarts-types de ta statistique que tu additionnes et soustrais pour avoir une certaine confiance dans tes résultats.
Le niveau de confiance est la probabilité, donnée en pourcentage, que ton résultat soit proche de la valeur réelle du paramètre de la population qui t'intéresse si tu répétais sans cesse la collecte de l'échantillon.
Les niveaux de confiance les plus fréquents sont de \(90\%\), \(95\%\) et \(99\%\).
La forme générale d'un intervalle de confiance eststatistique de l'échantillon ± marge d'erreur,où marge d'erreur = valeur critique × erreur standard.
Les statistiques d'échantillon spécifiques ont des intervalles de confiance spécifiques, mais ils suivent tous la même forme.
L'interprétation que tu dois faire d'un intervalle de confiance est que tu peux être certain que la valeur réelle du paramètre est incluse dans l'intervalle calculé.
Apprends plus vite avec les 11 fiches sur Intervalles de confiance
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Intervalles de confiance
Qu'est-ce qu'un intervalle de confiance ?
Un intervalle de confiance est une plage de valeurs utilisée pour estimer un paramètre de population, indiquant la fiabilité de l'estimation.
Comment calculer un intervalle de confiance ?
Pour calculer un intervalle de confiance, on utilise la formule IC = moyenne ± (marge d'erreur). La marge d'erreur dépend de l'écart-type et de la taille de l'échantillon.
À quoi sert un intervalle de confiance ?
Un intervalle de confiance sert à fournir une estimation de la variabilité d'une statistique échantillonnée et à évaluer la précision de cette estimation.
Quelle est la différence entre intervalle de confiance et marge d'erreur ?
L'intervalle de confiance est une plage de valeurs possibles pour une estimation, tandis que la marge d'erreur est l'écart maximal attendu entre l'estimation et la vraie valeur.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.