En examinant de grands ensembles de données, l'idée est de trouver les informations que tu peux rassembler sur des populations particulières, compte tenu des quantités et des types de données énormes recueillies. Mais comment sais-tu quel type de conclusions tirées des données sont valables et lesquelles ne sont que des suppositions ? Le processus de déduction dans les statistiques peut t'aider à décider !
La signification des inférences dans les statistiques
Lesstatistiquesa> sontdéfiniescommeunedisciplinedesmathématiques appliquéesa> quis'intéresseàl'étudesystématiquedelacollecte, delaprésentation, del'analyseetdel'interprétation des donnéesa>. Lacollecteetl'analysedesdonnéesàl'aidededifférentestechniquesetméthodessontappeléesstatistiques descriptives. Après avoir décrit les données à l'aide de différentes techniques, qu'est-ce qui se passe ensuite ? C'est là qu'interviennent les inférences dans les statistiques. Les statistiques déductives sont la branche des statistiques qui traite des conclusions, interprétations et prédictions correctes à partir des données analysées.
Lesdéductions statistiques sont des techniques employées pour examiner les résultats des données afin de parvenir à des conclusions, des interprétations et des prédictions. Les déductions statistiques sont également appelées statistiques inférentielles ou déductions statistiques.
Les déductions statistiques peuvent t'aider à faire des prédictions et des conclusions sur les populations que tu étudies en interprétant les résultats d'échantillons aléatoires de cette population. Les deux principales applications des statistiques déductives qui nous aident à tirer ces conclusions sont les tests d'hypothèse et les intervalles de confiance des données.
Les déductions statistiques dépendent de trois éléments principaux :
la taille des échantillons;
lavariabilité des échantillons; et
la taille des différences observées.
En général, tu as besoin d'un moyen de parler de la différence entre le groupe entier que tu étudies et les personnes spécifiques qui ont répondu à une enquête ou qui ont fait partie d'une étude.
La population fait référence à un groupe d'unités (personnes, objets ou autres) recensées lors d'un recensement ou dont on tire un échantillon.
Tu peux étudier différents sous-groupes de la population. Ces sous-groupes sont appelés échantillons.
Un échantillonest défini comme un sous-ensemble d'une population sélectionné pour être mesuré, observé ou interrogé, afin de fournir des informations statistiques sur la population.
Pour procéder à une inférence statistique, les conditions suivantes doivent être remplies :
Les données de l'expérience doivent être obtenues par le biais d'échantillons aléatoires ou d'expériences aléatoires
La distribution des moyennes de l'échantillon doit être approximativement normale
Les observations individuelles doivent être indépendantes
Méthodes d'inférence en statistiques
Il existe deux méthodes principales pour faire des déductions en statistiques : les tests d'hypothèse et les intervalles de confiance. Les tests d'hypothèse consistent à prouver ou à réfuter une affirmation à l'aide de méthodes statistiques appropriées. Les intervalles de confiance impliquent la création d'une plage ou d'une limite à l'intérieur de laquelle la valeur d'un paramètre est censée être trouvée et avec un certain degré d'assurance.
Ce sont des étapes générales qui pourraient être suivies pour faire des déductions statistiques :
Planifie et conçois ton étude
Recueillir les données
Analyser les données
Interpréter les résultats
Présenter les résultats.
Voyons un exemple rapide de ces étapes.
Les États-Unis comptent cinquante États et, dans l'ensemble, une population de plus de 300 millions de personnes. Disons que le gouvernement veut déterminer l'âge moyen de la population pour avoir une idée de l'évolution des conditions démographiques et des tendances sociales et économiques.
Planifier l'étude : Ils ne peuvent certainement pas faire du porte-à-porte pour demander l'âge de chaque personne aux États-Unis ! Cependant, ils peuvent utiliser des méthodes plus stratégiques et des déductions statistiques pour arriver à des valeurs et des faits très proches ou égaux à ceux de la population, ce qui constituera le plan et la stratégie de l'étude. Le gouvernement devrait notamment se préoccuper des sources de biais dans les enquêtes afin de garantir l'exactitude des données.
Collecte des données : Il peut s'agir d'examiner les données de recensement ou de prendre un échantillon aléatoire de personnes aux États-Unis et de demander l'âge des membres de leur famille. Jette un coup d'œil aux articles Échantillonnage aléatoire et Méthodes d'échantillonnage des enquêtes pour plus d'informations.
Analyse des données : Il s'agit de rechercher la moyenne d'une population, donc l'analyse appropriée des données serait des tests d'hypothèse pour une moyenne de population.
Interprète les résultats : Cette étape est particulièrement importante ! Tu verras souvent des choses comme "le taux d'approbation est de \(54 \% \pm 3\%), ce qui signifie que le taux n'est pas exactement de \(54\%), mais ils peuvent dire avec un certain degré de certitude qu'il est à \(3\%) de \(54\%). Pouvoir justifier les affirmations que tu fais est une grande partie de l'inférence dans les statistiques.
Présenter les résultats : Une fois l'âge moyen déterminé, il faut le présenter de manière à ce que d'autres personnes (présentateurs de journaux, blogueurs, etc.) puissent le comprendre et l'expliquer à d'autres personnes.
Types d'inférences statistiques
Les déductions en statistiques peuvent se faire de plusieurs façons, l'une des plus fréquentes étant le test d'hypothèse.
Une hypothèse est une supposition considérée comme vraie à des fins d'argumentation ou d'enquête. Un exemple d'hypothèse serait que la cote de popularité du président a baissé depuis l'année dernière.
Letest d'hypothèse désigne le processus consistant à vérifier ces hypothèses et à tirer des conclusions sur les paramètres d'un échantillon concernant la population. Il permet d'évaluer la crédibilité d'une certaine hypothèse à l'aide de données provenant d'un échantillon.
Tu peux consulter l'article Test d'hypothèse pour plus d'informations sur ce qu'est réellement une hypothèse et sur la façon dont le test est effectué.
Une autre méthode utilisée dans les déductions est la création et l'utilisation d'intervalles de confiance. Un intervalle de confiance est utilisé pour générer une plage de valeurs où tu peux conclure avec une certitude raisonnable que la valeur réelle se trouve. Tu as peut-être vu cela dans des commentaires politiques lorsque quelqu'un dit quelque chose du genre "le candidat mène de \(18\) points, plus ou moins \(2\%\)". Cela signifie qu'ils ont construit un intervalle de confiance pour l'avance du candidat, et qu'il est compris dans \(2\%\), inférieur ou supérieur à \ (18\%\). En fonction de ce que tu mesures, tu feras l'un des types d'intervalles suivants :
Intervalles de confiance pour une proportion de la population
Intervalles de confiance pour une moyenne de population
Intervalles de confiance pour la différence de deux proportions
Intervalles de confiance pour la différence de deux moyennes
Comme tu l'as déjà vu dans l'article Analyse des données, il arrive que les données recueillies ne soient pas numériques. Elles peuvent être catégoriques, comme dans les enquêtes. Si tu souhaites tirer des conclusions à partir de données catégorielles, tu utiliseras alors généralement la distribution du khi-deux. Pour plus d'informations sur ce type d'inférence, consulte l'article Inférence pour les distributions de données catégorielles.
L'inférence causale est le processus qui permet de conclure qu'un traitement particulier donné à la variable indépendante est la cause de l'effet observé dans la variable dépendante.
Un domaine académique connu sous le nom d'inférence causale examine les présomptions, les plans de recherche et les techniques d'estimation qui permettent aux chercheurs de déduire des relations causales à partir de données. Ici, le traitement donné à la variable indépendante est connu sous le nom d'intervention, tandis que l'effet observé dans la variable dépendante est le résultat.
L'inférence causale consiste à déduire qu'une chose est ou est très probablement la cause d'une autre. Par exemple, on peut supposer que quelqu'un joue (ou jouait) du piano en se basant sur le son de la musique de piano.
Cependant, une corrélation peut être confondue avec une causalité. Lorsque certaines variables présentent une relation ou une association, il ne faut pas croire que l'une affecte directement la survenue de l'autre, car il peut y avoir une troisième variable. Par exemple, le fait que les concombres et les tomates aient tous deux une production plus élevée une année donnée ne signifie pas que le rendement des tomates et des concombres soit lié.
Ils sont tous deux associés à une autre variable qui est le climat.
Néanmoins, si la réduction d'une variable entraîne une augmentation ou une diminution proportionnelle de l'autre variable, on peut admettre qu'il existe une relation de cause à effet entre les deux variables. Il existe des moyens de concevoir des expériences de manière à éliminer le plus grand nombre possible d'effets extérieurs. Pour plus d'informations sur ces techniques, voir Méthodes d'expérimentation, Sources de biais dans les expériences et Plan en blocs aléatoires.
Fonction de puissance dans l'inférence statistique
Une fonction de puissance décrit la vraie valeur d'un paramètre à la probabilité de rejeter une hypothèse nulle sur la valeur de ce paramètre. Consulte l'article Erreurs dans les tests d'hypothèses pour plus d'informations sur les types d'erreurs dans les tests d'hypothèses et sur ce qui peut les provoquer.
Exemples d'inférence dans les statistiques
Voyons un exemple d'inférence dans les statistiques.
Supposons que tu veuilles savoir s'il existe une relation entre le nombre d'heures de sommeil d'une personne et la qualité de ses notes. Pour répondre à cette question, tu choisis des personnes au hasard dans ta classe (ce serait ton échantillon) et tu leur demandes combien d'heures de sommeil ils ont en une nuit et quelle est leur note en classe. Tu peux ensuite utiliser cet échantillon de la classe entière (la classe entière est la population) pour faire une hypothèse sur le nombre d'heures de sommeil et le lien avec les notes, et faire un test d'hypothèse pour vérifier les résultats. À partir de là, tu peux faire une déduction sur la population en te basant sur ton échantillon.
Prenons un autre exemple.
Un fabricant de médicaments a un nouveau produit qui, espère-t-il, guérira le cancer et qu'il veut tester. Naturellement, il commence par le tester sur des souris plutôt que sur des humains. Ils sélectionnent un groupe de souris atteintes d'un cancer et le second groupe de souris sans cancer. Certains membres de chaque groupe reçoivent le nouveau produit (ce sont les groupes de traitement), et d'autres non (ce sont les groupes de contrôle). Ils peuvent ensuite mesurer l'effet du médicament sur les souris qui l'ont reçu et le comparer à celui des souris qui n'ont pas reçu le médicament.
Il s'agit d'un exemple de réalisation d'une expérience, et le fabricant devrait effectuer des tests d'hypothèse avec deux échantillons pour voir si son médicament est efficace. À partir de là, il peut tirer une conclusion et décider s'il veut poursuivre le développement du médicament.
Inférences en statistiques - Principaux enseignements
Les inférences en statistiques sont des techniques employées pour examiner les résultats des données et être en mesure de tirer la bonne conclusion et interprétation à partir d'une variation aléatoire. Les déductions statistiques sont également appelées statistiques inférentielles ou déductions statistiques.
Pour effectuer des déductions statistiques, il faut suivre les étapes suivantes
Planifie et conçois ton étude
Recueillir les données
Analyser les données
Interpréter les résultats
Présenter les résultats.
Les tests d'hypothèses désignent le processus qui consiste à vérifier les hypothèses et à tirer des conclusions sur les paramètres d'un échantillon concernant la population.
Apprends plus vite avec les 7 fiches sur Inférences en statistiques
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Inférences en statistiques
Qu'est-ce qu'une inférence en statistiques ?
L'inférence en statistiques consiste à tirer des conclusions sur une population à partir d'un échantillon de données collectées.
Pourquoi l'inférence statistique est-elle importante ?
L'inférence statistique est cruciale pour prendre des décisions éclairées lorsque l'on ne peut pas étudier la population entière.
Quelles sont les méthodes d'inférence statistique ?
Les méthodes incluent les tests d'hypothèses, les estimations par intervalle et l'analyse de régression.
Quelle est la différence entre inférence statistique et descriptive ?
L'inférence statistique vise à tirer des conclusions sur une population, tandis que la statistique descriptive résume simplement les données collectées.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.