Il n'est pas idéal pour les chercheurs de présenter les valeurs numériques des données recueillies à partir d'instruments ou d'enquêtes. Les données doivent être organisées pour raconter l'histoire de ce que tu veux mettre en avant dans ta recherche. Celle-ci doit se concentrer sur le problème que tu veux résoudre - également appelé "l'énoncé du problème". C'est la fonction première de la recherche.
Des outils statistiques sont utilisés dans ce processus, ils t'aident à transformer les données en informations utiles qui peuvent te permettre d'arriver à des conclusions importantes. Ce processus s'appelle l'analyse des données. C'est à l'issue de ce processus que les données peuvent être pleinement interprétées.
Méthodes statistiques
Les méthodes statistiques te permettent de travailler sur tes données. Imaginons que tu aies les notes d'examen de 100 élèves et que tu veuilles interpréter ces données. Parcourir les notes à l'œil seul pourrait être assez difficile ! Voici deux méthodes qui te simplifieraient la tâche.
Mesures de tendance centrale
Les valeurs de tendance centrale sont utilisées pour décrire certaines caractéristiques clés de l'ensemble des données, en produisant une valeur unique qui est typique de l'ensemble. Par exemple, le mode te donnera la valeur qui se produit le plus souvent.
La moyenne est la mesure de la tendance centrale la plus communément rapportée et c'est la moyenne mathématique. Pour calculer ta moyenne, tu additionnes toutes les valeurs dont tu disposes et tu divises cette somme par le Nombre de valeurs que tu as ajoutées. La moyenne est représentée par μ, et sa formule est la suivante .où n est le nombre de données de l'échantillon et est la somme de toutes les valeurs des données.
Déviation par défaut
Une autre mesure statistique couramment utilisée est la variabilité, également connue sous le nom d'étendue. L'étendue est la forme la plus simple de la variabilité. Reprenons l'ensemble de données sur les notes d'examen - la fourchette est l'intervalle entre la valeur numérique la plus basse et la valeur numérique la plus élevée.
Une autre mesure courante est la variance, qui est l'écart moyen au carré par rapport à la moyenne. Ce chiffre indique à quel point les valeurs individuelles s'écartent de la moyenne. Ce que tu verras le plus souvent, c'est l'écart type. Il s'agit de la racine carrée de la variance. L'écart type exprime à quel point les résultats individuels de la classe diffèrent de la valeur moyenne du groupe. Mathématiquement, il peut être modélisé sous la forme d'une équation :
Données à une seule variable
Les données à variable unique impliquent l'examen d'une variable particulière pertinente pour un ensemble de données. L'analyse de données uniques est courante dans les formes descriptives d'analyse et utilise des histogrammes, des distributions de fréquence et des diagrammes en boîte, entre autres méthodes. Elle est surtout utilisée lors de la première étape de l'étude des données. Jetons un coup d'œil sur un diagramme en boîte.
diagramme en boîte
Un diagramme en boîte affiche un résumé en cinq nombres d'un ensemble de données. Il s'agit du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum. Les quartiles nous renseignent sur la répartition des données en divisant l'ensemble de données en quarts. Le quartile inférieur, Q1, représente 25 %, le quartile moyen équivaut à 50 % et le quartile supérieur représente 75 %.
Les âges de 10 élèves de 12e année ont été recueillis et ils sont les suivants :
15, 21, 19, 19, 17, 16, 17, 18, 19, 18.
Commençons par les classer par ordre croissant.
15, 16, 17, 17, 18, 18, 19, 19, 19, 21.
Nous pouvons maintenant trouver la médiane, qui est le nombre du milieu. Et comme nous avons un nombre pair, nous en avons deux. Trouver la moyenne est une pratique courante ; cependant, avec la nôtre, nous avons le même nombre.
médiane = 18
Nous allons maintenant trouver les quartiles. Le premier est la médiane située à gauche de la médiane globale.
Cela signifie que nous trouvons la médiane pour 15, 16, 17, 17, 18.
Cela équivaut à 17.
Le troisième quartile sera la médiane à droite de la médiane.
18, 19, 19, 19, 21
Ce qui fait un total de 19.
Nous allons maintenant documenter le nombre minimum qui est de 15.
Et nous allons également documenter le nombre maximum qui est de 21.
Figure 1. Diagramme en boîte
L'image ci-dessus est le diagramme en boîte représentant les données des âges des élèves de 12e année.
Nous allons prendre un autre exemple avec un nombre impair de points de données.
Le tableau ci-dessous contient des données sur les points marqués par les joueurs de basket-ball par match sur une période de sept matchs. Visualise ces données sur un diagramme en boîte et un diagramme à moustaches.
Jeu | Points |
1 | 10 |
2 | 17 |
3 | 5 |
4 | 32 |
5 | 16 |
6 | 18 |
7 | 20 |
Étape 1.
Réorganise les valeurs de l'ensemble des données, de la plus faible à la plus élevée.
5, 10, 16, 17, 18, 20, 32.
Étape 2.
Identifie maintenant la valeur la plus élevée et la valeur la plus basse de l'ensemble des données.
Valeur la plus élevée : 32
Valeur la plus basse : 5
Étape 3.
Nous pouvons maintenant identifier la valeur moyenne (médiane) de l'ensemble des données.
Médiane = 17
Étape 4.
Nous allons maintenant trouver les quartiles supérieur et inférieur.
Le quartile inférieur est la médiane de la première moitié de l'ensemble de données.
Cela signifie que nous allons trouver la médiane pour 5, 10 et 16.
Quartile inférieur = 10
Le quartile supérieur est la médiane de la deuxième moitié de la série de données.
Cela signifie également que nous trouverons la médiane pour 18, 20, 32.
Quartile supérieur = 20
Étape 5.
Maintenant que nous disposons de toutes les valeurs nécessaires, nous allons construire notrediagramme en boîte et notre diagramme à moustaches à l'adresse .
Valeur la plus élevée = 32
Valeur la plus basse = 5
Médiane = 17
Quartile supérieur = 20
Quartile inférieur = 10
Nous allons d'abord tracer une ligne des nombres qui correspond aux données, et reporter toutes les valeurs nécessaires que nous avons trouvées.
Figure 2. Tracer les valeurs nécessaires sur une boîte
Construis un rectangle qui entoure la médiane de l'ensemble des données que ses lignes verticales passent par les quartiles supérieur et inférieur. Construis maintenant une ligne verticale passant par la médiane qui touche les deux extrémités du rectangle.
Figure 3. Boîte et graphique
Voilà, nous avons notre box and whisker plot pour les matchs de basket.
Données à deux variables
Contrairement aux données à variable unique, les données bivariées se composent de deux variables pour chaque individu. Par exemple, dans les grandes études du secteur de la santé, il est courant de collecter des variables telles que la taille, l'âge, la tension artérielle, etc. pour chaque individu. Voyons un exemple dans un tableau de fréquence à deux variables.
Il s'agit du nombre d'hommes et de femmes qui ont eu chaque note sur un projet de mathématiques à l'école.
diplômes | | Femmes | Total |
A | 9 | | 21 |
B. | 18 | | 32 |
C | | 11 | |
D | 2 | 3 | 5 |
E | 1 | 2 | 3 |
Total | 38 | 42 | 80 |
Nous pouvons voir qu'il y a 9 hommes et 12 femmes qui ont obtenu un A, 18 hommes et 14 femmes qui ont obtenu un B, et ainsi de suite.
Nous pouvons maintenant répondre à quelques questions.
Combien d'élèves au total ont obtenu un A ?
Réponse : 21 élèves.
Combien d'hommes ont été interrogés ?
Réponse : 38 hommes.
Combien de garçons ont obtenu la note A ?
Réponse : 9.
Tu trouveras ci-dessous la représentation graphique de deux variables, les ventes de glaces dans un magasin donné en fonction de la température du jour. Cela démontre la quantité de crème glacée achetée à chaque température donnée.
Données à deux variables ; Ventes de crème glacée en fonction de la température du jour
Probabilité
La probabilité est la mesure de la probabilité qu'un événement se produise. Les probabilités peuvent être placées sur une ligne numérique entre 0 et 1, comme indiqué ci-dessous.
Ainsi, si la probabilité d'un événement est de zéro, il est impossible que cet événement se produise. En revanche, si elle est de 1, il est certain qu'il se produira. Nous avons alors des degrés de variation entre les deux valeurs, et 0,5 signifierait qu'il y a une chance égale que l'événement se produise.
Probabilité sur une droite numérique
Les probabilités sont écrites à l'aide de la Notation suivante :
Si l'événement A a une probabilité entre se produire et ne pas se produire, alors la probabilité que l'événement A ne se produise pas = 1 - P (A ')
Par exemple, si le P (A) = 0,8
P(A') = 0,2.
La somme des deux doit être égale à 1.
Ce sont les concepts de base que tu utiliseras tout au long des probabilités à ce niveau. On peut aussi te réintroduire dans les diagrammes de Venn, les diagrammes en arbre, etc.
Interprétation des données - Points clés
- L'interprétation des données consiste à soumettre les données recueillies à des processus prédéfinis afin d'en tirer des conclusions logiques et statistiques.
- La présentation fait référence à la représentation des données sous forme de graphiques, de diagrammes, de tableaux de fréquence, etc.
- La mesure de la tendance centrale produit une valeur unique qui est typique de l'ensemble. Les valeurs de base sont la moyenne, le mode et la médiane.
- Les données à variable unique impliquent l'examen d'une variable particulière pertinente dans un ensemble de données.
- Contrairement aux données à une seule variable, les données bivariées se composent de deux variables pour chaque individu.
- La probabilité est la mesure de la probabilité qu'un événement se produise.