As-tu déjà utilisé un test statistique ? C'est un type de test mathématique utilisé pour analyser des données. L'utilisation d'un test statistique aide les scientifiques à déterminer si les données qu'ils ont recueillies prouvent leur théorie. Sinon, ce n'est qu'une collection de chiffres.
Lesdonnées statistique ment significatives font référence aux résultats d'une expérience qui sont susceptibles d'être attribués à une cause spécifique.
Si les données d'une expérience sont statistiquement significatives, il est peu probable que le résultat soit le fruit du hasard.
Il est important de prendre en compte l'erreur d'échantillonnage, la probabilité et la certitude.
Erreur d'échantillonnage : une erreur statistique qui se produit lorsqu'un analyste sélectionne un échantillon qui ne représente pas efficacement l'ensemble de la population.
Probabilité : la probabilité qu'un événement se produise.
Probabilité et certitude
Rien dans la vie n'est sûr à 100 %. Il se peut que des ailes te poussent et que tu puisses voler. Oui, c'est très improbable, mais pas impossible. Il n'y a aucun moyen de savoir avec certitude.
C'est pourquoi, en statistiques, nous utilisons la probabilité et non la certitude.
Analyse statistique et données statistiquement significatives
Que sont les statistiques et pourquoi en avons-nous besoin ?
Lesstatistiques sont des tests utilisés pour analyser, interpréter et présenter des données numériques.
Sans tests statistiques, nos données ne signifient pas grand-chose. Ce n'est qu'une collection de chiffres. Mais en analysant nos données, nous pouvons trouver des associations ou des différences entre nos données, ce qui étaye nos résultats et nous aide à mieux comprendre l'environnement naturel.
Hypothèses
Lorsqu'ils planifient une expérience, les scientifiques émettent deux hypothèses - l'hypothèse nulle et l'hypothèse alternative.
L'hypothèse nulle (H0) stipule qu'il n'y aura pas de relations ou de différences significatives dans les données.
L'hypothèse alternative (H1) affirme qu'il y aura une relation ou une différence significative dans les données.
Amy veut savoir si les bébés préfèrent jouer avec des jouets bleus plutôt qu'avec des jouets orange.
H0: Les bébés ne préfèrent pas jouer avec des jouets bleus plutôt qu'avec des jouets orange.
H1: Les bébés préfèrent jouer avec des jouets bleus plutôt qu'avec des jouets orange.
Si l'expérience donne un résultat statistiquement significatif, l'hypothèse nulle sera rejetée. Si elle ne donne pas de résultat statistiquement significatif, l'hypothèse nulle sera acceptée.
Test de signification statistique
Pour vérifier que les résultats d'un test statistique sont significatifs, nous devons vérifier le niveau de signification et les degrés de liberté.
Niveaux de signification
Le niveau de signification (également appelé valeur p) est la probabilité de rejeter à tort l'hypothèse nulle.
La valeur p décrit une probabilité, pas une certitude.
En biologie et en sciences de l'environnement, le seuil de signification est de 0,05. Cela signifie que s'il y a moins de 5 % de chances de rejeter à tort l'hypothèse nulle, les données sont considérées comme statistiquement significatives.
Degrés de liberté
Degrés de liberté = n - 1, où n est la taille de l'ensemble de données.
L'utilisation des degrés de liberté nous aide à trouver des valeurs seuils critiques pour les tests statistiques. Plus il y a de degrés de liberté, plus la valeur critique est importante.
Les valeurs critiques se trouvent dans des tableaux. Tu peux facilement les trouver en ligne ou dans un livre de statistiques.
Données statistiquement significatives : Variance
La variance est une façon de mesurer les différences entre deux ensembles de données. Elle prend en compte la dispersion des points de données au sein d'un ensemble de données.
Les scientifiques peuvent tester la variance à l'aide du test F. Comment cela fonctionne-t-il ?
Calcule la moyenne de ton ensemble de données.
Soustrais chaque point de données de la moyenne pour trouver son écart.
Place chaque écart au carré pour t'assurer que tu as un nombre positif.
Trouve la somme des carrés.
Divise les carrés par n-1 pour trouver les variances.
Divise la plus grande variance par la plus petite variance pour trouver la valeur F calculée.
Compare la valeur calculée à la valeur critique. Si la valeur calculée est inférieure à la valeur critique, il y a une variance statistiquement significative.
n est la taille de ton ensemble de données.
Variance : Exemple
Une météorologue voulait voir s'il y a une différence significative entre la vitesse du vent à Hull et la vitesse du vent à Nottingham. Elle a rédigé deux hypothèses.
Hypothèse nulle : Il n'y a pas de différence significative entre la vitesse du vent à Hull et la vitesse du vent à Nottingham.
Hypothèse alternative : Il existe une différence significative entre la vitesse du vent à Hull et la vitesse du vent à Nottingham.
Ensuite, elle a recueilli les moyennes mensuelles et les a utilisées pour calculer la variance.
Mois
Coque : Vitesse du vent (km/h)
Hull : Déviation
Hull : Écart2
Nottingham : Vitesse du vent (km/h)
Nottingham : Écart
Nottingham :Écart2
Janvier
24.3
-4.2
17.64
21.5
-3.2
10.24
Février
23.0
-2.9
8.41
20.7
-2.4
5.76
Mars
21.5
-1.4
1.96
19.8
-1.5
2.25
Avril
18.9
1.2
1.44
17.6
0.7
0.39
Mai
17.7
2.4
5.76
16.8
1.5
2.25
Juin
16.3
3.8
14.44
15.7
2.6
6.76
Juillet
16.1
4.0
16
15.7
2.6
6.76
Août
17.1
3.0
9
16.0
2.3
5.29
Septembre
19.3
0.8
0.64
17.4
0.9
0.81
Octobre
21.4
-1.3
1.69
18.8
-0.5
0.25
Novembre
22.4
-2.3
5.29
19.4
-1.1
1.21
Décembre
23.3
-3.2
10.24
20.4
-2.1
4.41
Moyenne
20.1
N/A
N/A
18.3
N.D.
N/A
Somme
N/A
N/A
92.51
N/A
N/A
46.38
Pour Hull, la vitesse moyenne du vent est de 20,1 km/h. La somme des écarts au carré est de 92,51.
L'écart :
92.51 ÷ (12-1)
92.51 ÷ 11 = 8.41
Pour Nottingham, la vitesse moyenne du vent est de 18,3 km/h. La somme des écarts au carré est de 46,38.
L'écart :
46.38 ÷ (12-1)
46.38 ÷ 11 = 4.22
Valeur F calculée = 8,41 ÷ 4,22 = 1,99
Finalement, la météorologue a trouvé la valeur f critique à partir d'un tableau. Elle a pris soin de vérifier les degrés de liberté (dans cet exemple, 11) et le niveau de signification (0,05).
Pour ce test, la valeur F critique est de 2,16.
Comme la valeur F calculée est inférieure à la valeur F critique, il existe une variance statistiquement significative entre les ensembles de données. Le météorologue a donc rejeté l 'hypothèse nulle.
Fig. 1 - Les vitesses de vent mensuelles pour les deux villes semblent très similaires. Sans analyse statistique, il serait difficile de savoir qu'il y a une différence.
Le coefficient de corrélation de rang de Spearman est utilisé pour tester une association ou une relation entre deux variables. La relation peut être positive ou négative.
Relation positive : une augmentation d'une variable est associée à une augmentation de l'autre.
Relationnégative : une augmentation d'une variable est associée à une diminution de l'autre.
Lorsque tu effectues un test de rang de Spearman, il est important de comprendre que la corrélation ≠ la causalité. Ce n'est pas parce que deux choses sont liées que l'une provoque un changement chez l'autre.
La consommation de chocolat par habitant est corrélée avec les prix Nobel par habitant. Malheureusement, cela ne signifie pas nécessairement que manger plus de chocolat te rend plus intelligent !
Comment fonctionne le classement de Spearman ?
Classe les points de données pour les deux variables.
Détermine la différence entre les rangs.
Élève au carré la différence entre les rangs pour t'assurer que tu as un nombre positif.
Substitue tes données dans l'équation ci-dessous pour trouver la valeur r calculée.
Compare la valeur calculée à la valeur critique. Si la valeur calculée est égale ou supérieure à la valeur critique, il y a un écart statistiquement significatif.
Lorsque tu classes les données, tu peux le faire du plus petit au plus grand ou du plus grand au plus petit. Veille simplement à classer les deux variables en utilisant la même méthode.
Équation : p = 1 - (6 x ∑D2) ÷ (n(n2-1))
D : différence de rangs
n : nombre de points de données dans l'ensemble
Corrélation : Exemple
Un zoologiste voulait voir si le nombre de taches sur un dalmatien était lié à son poids. Il a rédigé deux hypothèses.
Hypothèse nulle : Le nombre de taches sur un dalmatien n'est pas lié à son poids.
Hypothèse alternative : Le nombre de taches sur un dalmatien est lié à son poids.
Il a pesé dix dalmatiens adultes et a compté le nombre de taches qu'ils avaient.
Poids (kg)
Points
Rang du poids
Rang des taches
Différence entre les rangs
Différence2
24.8
113
6
5
1
1
22.2
144
3
8
-5
25
19.3
199
1
10
-9
81
28.9
65
9
2
7
49
26.0
129
7
7
0
0
20.1
78
2
3
-1
1
31.2
145
10
9
1
1
23.5
50
4
1
3
9
24.5
123
5
6
-1
1
26.7
110
8
4
4
16
Somme
184
Ensuite, le zoologiste a inséré les données dans l'équation.
p = 1 - (6 × 184) ÷ (12(122-1))
p = 1 - (1104 ÷ 1716)
Valeur p calculée = 0,356
Enfin, le zoologiste a trouvé la valeur p critique. Pour ce test, la valeur p critique était de 0,553. Comme la valeur p calculée était inférieure à la valeur p critique, il n'y a pas de corrélation statistiquement significative entre les variables. Le zoologiste a accepté l' hypothèse nulle.
Fig. 2 - Savais-tu que les dalmatiens ne naissent pas avec leurs taches ? Elles commencent à se développer vers l'âge de 14 jours. Source : unsplash.com
J'espère que cet article a clarifié pour toi les données statistiquement significatives. Une donnée statistiquement significative est un résultat qui a très peu de chances de se produire par hasard. Pour déterminer si tes données sont statistiquement significatives, tu dois comparer ta valeur calculée à la valeur critique (qui dépend du niveau de signification et des degrés de liberté).
Les données statistiquementsignificatives font référence aux résultats d'une expérience qui sont susceptibles d'être attribués à une cause spécifique.
Nous utilisons des tests statistiques pour trouver des associations ou des différences dans nos données. Cela confirme nos résultats et nous aide à mieux comprendre le monde naturel.
Lorsque nous planifions une expérience, nous rédigeons une hypothèse nulle et une hypothèse alternative. Si le résultat est statistiquement significatif, l'hypothèse nulle est rejetée.
Lors des tests de signification, nous devons utiliser des niveaux de signification (généralement 0,05) et des degrés de liberté (n-1).
La variance mesure la différence entre deux ensembles de données, en tenant compte de la dispersion des points de données. Un test F est utilisé pour déterminer si la variance est statistiquement significative.
Une corrélation teste l'existence d'une association ou d'une relation entre deux variables. Un test de rang de Spearman est utilisé pour vérifier si la corrélation est statistiquement significative.
1. Aloys Leo Prinz, Consommation de chocolat et lauréats nobles, Sciences sociales et humaines ouvertes, 2020.
2. Harry Dean, Are Dalmatians Born With Spots : Most Don't Know This, The Puppy Mag, 2022
3. Hill's, Informations sur la race de chien dalmatien et traits de personnalité, 2022.
4. Weather Spark, Le climat et la température moyenne toute l'année à Hull, 2022.
5. Weather Spark, climat et temps moyen toute l'année à Nottingham, 2022
Une donnée statistiquement significative indique que les résultats observés sont peu probables d'être dus au hasard, généralement déterminé par un seuil de p-value.
Pourquoi est-ce important en études environnementales et forestières ?
C'est important car cela aide à valider les hypothèses et à s'assurer que les résultats ne sont pas dus au hasard mais reflètent des tendances réelles.
Comment déterminer si une donnée est statistiquement significative ?
On détermine significativité statistique grâce à des tests statistiques comme le test t, et en vérifiant si la p-value est inférieure à un seuil, souvent 0,05.
Quelle est la p-value en statistiques ?
La p-value mesure la probabilité que les résultats observés soient dus au hasard ; une p-value faible indique une plus grande significativité statistique.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.