Les données bivariées sont des données qui ont été collectées dans deux variables, et chaque point de données dans une variable a un point de données correspondant dans l'autre valeur. Nous collectons normalement des données bivariées pour essayer d'étudier la relation entre les deux variables et utiliser ensuite cette relation pour éclairer les décisions futures.
Par exemple, nous pourrions recueillir des données sur la température extérieure par rapport aux ventes de crème glacée, ou nous pourrions étudier la taille par rapport à la pointure des chaussures, ce sont deux exemples de données bivariées. S'il existe une relation montrant qu'une augmentation de la température extérieure augmente les ventes de crème glacée, les magasins pourraient l'utiliser pour acheter plus de crème glacée pour les périodes plus chaudes de l'été.
Comment représenter les données à deux variables ?
Nous utilisons des diagrammes de dispersion pour représenter les données à deux variables. Un graphique de dispersion de données à deux variables est un graphique à deux dimensions avec une variable sur un axe et l'autre variable sur l'autre axe. Nous reportons ensuite les points correspondants sur le graphique. Nous pouvons ensuite tracer une ligne de régression (également connue sous le nom de ligne de meilleur ajustement) et examiner la corrélation des données (dans quelle direction les données vont et à quel point les points de données sont proches de la ligne de meilleur ajustement).
Dessiner un graphique de dispersion
Étape1 : Nous commençons par dessiner un ensemble d'axes et par choisir une échelle appropriée pour les données.Étape 2: Indique sur l'axe des x la variable explicative / indépendante (la variable qui va changer), et sur l'axe des y la réponse / variable dépendante (la variable dont nous pensons qu'elle va changer en raison du changement de la variable indépendante). Étiquette également le graphique lui-même, en décrivant ce qu'il montre. Étape 3 : Place les points de données sur le graphique.Étape 4 : Trace la ligne de meilleur ajustement, si nécessaire.
Voici un ensemble de données mettant en relation la température des jours du mois de juillet, et le nombre de glaces vendues dans un magasin du coin.
Température (° C)
14
16
15
16
23
12
21
22
Ventes de glaces
16
18
14
19
43
12
24
26
Dans ce cas, la température est la variable indépendante et les ventes de crème glacée sont la variable dépendante. Cela signifie que nous traçons la température sur l'axe des x et les ventes de glaces sur l'axe des y. Le graphique obtenu devrait ressembler à ce qui suit.
Graphique des ventes de glaces en fonction de la température - StudySmarter Originals
Les données suivantes représentent le trajet d'une voiture avec le temps et la distance parcourue mesurés à partir du début du trajet :
Temps (en heures)
1
2
3
4
5
6
7
8
Distance (km)
12
17
18
29
35
51
53
60
Dans ce cas, le temps est la variable indépendante et la distance est la variable dépendante. Cela signifie que nous inscrivons le temps sur l'axe des x et la distance sur l'axe des y. Le graphique obtenu devrait ressembler à ce qui suit.
Graphique de la distance en fonction du temps - StudySmarter Originals
Quelle est la signification de la corrélation et de la régression pour les données bivariées ?
La corrélation décrit la relation entre deux variables. Nous décrivons la corrélation sur une échelle mobile allant de -1 à 1. Tout ce qui est négatif est appelé corrélation négative, et une corrélation positive correspond à un nombre positif. Plus la corrélation est proche de chaque extrémité de l'échelle, plus la relation est forte, et plus la corrélation est proche de zéro, plus la relation est faible. Une corrélation nulle signifie qu'il n'y a pas de relation entre les deux variables. La régression consiste à tracer une ligne d'ajustement optimale pour les données. Cette ligne d'ajustement optimal minimise la distance entre les points de données et cette ligne de régression. La corrélation est une mesure de la proximité des données par rapport à notre ligne d'ajustement optimal. Si nous pouvons trouver une forte corrélation entre deux variables, alors nous pouvons établir qu'elles ont une forte relation, ce qui signifie qu'il y a une bonne probabilité qu'une variable influence l'autre.
Données bivariées - Principaux enseignements
Les données bivariées sont la collection de deux ensembles de données, où chaque donnée est jumelée à une autre provenant de l'autre ensemble de données
Nous utilisons un graphique en nuage de points pour montrer les données bivariées.
La corrélation entre les données bivariées montre la force de la relation entre deux variables.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.