Corrélation : définition
La corrélation mesure à quel point il y a un lien numérique entre deux variables. Une corrélation forte entre deux variables statistiques implique que quand une variable change, l'autre variable change proportionnellement. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.
Plus nous buvons de l'eau, plus de fois nous avons besoin d'aller aux toilettes. Nous pouvons donc dire qu'il y a une corrélation entre le volume d'eau qu'une personne boit et le nombre de fois qu'elle va aux toilettes.
Autrement dit, nous cherchons à savoir si, disposant de deux variables \(x\) et \(y\), nous pouvons écrire \(y = f(x)\), avec \(f\) une fonction connue. Même s'il peut y avoir plusieurs types de corrélations entre variables, nous considérons souvent des coefficients de corrélation linéaire. En d'autres termes, nous souhaitons savoir si les deux variables peuvent être reliées à l'aide d'une fonction affine ou linéaire.
Coefficient de corrélation
Un coefficient de corrélation mesure la corrélation entre deux variables. En effet, un coefficient de corrélation nous indique le lien statistique entre les deux variables. Il y a plusieurs coefficients de corrélation, mais celui qui est le plus souvent utilisé est le coefficient de corrélation linéaire, également appelé le coefficient de Bravais-Pearson.
Le coefficient de corrélation linéaire de deux variables \(x\) et \(y\) est noté \(r\) ou \(\rho (x,y)\). Il se calcule à l'aide de la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \] où \(cov(x,y)\) est la covariance de \(x\) et \(y\) et \(var(x)\) (\(var(y)\)) est la variance de \(x\) (de \(y\)).
La variance mesure les variations d'une série statistique ou une variable aléatoire. Comme son nom l'indique, la covariance mesure comment varie une variable par rapport à une autre.
La covariance de deux séries statistiques \(x = x_1, x_2, ... , x_n\) et \(y = y_1, y_2, ... , y_n\) est notée \(cov(x,y)\). Elle se calcule avec la formule : \[ cov(x,y) = \sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{n} \] où \( \bar{x} \) est la moyenne de \(x\).
Pour une variable \(x\), nous avons \(cov(x,x) = var(x)\).
Nous pouvons calculer le coefficient de corrélation grâce aux formules citées au-dessus. Or, avec certaines calculatrices, il suffit d'entrer les séries statistiques pour calculer le coefficient de corrélation linéaire. Une fois calculé, il faut savoir comment interpréter le coefficient de corrélation, qui peut prendre des valeurs entre \(-1\) et \(1\), compris.
Si le coefficient est positif, alors quand une variable augmente, l'autre augmente aussi.
En revanche, si le coefficient est négatif, alors quand une variable augmente, l'autre diminue.
De plus, si la valeur absolue du coefficient est plus proche de \(1\), le lien est plus fort. Et tu peux imaginer : si la valeur absolue du coefficient est plus proche de \(0\), le lien est plus faible.
Corrélation positive
Si deux variables ont une corrélation positive, l'augmentation (ou la diminution) d'une variable implique l'augmentation (ou diminution) de l'autre. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente positive.
Tu veux tout comprendre sur les nuages de points ? Consulte notre explication sur ce sujet en cliquant sur le lien ci-dessus.
Fig. 1 - Un nuage de points avec une corrélation positive forte
Si la corrélation est moins forte, il est plus difficile d'envisager une droite. Or, nous pouvons en faire un ajustement affine.
Fig. 2 - Un nuage de points avec une corrélation positive faible
Corrélation négative
Si deux variables ont une corrélation négative, l'augmentation d'une variable implique la diminution de l'autre, et vice-versa. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente négative.
Fig. 3 - Un nuage de points avec une corrélation négative forte
Avec une corrélation moins forte, le nuage de points ressemblerait à l'image ci-dessous.
Fig. 4 - Un nuage de points avec une corrélation négative faible
La droite qui est le plus près possible du nuage de points est appelée la droite de régression ou la droite des moindres carrés. Ces appellations sont dues aux méthodes d'ajustement affine souvent utilisées pour construire la droite : la régression linéaire et la méthode des moindres carrés.
Corrélation et causalité
Les personnes ont tendance à confondre la corrélation et la causalité. Comme nous l'avons expliqué ici, la corrélation est une mesure mathématique du lien entre deux variables. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.
Un lien de causalité est une relation entre deux variables ou phénomènes qui dit qu'une variable affecte l'autre via un raisonnement logique. Nous pouvons également considérer la causalité comme un type de corrélation où une variable dépend de l'autre.
Si une entreprise vend plus de leurs produits, alors leurs revenus augmentent. Nous pouvons alors dire qu'il y a un lien de causalité entre le nombre de produits vendus et les revenus. Ici, les revenus dépendent du nombre de produits vendus. Le nombre de produits vendus est donc appelé la variable explicative et le revenu est la variable expliquée.
Différence entre corrélation et causalité
Ces concepts sont très similaires, mais ils ne sont pas pareils. Quelle est donc la différence entre la corrélation et la causalité ? Regardons un exemple qui montre que la corrélation n'implique pas la causalité.
Depuis la révolution industrielle, nous avons observé à la fois une hausse conséquente de la production de dioxyde de carbone CO2, ainsi que du taux d'obésité. Nous pouvons donc établir une corrélation statistique entre ces deux variables. Or, il n'y a pas de preuve scientifique qui indique que l'obésité est dûe au CO2. Cependant, nous pouvons présenter des arguments logiques qui montrent que l'industrialisation est à l'origine de ces deux phénomènes. Dans ce cas, l'industrialisation est une variable cachée : elle n'est pas l'objet de l'étude statistique mais elle a une influence sur les variables considérées.
Matrice de corrélation
Si nous disposons de plus que deux séries statistiques, nous pouvons examiner la corrélation entre chaque couple de variables à l'aide d'une matrice de corrélation. Les coefficients de cette matrice sont les coefficients de corrélation pour chaque couple de variables.
Si nous disposons des séries statistiques \(X_1, ... , X_n\), alors les coefficients de la matrice de corrélation associée, \(R\), sont données par \(R_{ij} = \rho (X_i,X_j) \).
Cette matrice nous permet d'analyser les relations entre plusieurs variables en même temps.
Si tu as besoin de rafraîchir tes connaissances sur les matrices, n'hésite pas à consulter notre explication à ce sujet.
Corrélation - Points clés
- La corrélation mesure le lien mathématique entre deux variables statistiques.
- Nous pouvons calculer le coefficient de corrélation linéaire grâce à la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \]
- S'il y a une corrélation positive entre deux variables, l'augmentation d'une variable implique l'augmentation de l'autre. S'il y a une corrélation négative entre deux variables, l'augmentation d'une variable implique la diminution de l'autre.
- La corrélation n'implique pas la causalité.
- Avec plusieurs séries statistiques \(X_1, ... , X_n\), nous pouvons créer une matrice de corrélation, \(R\), dont les coefficients sont \(R_{ij} = \rho (X_i,X_j) \).
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Get to know Lily
Content Quality Monitored by:
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.
Get to know Gabriel