Corrélation

As-tu déjà constaté que plus tu bois de l'eau, plus ton envie d'uriner est fréquente ? Grâce à des recherches scientifiques, nous pouvons conclure que ces deux variables sont reliées. Pour savoir si c'est le cas (ou pas), nous pouvons calculer leur corrélation. La corrélation entre deux séries statistiques nous indique si nous pouvons établir une formule qui relie les deux. Nous commencerons cette explication avec une définition rigoureuse de ce qu'est la corrélation. Ensuite, nous rentrerons dans les détails sur le coefficient de corrélation, ainsi que la corrélation positive et la corrélation négative. Après, nous examinerons la différence entre la corrélation et la causalité. Pour finir, nous étudierons brièvement la matrice de corrélation

C'est parti

Review generated flashcards

Inscris-toi gratuitement
Tu as atteint la limite quotidienne de l'IA

Commence à apprendre ou crée tes propres flashcards d'IA

Équipe éditoriale StudySmarter

Équipe enseignants Corrélation

  • Temps de lecture: 8 minutes
  • Vérifié par l'équipe éditoriale StudySmarter
Sauvegarder l'explication Sauvegarder l'explication
Tables des matières
Tables des matières

Sauter à un chapitre clé

    Corrélation : définition

    La corrélation mesure à quel point il y a un lien numérique entre deux variables. Une corrélation forte entre deux variables statistiques implique que quand une variable change, l'autre variable change proportionnellement. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.

    Plus nous buvons de l'eau, plus de fois nous avons besoin d'aller aux toilettes. Nous pouvons donc dire qu'il y a une corrélation entre le volume d'eau qu'une personne boit et le nombre de fois qu'elle va aux toilettes.

    Autrement dit, nous cherchons à savoir si, disposant de deux variables \(x\) et \(y\), nous pouvons écrire \(y = f(x)\), avec \(f\) une fonction connue. Même s'il peut y avoir plusieurs types de corrélations entre variables, nous considérons souvent des coefficients de corrélation linéaire. En d'autres termes, nous souhaitons savoir si les deux variables peuvent être reliées à l'aide d'une fonction affine ou linéaire.

    Coefficient de corrélation

    Un coefficient de corrélation mesure la corrélation entre deux variables. En effet, un coefficient de corrélation nous indique le lien statistique entre les deux variables. Il y a plusieurs coefficients de corrélation, mais celui qui est le plus souvent utilisé est le coefficient de corrélation linéaire, également appelé le coefficient de Bravais-Pearson.

    Le coefficient de corrélation linéaire de deux variables \(x\) et \(y\) est noté \(r\) ou \(\rho (x,y)\). Il se calcule à l'aide de la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \] où \(cov(x,y)\) est la covariance de \(x\) et \(y\) et \(var(x)\) (\(var(y)\)) est la variance de \(x\) (de \(y\)).

    La variance mesure les variations d'une série statistique ou une variable aléatoire. Comme son nom l'indique, la covariance mesure comment varie une variable par rapport à une autre.

    La covariance de deux séries statistiques \(x = x_1, x_2, ... , x_n\) et \(y = y_1, y_2, ... , y_n\) est notée \(cov(x,y)\). Elle se calcule avec la formule : \[ cov(x,y) = \sum_{i=1}^n \frac{(x_i - \bar{x})(y_i - \bar{y})}{n} \] où \( \bar{x} \) est la moyenne de \(x\).

    Pour une variable \(x\), nous avons \(cov(x,x) = var(x)\).

    Nous pouvons calculer le coefficient de corrélation grâce aux formules citées au-dessus. Or, avec certaines calculatrices, il suffit d'entrer les séries statistiques pour calculer le coefficient de corrélation linéaire. Une fois calculé, il faut savoir comment interpréter le coefficient de corrélation, qui peut prendre des valeurs entre \(-1\) et \(1\), compris.

    • Si le coefficient est positif, alors quand une variable augmente, l'autre augmente aussi.

    • En revanche, si le coefficient est négatif, alors quand une variable augmente, l'autre diminue.

    • De plus, si la valeur absolue du coefficient est plus proche de \(1\), le lien est plus fort. Et tu peux imaginer : si la valeur absolue du coefficient est plus proche de \(0\), le lien est plus faible.

    Corrélation positive

    Si deux variables ont une corrélation positive, l'augmentation (ou la diminution) d'une variable implique l'augmentation (ou diminution) de l'autre. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente positive.

    Tu veux tout comprendre sur les nuages de points ? Consulte notre explication sur ce sujet en cliquant sur le lien ci-dessus.

    Corrélation Corrélation positive forte StudySmarterFig. 1 - Un nuage de points avec une corrélation positive forte

    Si la corrélation est moins forte, il est plus difficile d'envisager une droite. Or, nous pouvons en faire un ajustement affine.

    Corrélation Corrélation positive faible StudySmarterFig. 2 - Un nuage de points avec une corrélation positive faible

    Corrélation négative

    Si deux variables ont une corrélation négative, l'augmentation d'une variable implique la diminution de l'autre, et vice-versa. Visuellement, si nous faisons un nuage de points, les points ont l'air de suivre une droite avec une pente négative.

    Corrélation Corrélation négative forte StudySmarterFig. 3 - Un nuage de points avec une corrélation négative forte

    Avec une corrélation moins forte, le nuage de points ressemblerait à l'image ci-dessous.

    Corrélation Corrélation négative faible StudySmarterFig. 4 - Un nuage de points avec une corrélation négative faible

    La droite qui est le plus près possible du nuage de points est appelée la droite de régression ou la droite des moindres carrés. Ces appellations sont dues aux méthodes d'ajustement affine souvent utilisées pour construire la droite : la régression linéaire et la méthode des moindres carrés.

    Corrélation et causalité

    Les personnes ont tendance à confondre la corrélation et la causalité. Comme nous l'avons expliqué ici, la corrélation est une mesure mathématique du lien entre deux variables. Le fait que deux variables sont corrélées ne signifie pas que l'une a un impact sur l'autre.

    Un lien de causalité est une relation entre deux variables ou phénomènes qui dit qu'une variable affecte l'autre via un raisonnement logique. Nous pouvons également considérer la causalité comme un type de corrélation où une variable dépend de l'autre.

    Si une entreprise vend plus de leurs produits, alors leurs revenus augmentent. Nous pouvons alors dire qu'il y a un lien de causalité entre le nombre de produits vendus et les revenus. Ici, les revenus dépendent du nombre de produits vendus. Le nombre de produits vendus est donc appelé la variable explicative et le revenu est la variable expliquée.

    Différence entre corrélation et causalité

    Ces concepts sont très similaires, mais ils ne sont pas pareils. Quelle est donc la différence entre la corrélation et la causalité ? Regardons un exemple qui montre que la corrélation n'implique pas la causalité.

    Depuis la révolution industrielle, nous avons observé à la fois une hausse conséquente de la production de dioxyde de carbone CO2, ainsi que du taux d'obésité. Nous pouvons donc établir une corrélation statistique entre ces deux variables. Or, il n'y a pas de preuve scientifique qui indique que l'obésité est dûe au CO2. Cependant, nous pouvons présenter des arguments logiques qui montrent que l'industrialisation est à l'origine de ces deux phénomènes. Dans ce cas, l'industrialisation est une variable cachée : elle n'est pas l'objet de l'étude statistique mais elle a une influence sur les variables considérées.

    Matrice de corrélation

    Si nous disposons de plus que deux séries statistiques, nous pouvons examiner la corrélation entre chaque couple de variables à l'aide d'une matrice de corrélation. Les coefficients de cette matrice sont les coefficients de corrélation pour chaque couple de variables.

    Si nous disposons des séries statistiques \(X_1, ... , X_n\), alors les coefficients de la matrice de corrélation associée, \(R\), sont données par \(R_{ij} = \rho (X_i,X_j) \).

    Cette matrice nous permet d'analyser les relations entre plusieurs variables en même temps.

    Si tu as besoin de rafraîchir tes connaissances sur les matrices, n'hésite pas à consulter notre explication à ce sujet.

    Corrélation - Points clés

    • La corrélation mesure le lien mathématique entre deux variables statistiques.
    • Nous pouvons calculer le coefficient de corrélation linéaire grâce à la formule suivante : \[r = \frac{cov(x,y)}{\sqrt{var(x)var(y)}} \]
    • S'il y a une corrélation positive entre deux variables, l'augmentation d'une variable implique l'augmentation de l'autre. S'il y a une corrélation négative entre deux variables, l'augmentation d'une variable implique la diminution de l'autre.
    • La corrélation n'implique pas la causalité.
    • Avec plusieurs séries statistiques \(X_1, ... , X_n\), nous pouvons créer une matrice de corrélation, \(R\), dont les coefficients sont \(R_{ij} = \rho (X_i,X_j) \).
    Questions fréquemment posées en Corrélation

    Comment définir la corrélation ? 

    La corrélation mesure à quel point il y a un lien statistique entre deux variables. En d'autres termes, nous cherchons à savoir s'il existe une fonction f, telle que nous pouvons écrire y = f(x), pour des variables x et y. 

    Qu'est-ce qu'une corrélation entre deux variables ? 

    La corrélation est une mesure du lien mathématique entre deux variables statistiques. 

    Comment savoir si 2 variables sont corrélées ? 

    Pour savoir si deux variables sont corrélées, il faut calculer leur coefficient de corrélation. Plus proche cette valeur est à 1 ou -1, plus les deux variables sont corrélées. 

    Quand parle-t-on de corrélation ?

    La corrélation entre deux séries statistiques nous donne une idée si nous pouvons établir une formule qui relie les deux. La corrélation mesure à quel point il y a un lien numérique entre deux variables.

    Sauvegarder l'explication

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 8 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !