Régression linéaire

Dans la vie de tous les jours, de nombreuses quantités sont liées les unes aux autres, par exemple, le prix des fruits est lié à leur poids, le poids de quelqu'un peut être lié à sa taille, ou la température en degrés Fahrenheit a son équivalence en degrés Celsius.

Régression linéaire Régression linéaire

Crée des supports d'apprentissage sur Régression linéaire avec notre appli gratuite!

  • Accès instantané à des millions de pièces de contenu
  • Fiches de révision, notes, examens blancs et plus encore
  • Tout ce dont tu as besoin pour réussir tes examens
Inscris-toi gratuitement
Tables des matières
Table des mateères

    Maintenant, si tu as deux ensembles de nombres qui peuvent être liés, comment peux-tu trouver l'équation qui les relie ? Si tu penses que la relation est linéaire, tu peux utiliser la régression linéaire.

    Dans cet article, tu comprendras ce qu'est la régression linéaire, quel est le modèle de régression linéaire, quelle est l'équation de régression linéaire et quelles sont les hypothèses à prendre en compte.

    Introduction à la régression linéaire

    Rappelle que l'équation d'une ligne droite est donnée par \N[y=a+bx,\N] où \N(b\N) est appelé la pente de la ligne et \N(a\N) est appelé l'ordonnée à l'origine (la valeur de \N(y\N) où la ligne croise l'axe \N(y\N)).

    Comme nous l'avons mentionné plus haut, certaines quantités sont liées à d'autres de façon linéaire. Par exemple, le prix des mangues. Aux États-Unis, le prix d'un kilogramme de mangue est d'environ 1,80 $ ; le prix de 2 kilogrammes est donc de 3,60 $. Ainsi, la relation entre le prix et le poids de la mangue est donnée par l'équation \[y=1,80x,\]

    où \(x\) est le nombre de kilogrammes (la variable indépendante) et \(y\) est le prix (la variable dépendante).

    Supposons maintenant que tu t'intéresses à l'addiction des gens aux téléphones portables. Dans ton cours d'arts plastiques de l'après-midi, tu as demandé à \(5\) personnes combien de messages texte elles avaient envoyés pendant la durée du cours, et tu as obtenu les informations suivantes.

    ÂgeNombre de SMS envoyés
    \(17\)\(35\)
    \(18\)\(27\)
    \(20\)\(29\)
    \(22\)\(23\)
    \(27\)\(18\)

    Tableau 1. Données sur l'âge et le nombre de messages texte.

    Existe-t-il une relation entre l'âge d'une personne et le nombre de SMS qu'elle envoie ? Cette relation est-elle linéaire ? Comment puis-je trouver l'équation qui les relie ?

    Définition de la régression linéaire

    Avant de définir ce qu'est la régression linéaire, examinons le diagramme de dispersion suivant qui montre la distribution des données obtenues dans l'exemple des textos.

    Régression linéaire Diagramme de dispersion de la relation entre l'âge et les SMS envoyés StudySmarterFigure 1. Diagramme de dispersion de la relation entre l'âge et les messages texte envoyés.

    Au premier coup d'œil, tu peux voir que tu peux tracer plusieurs lignes qui peuvent approximer le comportement des points.

    Larégression linéaire est une technique statistique qui consiste à trouver la meilleure droite qui décrit la relation entre une variable dépendante et une ou plusieurs variables indépendantes.

    Le modèle le plus couramment utilisé est la droite de régression dite des moindres carrés.

    Avec la régression linéaire, tu peux faire une prédiction des données que tu ne connais pas, à partir du comportement des données que tu as obtenues dans l'échantillonnage.

    Coefficient de corrélation

    Une façon de savoir si deux ensembles de données sont linéairement liés est de regarder le diagramme de dispersion. L'autre consiste à calculer le coefficient de corrélation de Pearson ou coefficient de corrélation.

    Soit \(x\) et \(y\) respectivement la variable indépendante et la variable dépendante. Si \(\mu_{x}\) et \(s_x\) sont la moyenne et l'écart-type de l'échantillon de \(x\) et \(\mu_{y}\) et \(s_y\) sont la moyenne et l'écart-type de l'échantillon de \(y\).

    Ensuite, si l'échantillon a une taille de \(n\), le coefficient de corrélation est calculé par :

    \[r=\frac{\sum z_xz_y}{n-1

    \[z_x=\frac{x-\mu_{x}}{s_x},\text{ and }\, z_y=\frac{y-\mu_{y}}{s_y}\]

    Pour calculer le coefficient de corrélation pour l'exemple des messages texte, prenons \(x\N) comme variable représentant l'âge (la variable indépendante), et \N(y\N) comme variable représentant le nombre de messages texte (la variable dépendante).

    Alors \(\mu_{x}=20.8\) et \(s_x=3.96\) sont la moyenne et l'écart type de l'échantillon pour l'âge, et \(\mu_{y}=26.4\) et \(s_y=6.39\) sont la moyenne et l'écart type de l'échantillon pour le nombre de messages texte.

    Le coefficient de corrélation est donc :

    \[\begin{align} r&=\frac{(-0.96)(1.35)+(-0.7)(0.09)+(-0.20)(0.41)+(0.3)(-0.53)+(1.56)(-1.31)}{4} \\&=-0.91\end{align}\]

    Relis nos articles sur la moyenne de l'échantillon, l'écart type et le score \(z\)- pour te souvenir de ces sujets !

    Propriétés du coefficient de corrélation

    1. Le coefficient de corrélation prend des valeurs comprises entre \(-1\) et \(1\).

    2. Si \(|r|=1\), la relation entre la variable \(x\) et \(y\) est complètement linéaire.

    3. Si \r=0\r, il n'y a pas de relation linéaire entre \r(x\r) et \r(y\r).

    4. Si \(r>0\), lorsque \(x\) augmente, \(y\) a tendance à augmenter et lorsque \(x\) diminue, \(y\) a tendance à diminuer (également appelée corrélation positive).

    5. Si \(r<0\), alors lorsque \(x\) augmente, \(y\) a tendance à diminuer et lorsque \(x\) diminue, \(y\) a tendance à augmenter (aussi appelée corrélation négative).

    ❗❗ La corrélation n'implique pas la causalité.

    Hypothèses pour la régression linéaire

    Pour appliquer la régression linéaire, tu dois d'abord vérifier les conditions suivantes :

    1. Condition relative aux variables quantitatives: La corrélation ne s'applique que si les deux variables sont quantitatives.

    2. Condition de linéarité suffisante: Regarde le diagramme de dispersion et assure-toi que tes données ont une relation approximativement linéaire. La corrélation ne mesure que la force d'une association linéaire.

    3. Condition de valeurs aberrantes: Les valeurs aberrantes peuvent ruiner la corrélation. En présence de valeurs aberrantes, il est préférable de calculer une corrélation incluant les valeurs aberrantes et une autre excluant les valeurs aberrantes.

    Modèle de régression linéaire

    La ligne de régression n'est pas parfaite. Elle ne passe pas par tous les points, certains points seront au-dessus et d'autres en dessous, mais c'est la meilleure dans le sens où la somme des carrés des résidus (voir l'article Résidus pour plus d'informations) est la plus petite possible.

    Les calculs pour trouver la droite de régression sont souvent fastidieux et prennent du temps, c'est pourquoi il existe des logiciels statistiques et des calculatrices graphiques que tu peux utiliser pour t'aider à faire les calculs.

    Équation de la régression linéaire

    La droite de meilleur ajustement est appelée droite de régression des moindres carrés.

    L'équation de la droite de régression des moindres carrés est donnée par :

    \[\hat{y}=a+bx,\] où \[b=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{\sum(x-\mu_{x})^2},\text{ et }\hat{y}=\mu{y}-b\mu_{x}\].

    Dans l'équation de la ligne précédente, la valeur \(\hat{y}\) est la valeur prédite de \(y\) qui résulte de la substitution d'une valeur particulière \(x\) dans l'équation. Puisque \(\hat{y}\) n'est qu'une prédiction, la différence entre la valeur \(\hat{y}\) et la valeur réelle de \(y\) est appelée résidu et est donnée par :

    \[\varepsilon=y-\hat{y}\]

    Pour l'exemple des messages texte, l'équation de la droite de régression des moindres carrés est donnée par :

    \[\hat{y}=-1.47x+57.1\]

    Régression linéaire Diagramme de dispersion de la relation entre l'âge et les textos envoyés avec la ligne de meilleur ajustement aux données StudySmarter.Figure 2. Diagramme de dispersion avec la ligne de meilleur ajustement aux données

    À l'aide de cette équation, tu peux prédire le nombre de SMS qu'un jeune de 25 ans enverra. Alors :

    \[\hat{y}=-1.47(25)+57.1=20.35\]

    c'est-à-dire qu'une personne âgée de 25 ans enverrait 20,35 messages texte.

    La ligne de régression linéaire ne doit être utilisée que pour prédire des valeurs qui se situent dans le domaine des valeurs \(x\) de l'échantillon. Sinon, dans l'exemple des messages texte, tu pourrais conclure à tort qu'une personne de 1 an envoie 55 messages texte !

    Exemple de régression linéaire

    Voyons un exemple où les valeurs aberrantes peuvent modifier la ligne de régression.

    Les diagrammes de dispersion suivants montrent les notes obtenues par \(20\) étudiants dans un examen de calcul et les heures d'étude consacrées.

    Dans la première image, la régression linéaire a été effectuée avec toutes les données, tandis que dans la deuxième image, les valeurs aberrantes ont été omises, c'est-à-dire que l'étudiant qui a étudié \(15\) minutes et a obtenu \(95\) et l'étudiant qui a étudié \(6\) heures et a obtenu \(60\) ont été omis.

    Régression linéaire Diagramme de dispersion des notes obtenues en fonction des heures d'étude avec la ligne de régression calculée à l'aide de toutes les données StudySmarterFigure 3. Un nuage de points avec la droite \(\hat{y}=3.49x+66.1\)

    Régression linéaire Le diagramme de dispersion des notes obtenues par rapport aux heures d'étude avec la ligne de régression calculée sans tenir compte des valeurs aberrantes StudySmarterFigure 4. Diagramme de dispersion avec la droite \(\hat{y}=7,82+51,9\)

    Quelle est la droite qui correspond le mieux aux données ?

    Solution :

    Note que dans la première image, à cause des valeurs aberrantes, de nombreuses données étaient très éloignées de la droite de régression. Alors que dans la deuxième image, en ne tenant pas compte des valeurs aberrantes, les données sont plus proches de la droite de régression.

    Par conséquent, la deuxième ligne correspond mieux aux données.

    Régression linéaire multiple

    La régression linéaire multiple est utilisée pour estimer la relation entre une variable dépendante et deux variables indépendantes ou plus.

    Par exemple, on sait que le coût d'une maison dépend de sa taille, mais il peut aussi dépendre des mètres carrés de construction, de l'âge de la propriété. Dans ce cas, la variable dépendante est le coût de la maison, tandis que les variables indépendantes sont la taille, les mètres carrés de construction et l'âge de la propriété.

    Pour ces cas, tu peux aussi appliquer la régression, mais comme la procédure est similaire, ce sujet ne sera pas abordé dans cet article.

    Régression linéaire - Principaux enseignements

    • La régression linéaire te permet de prédire des données que tu ne connais pas à partir du comportement de données que tu connais.
    • La ligne d'ajustement optimale est la ligne de régression des moindres carrés.
    • La droite de régression des moindres carrés est donnée par \[\hat{y}=a+bx,\] où \[b=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{\sum(x-\mu_{x})^2},\text{ et }\,a=\mu_{y}-b\mu_{x}].
    • Le coefficient de corrélation mesure la linéarité de la relation entre deux variables.
    • Le coefficient de corrélation est donné par \[r=\frac{\sum z_xz_y}{n-1},\] où\[z_x=\frac{x-\mu_{x}}{s_x}\\N- et }\, z_y=\frac{y-\mu_{y}}{s_y}\N].
    Questions fréquemment posées en Régression linéaire
    Qu'est-ce que la régression linéaire?
    La régression linéaire est une méthode statistique utilisée pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
    À quoi sert la régression linéaire?
    La régression linéaire sert à prédire les valeurs d'une variable dépendante basées sur les valeurs de variables indépendantes.
    Comment interpréter les coefficients dans une régression linéaire?
    Les coefficients indiquent l'ampleur et la direction de l'impact des variables indépendantes sur la variable dépendante.
    Quelle est la différence entre régression linéaire simple et multiple?
    La régression linéaire simple utilise une seule variable indépendante, tandis que la multiple en utilise plusieurs.

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 10 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    Obtiens un accès illimité avec un compte StudySmarter gratuit.

    • Accès instantané à des millions de pièces de contenu.
    • Fiches de révision, notes, examens blancs, IA et plus encore.
    • Tout ce dont tu as besoin pour réussir tes examens.
    Second Popup Banner