Sauter à un chapitre clé
Maintenant, si tu as deux ensembles de nombres qui peuvent être liés, comment peux-tu trouver l'équation qui les relie ? Si tu penses que la relation est linéaire, tu peux utiliser la régression linéaire.
Dans cet article, tu comprendras ce qu'est la régression linéaire, quel est le modèle de régression linéaire, quelle est l'équation de régression linéaire et quelles sont les hypothèses à prendre en compte.
Introduction à la régression linéaire
Rappelle que l'équation d'une ligne droite est donnée par \N[y=a+bx,\N] où \N(b\N) est appelé la pente de la ligne et \N(a\N) est appelé l'ordonnée à l'origine (la valeur de \N(y\N) où la ligne croise l'axe \N(y\N)).
Comme nous l'avons mentionné plus haut, certaines quantités sont liées à d'autres de façon linéaire. Par exemple, le prix des mangues. Aux États-Unis, le prix d'un kilogramme de mangue est d'environ 1,80 $ ; le prix de 2 kilogrammes est donc de 3,60 $. Ainsi, la relation entre le prix et le poids de la mangue est donnée par l'équation \[y=1,80x,\]
où \(x\) est le nombre de kilogrammes (la variable indépendante) et \(y\) est le prix (la variable dépendante).
Supposons maintenant que tu t'intéresses à l'addiction des gens aux téléphones portables. Dans ton cours d'arts plastiques de l'après-midi, tu as demandé à \(5\) personnes combien de messages texte elles avaient envoyés pendant la durée du cours, et tu as obtenu les informations suivantes.
Âge | Nombre de SMS envoyés |
\(17\) | \(35\) |
\(18\) | \(27\) |
\(20\) | \(29\) |
\(22\) | \(23\) |
\(27\) | \(18\) |
Tableau 1. Données sur l'âge et le nombre de messages texte.
Existe-t-il une relation entre l'âge d'une personne et le nombre de SMS qu'elle envoie ? Cette relation est-elle linéaire ? Comment puis-je trouver l'équation qui les relie ?
Définition de la régression linéaire
Avant de définir ce qu'est la régression linéaire, examinons le diagramme de dispersion suivant qui montre la distribution des données obtenues dans l'exemple des textos.
Au premier coup d'œil, tu peux voir que tu peux tracer plusieurs lignes qui peuvent approximer le comportement des points.
Larégression linéaire est une technique statistique qui consiste à trouver la meilleure droite qui décrit la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
Le modèle le plus couramment utilisé est la droite de régression dite des moindres carrés.
Avec la régression linéaire, tu peux faire une prédiction des données que tu ne connais pas, à partir du comportement des données que tu as obtenues dans l'échantillonnage.
Coefficient de corrélation
Une façon de savoir si deux ensembles de données sont linéairement liés est de regarder le diagramme de dispersion. L'autre consiste à calculer le coefficient de corrélation de Pearson ou coefficient de corrélation.
Soit \(x\) et \(y\) respectivement la variable indépendante et la variable dépendante. Si \(\mu_{x}\) et \(s_x\) sont la moyenne et l'écart-type de l'échantillon de \(x\) et \(\mu_{y}\) et \(s_y\) sont la moyenne et l'écart-type de l'échantillon de \(y\).
Ensuite, si l'échantillon a une taille de \(n\), le coefficient de corrélation est calculé par :
\[r=\frac{\sum z_xz_y}{n-1
où
\[z_x=\frac{x-\mu_{x}}{s_x},\text{ and }\, z_y=\frac{y-\mu_{y}}{s_y}\]
Pour calculer le coefficient de corrélation pour l'exemple des messages texte, prenons \(x\N) comme variable représentant l'âge (la variable indépendante), et \N(y\N) comme variable représentant le nombre de messages texte (la variable dépendante).
Alors \(\mu_{x}=20.8\) et \(s_x=3.96\) sont la moyenne et l'écart type de l'échantillon pour l'âge, et \(\mu_{y}=26.4\) et \(s_y=6.39\) sont la moyenne et l'écart type de l'échantillon pour le nombre de messages texte.
Le coefficient de corrélation est donc :
\[\begin{align} r&=\frac{(-0.96)(1.35)+(-0.7)(0.09)+(-0.20)(0.41)+(0.3)(-0.53)+(1.56)(-1.31)}{4} \\&=-0.91\end{align}\]
Relis nos articles sur la moyenne de l'échantillon, l'écart type et le score \(z\)- pour te souvenir de ces sujets !
Propriétés du coefficient de corrélation
1. Le coefficient de corrélation prend des valeurs comprises entre \(-1\) et \(1\).
2. Si \(|r|=1\), la relation entre la variable \(x\) et \(y\) est complètement linéaire.
3. Si \r=0\r, il n'y a pas de relation linéaire entre \r(x\r) et \r(y\r).
4. Si \(r>0\), lorsque \(x\) augmente, \(y\) a tendance à augmenter et lorsque \(x\) diminue, \(y\) a tendance à diminuer (également appelée corrélation positive).
5. Si \(r<0\), alors lorsque \(x\) augmente, \(y\) a tendance à diminuer et lorsque \(x\) diminue, \(y\) a tendance à augmenter (aussi appelée corrélation négative).
❗❗ La corrélation n'implique pas la causalité.
Hypothèses pour la régression linéaire
Pour appliquer la régression linéaire, tu dois d'abord vérifier les conditions suivantes :
1. Condition relative aux variables quantitatives: La corrélation ne s'applique que si les deux variables sont quantitatives.
2. Condition de linéarité suffisante: Regarde le diagramme de dispersion et assure-toi que tes données ont une relation approximativement linéaire. La corrélation ne mesure que la force d'une association linéaire.
3. Condition de valeurs aberrantes: Les valeurs aberrantes peuvent ruiner la corrélation. En présence de valeurs aberrantes, il est préférable de calculer une corrélation incluant les valeurs aberrantes et une autre excluant les valeurs aberrantes.
Modèle de régression linéaire
La ligne de régression n'est pas parfaite. Elle ne passe pas par tous les points, certains points seront au-dessus et d'autres en dessous, mais c'est la meilleure dans le sens où la somme des carrés des résidus (voir l'article Résidus pour plus d'informations) est la plus petite possible.
Les calculs pour trouver la droite de régression sont souvent fastidieux et prennent du temps, c'est pourquoi il existe des logiciels statistiques et des calculatrices graphiques que tu peux utiliser pour t'aider à faire les calculs.
Équation de la régression linéaire
La droite de meilleur ajustement est appelée droite de régression des moindres carrés.
L'équation de la droite de régression des moindres carrés est donnée par :
\[\hat{y}=a+bx,\] où \[b=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{\sum(x-\mu_{x})^2},\text{ et }\hat{y}=\mu{y}-b\mu_{x}\].
Dans l'équation de la ligne précédente, la valeur \(\hat{y}\) est la valeur prédite de \(y\) qui résulte de la substitution d'une valeur particulière \(x\) dans l'équation. Puisque \(\hat{y}\) n'est qu'une prédiction, la différence entre la valeur \(\hat{y}\) et la valeur réelle de \(y\) est appelée résidu et est donnée par :
\[\varepsilon=y-\hat{y}\]
Pour l'exemple des messages texte, l'équation de la droite de régression des moindres carrés est donnée par :
\[\hat{y}=-1.47x+57.1\]
À l'aide de cette équation, tu peux prédire le nombre de SMS qu'un jeune de 25 ans enverra. Alors :
\[\hat{y}=-1.47(25)+57.1=20.35\]
c'est-à-dire qu'une personne âgée de 25 ans enverrait 20,35 messages texte.
La ligne de régression linéaire ne doit être utilisée que pour prédire des valeurs qui se situent dans le domaine des valeurs \(x\) de l'échantillon. Sinon, dans l'exemple des messages texte, tu pourrais conclure à tort qu'une personne de 1 an envoie 55 messages texte !
Exemple de régression linéaire
Voyons un exemple où les valeurs aberrantes peuvent modifier la ligne de régression.
Les diagrammes de dispersion suivants montrent les notes obtenues par \(20\) étudiants dans un examen de calcul et les heures d'étude consacrées.
Dans la première image, la régression linéaire a été effectuée avec toutes les données, tandis que dans la deuxième image, les valeurs aberrantes ont été omises, c'est-à-dire que l'étudiant qui a étudié \(15\) minutes et a obtenu \(95\) et l'étudiant qui a étudié \(6\) heures et a obtenu \(60\) ont été omis.
Quelle est la droite qui correspond le mieux aux données ?
Solution :
Note que dans la première image, à cause des valeurs aberrantes, de nombreuses données étaient très éloignées de la droite de régression. Alors que dans la deuxième image, en ne tenant pas compte des valeurs aberrantes, les données sont plus proches de la droite de régression.
Par conséquent, la deuxième ligne correspond mieux aux données.
Régression linéaire multiple
La régression linéaire multiple est utilisée pour estimer la relation entre une variable dépendante et deux variables indépendantes ou plus.
Par exemple, on sait que le coût d'une maison dépend de sa taille, mais il peut aussi dépendre des mètres carrés de construction, de l'âge de la propriété. Dans ce cas, la variable dépendante est le coût de la maison, tandis que les variables indépendantes sont la taille, les mètres carrés de construction et l'âge de la propriété.
Pour ces cas, tu peux aussi appliquer la régression, mais comme la procédure est similaire, ce sujet ne sera pas abordé dans cet article.
Régression linéaire - Principaux enseignements
- La régression linéaire te permet de prédire des données que tu ne connais pas à partir du comportement de données que tu connais.
- La ligne d'ajustement optimale est la ligne de régression des moindres carrés.
- La droite de régression des moindres carrés est donnée par \[\hat{y}=a+bx,\] où \[b=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{\sum(x-\mu_{x})^2},\text{ et }\,a=\mu_{y}-b\mu_{x}].
- Le coefficient de corrélation mesure la linéarité de la relation entre deux variables.
- Le coefficient de corrélation est donné par \[r=\frac{\sum z_xz_y}{n-1},\] où\[z_x=\frac{x-\mu_{x}}{s_x}\\N- et }\, z_y=\frac{y-\mu_{y}}{s_y}\N].
Apprends avec 3 fiches de Régression linéaire dans l'application gratuite StudySmarter
Tu as déjà un compte ? Connecte-toi
Questions fréquemment posées en Régression linéaire
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus