Suppose que tu penses que la taille d'un chien peut être prédite par son poids. Comment pourrais-tu savoir s'il y a vraiment une relation entre les deux ? Une façon de procéder serait de choisir un échantillon aléatoire de chiens, de recueillir leurs poids et leurs tailles, puis de représenter tes données sous forme de graphique. S'il y a une relation, elle doit apparaître sur le graphique, n'est-ce pas ? Mais même s'il semble y avoir une relation linéaire, comment peux-tu en être sûr ? Le principe de la régression des moindres carrés, également connu sous le nom de somme résiduelle des carrés, peut t'aider à déterminer dans quelle mesure le poids d'un chien permet de prédire sa taille.
Poursuivons avec l'exemple de l'utilisation du poids d'un chien à l'âge adulte pour prédire sa taille. Tu as procédé à un échantillonnage aléatoire et tu as fait de ton mieux pour t'assurer que ton échantillon est représentatif de l'ensemble de la population des chiens adultes. Les informations que tu as recueillies se trouvent dans le tableau ci-dessous, où le poids est exprimé en livres et la taille en pouces.
Tableau 1 - Poids (en livres) et taille (en pouces) des chiens
Poids
Taille
Poids
Taille
Poids
Taille
\(10\)
\(10\)
\(75\)
\(23\)
\(12\)
\(12\)
\(63\)
\(25\)
\(80\)
\(25\)
\(45\)
\(22\)
\(60\)
\(23\)
\(20\)
\(15\)
\(50\)
\(18\)
\(100\)
\(26\)
\(46\)
\(24\)
\(36\)
\(17\)
\(6\)
\(12\)
\(62\)
\(23\)
\(95\)
\(27\)
\(48\)
\(20\)
\(45\)
\(18\)
\(34\)
\(24\)
\(40\)
\(19\)
\(32\)
\(17\)
\(57\)
\(21\)
\(50\)
\(21\)
\(19\)
\(10\)
\(37\)
\(23\)
La première chose à faire est d'établir un diagramme de dispersion.
Fig. 1 - Diagramme de dispersion des données du tableau des poids et tailles des chiens.
Ensuite, tu dois vérifier s'il y a des points inhabituels dans les données.
Points de données inhabituels
Examinons les types de points inhabituels que tu pourrais voir et qui affecteraient ton analyse de régression linéaire.
Valeurs aberrantes
Rappelle-toi qu'une valeuraberrante est un point de données qui se trouve à une distance anormale des autres points de l'échantillon. En d'autres termes, la variable de réponse (dans ce cas, la hauteur du chien) ne suit pas la tendance générale des autres données. Qui décide quels points sont aberrants ? La personne qui observe les données, bien sûr ! Dans le diagramme de dispersion des données ci-dessus, tu peux voir qu'il ne semble pas y avoir de véritables valeurs aberrantes dans les données.
Points à fort effet de levier
Qu'est-ce qui fait qu'un point de données de ton échantillon est un point à fort effet de levier ?
Unpoint de levier élevé est un point qui présente une distance inhabituellement grande entre lui et la moyenne.
Un point de levier élevé peut se situer au-dessus ou au-dessous de la moyenne. Les points de ce type peuvent avoir un effet important sur la régression linéaire.
Points d'influence
L'influence est un moyen de mesurer l'impact d'une valeur aberrante ou d'un point à fort effet de levier sur ton modèle de régression.
Un point est considéré commeinfluents'il influence indûment une partie de ton analyse de régression, comme la ligne de meilleur ajustement.
Bien que les valeurs aberrantes et les points à fort effet de levier puissent être des points influents, ils ne le sont pas toujours. Pour savoir si une valeur aberrante ou un point à fort effet de levier est réellement influent, tu dois le retirer de l'ensemble des données, recalculer la régression linéaire, puis voir dans quelle mesure il a changé. La meilleure façon de vérifier est de voir si la valeur de \(R^2\) a changé.
Pour un rappel sur la valeur \(R^2\), voir les articles Régression linéaire et Résidus.
Interprétation géométrique de la somme des carrés résiduels
Une fois que tu as réalisé un nuage de points des données, tu peux vérifier s'il a l'air linéaire. Dans ce cas, il pourrait l'être, mais la question est de savoir comment tracer la ligne. Comme tu peux le voir dans l'image ci-dessous, n'importe laquelle des trois lignes tracées semble correspondre assez bien aux données.
Fig. 2 - Diagramme de dispersion montrant trois lignes potentielles à travers les données.
Qu'est-ce qui fait d'une ligne la "meilleure" ligne ? Tu veux une ligne qui soit aussi proche que possible du plus grand nombre de points de données de l'échantillon. Pour cela, tu dois examiner l'écart, également appelé résidu. Le résidu d'un point de données est simplement la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement.
Fig. 3 - Diagramme de dispersion montrant l'écart de deux des points de données.
Un résidu négatif signifie que le point se trouve sous la ligne, et un résidu positif signifie que le point se trouve au-dessus de la ligne. Si un point se trouve exactement sur la ligne, le résidu est égal à zéro. Comme le résidu peut être positif ou négatif, il est courant d'examiner le carré du résidu pour éviter que les choses ne s'annulent accidentellement.
Définition de la somme des carrés résiduels
Examinons la définition de la somme résiduelle des carrés. Tu remarqueras qu'elle peut être définie pour n'importe quelle droite \(y=a+bx\), et pas seulement pour la droite de meilleur ajustement.
L'objectif est de rendre la somme des résidus au carré aussi petite que possible.
Pour savoir pourquoi la somme des carrés résiduels est la meilleure façon de procéder, consulte l'article Minimiser la somme des carrés résiduels.
Tu peux voir le résidu au point \((x_i,y_i)\) écrit sous la forme \(\epsilon_i\).
Formule pour la somme des carrés résiduels
Tu peux maintenant définir la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés.
Laligne de régression des moindres carrés est la ligne qui minimise la somme des écarts quadratiques par rapport aux données de l'échantillon.
Tu dois encore trouver un moyen de trouver la droite de régression des moindres carrés ! Heureusement, d'autres personnes ont fait tous les calculs pour trouver la pente et l'ordonnée à l'origine de la droite. La notation des formules est la suivante :
\(n\) nombre de points d'échantillonnage ;
\(\bar{x}\) la moyenne des valeurs \(x_i\) ; et
\(\bar{y}\) la moyenne des valeurs \(y_i\).
La pente de la ligne de régression des moindres carrés est la suivante
et l'équation de la droite de régression des moindres carrés est
\[ \hat{y} = a+bx,\]
où \(\hat{y}\) est la valeur prédite qui résulte de la substitution d'un \(x\) donné dans l'équation.
\(S_{xx}\) et \(S_{xy}\) sont appelées statistiques sommaires, et leurs formules peuvent apparaître en fonction des outils d'apprentissage que tu utilises.
Prenons un exemple.
Revenons au tableau des poids et des tailles des chiens. La variable dépendante est la taille (ce sont les valeurs \(y_i\)) et la variable indépendante est le poids (ce sont les valeurs \(x_i\)). Il y a \(24\) points de données dans le tableau, donc \(n=24\). Tu peux calculer
\N( \Nbar{x} = 46.75\N) et
\N(\Nbar{y} = 19,79\N),
arrondis à deux décimales. En général, tu utiliseras un tableur ou une calculatrice pour trouver les valeurs de \(b\) et \(a\), surtout lorsqu'il y a beaucoup de points de données ! Ici
\N( a =11.69\N) et
\(b = 0.17\),
où les deux valeurs ont été arrondies à deux décimales. L'équation de la droite de régression des moindres carrés est donc la suivante
\N[ \Nqui{y} = 11,69 + 0,17x.\N]
Fig. 4 - Diagramme de dispersion avec la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés.
Maintenant que tu as une formule pour la droite, tu peux trouver l'écart résiduel de la somme des carrés pour cette droite. Utilise la formule,
En fait, la valeur de R^2, également connue sous le nom de coefficient de détermination, est d'environ R^2 = 0,73, soit 73%.
Cherchons maintenant les points influents.
Pour revenir au tableau des données,si tu regardes l'écart pour chaque point de l'échantillon, l'un d'entre eux semble contribuer beaucoup plus que les autres à l'écart de la somme des carrés. Ce point de données est \N( (37, 23)\N) avec un écart de presque \N(24\N). C'est beaucoup plus que n'importe quel autre point de l'échantillon, le plus élevé étant inférieur à \(12\). Cela implique que le point de données \N( (37, 23)\N)est un point à fort effet de levier, mais tu dois montrer s'il s'agit ou non d'un point influent.
Il se peut que \( (37, 23)\)soit un point influent. Si tu retires ce point de l'échantillon et que tu calcules la nouvelle valeur de \(R^2\), tu obtiens environ \(0,77\), ou \(77\%\), avec une droite de régression des moindres carrés de \(0,77\).
\N[\Nqui{y} = 11,31 + 0,18x,\N] et un écart résiduel de la somme des carrés de \N(135,36\N).
Rappelle-toi que le coefficient de détermination, \(R^2\), est une mesure de la variabilité de \(y\) qui peut être expliquée par une relation linéaire entre \(x\) et \(y\). Plus \(1\) est proche de \(R^2\), plus les données de ton échantillon sont linéaires. Ainsi, en supprimant un point de l'ensemble des données, tu as modifié la valeur de \(R^2\) de \(73\%)à \(77\%), ce qui est un grand changement ! Cela signifie que le point de données \N( (37, 23)\N)est en fait un point influent.
Rappelle-toi que la variabilité peut être réduite en augmentant la taille de l'échantillon. Voir Estimations ponctuelles non biaisées pour plus d'informations.
Une fois que tu as obtenu la droite de régression des moindres carrés, que peux-tu en faire ?
Exemples de sommes des carrés résiduels
Il y a quelques éléments importants à prendre en compte lorsque tu utilises la droite de régression des moindres carrés pour faire une prédiction.
La droite de régression des moindres carrés est un prédicteur de la population, pas d'un individu.
L'utilisation de la droite de régression des moindres carrés pour faire une prédiction pour une valeur en dehors de la plage des données collectées risque de ne pas très bien fonctionner.
Voyons un exemple du type de problèmes qui peuvent survenir lorsque ces considérations sont ignorées.
Fig. 5 - Les bouledogues sont un exemple de la raison pour laquelle tu ne peux pas nécessairement faire une prédiction sur un individu à partir d'une ligne de régression des moindres carrés.
Reprends les informations sur le poids et la taille du chien et utilise la droite de régression des moindres carrés
\N- [\N- \Nqui{y} = 11,31 + 0,18x,\N]
que peux-tu prédire sur la taille d'un bouledogue qui pèse \(65\) livres ?
Réponse :
En introduisant simplement le poids du bouledogue, tu obtiens
\[\hat{y} = 11.31 + 0.18(65) = 23.01,\]
La ligne de régression des moindres carrés prédit donc que le bouledogue devrait mesurer \(23,01\) pouces. Cependant, un bouledogue de ce poids mesurera en réalité environ \(15\) pouces, ce qui est une sacrée différence ! C'est un exemple de la raison pour laquelle tu peux utiliser la ligne de régression des moindres carrés pour faire une prédiction sur les chiens en général (c'est-à-dire la population de chiens) et non sur des chiens en particulier.
Qu'en est-il d'un chien dont le poids est supérieur à \(100\) livres ?
Fig. 6 - Les mâtins de taureau sont définitivement faits pour une pataugeoire de la taille d'un enfant !
Un mâle bull mastiff peut facilement peser plus de 100 kilos. Ce poids se situe en dehors de la fourchette des données recueillies dans le tableau. Lorsque tu utilises la ligne de régression des moindres carrés pour faire une prédiction, tu découvres qu'un mâle bull mastiff devrait peser
grand. Cependant, en général, ce chien ne mesurera pas plus de \(27\) pouces, ce qui est considérablement moins que ce que prédit la ligne de régression des moindres carrés ! Cela s'explique par le fait que le poids du chien est très éloigné des données recueillies, et que laligne de régression des moindres carrés n'est donc pas un très bon indicateur.
Somme résiduelle des carrés - Principaux enseignements
Le résidu d'un point de données est la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement. L'écart peut être positif ou négatif.
Une façon de mesurer l'ajustement d'une droite (y=mx+b\) à des données bivariées est la somme résiduelle des écarts quadratiques à l'aide de la formule suivante
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.