La somme des carrés des résidus

Suppose que tu penses que la taille d'un chien peut être prédite par son poids. Comment pourrais-tu savoir s'il y a vraiment une relation entre les deux ? Une façon de procéder serait de choisir un échantillon aléatoire de chiens, de recueillir leurs poids et leurs tailles, puis de représenter tes données sous forme de graphique. S'il y a une relation, elle doit apparaître sur le graphique, n'est-ce pas ? Mais même s'il semble y avoir une relation linéaire, comment peux-tu en être sûr ? Le principe de la régression des moindres carrés, également connu sous le nom de somme résiduelle des carrés, peut t'aider à déterminer dans quelle mesure le poids d'un chien permet de prédire sa taille.

La somme des carrés des résidus La somme des carrés des résidus

Crée des supports d'apprentissage sur La somme des carrés des résidus avec notre appli gratuite!

  • Accès instantané à des millions de pièces de contenu
  • Fiches de révision, notes, examens blancs et plus encore
  • Tout ce dont tu as besoin pour réussir tes examens
Inscris-toi gratuitement
Tables des matières
Table des mateères

    Somme résiduelle des carrés régression linéaire

    Poursuivons avec l'exemple de l'utilisation du poids d'un chien à l'âge adulte pour prédire sa taille. Tu as procédé à un échantillonnage aléatoire et tu as fait de ton mieux pour t'assurer que ton échantillon est représentatif de l'ensemble de la population des chiens adultes. Les informations que tu as recueillies se trouvent dans le tableau ci-dessous, où le poids est exprimé en livres et la taille en pouces.

    Tableau 1 - Poids (en livres) et taille (en pouces) des chiens

    Poids

    Taille

    Poids

    Taille

    Poids

    Taille

    \(10\)

    \(10\)

    \(75\)

    \(23\)

    \(12\)

    \(12\)

    \(63\)

    \(25\)

    \(80\)

    \(25\)

    \(45\)

    \(22\)

    \(60\)

    \(23\)

    \(20\)

    \(15\)

    \(50\)

    \(18\)

    \(100\)

    \(26\)

    \(46\)

    \(24\)

    \(36\)

    \(17\)

    \(6\)

    \(12\)

    \(62\)

    \(23\)

    \(95\)

    \(27\)

    \(48\)

    \(20\)

    \(45\)

    \(18\)

    \(34\)

    \(24\)

    \(40\)

    \(19\)

    \(32\)

    \(17\)

    \(57\)

    \(21\)

    \(50\)

    \(21\)

    \(19\)

    \(10\)

    \(37\)

    \(23\)

    La première chose à faire est d'établir un diagramme de dispersion.

    Diagramme de dispersion de la régression des moindres carrés des données du tableau StudySmarterFig. 1 - Diagramme de dispersion des données du tableau des poids et tailles des chiens.

    Ensuite, tu dois vérifier s'il y a des points inhabituels dans les données.

    Points de données inhabituels

    Examinons les types de points inhabituels que tu pourrais voir et qui affecteraient ton analyse de régression linéaire.

    Valeurs aberrantes

    Rappelle-toi qu'une valeuraberrante est un point de données qui se trouve à une distance anormale des autres points de l'échantillon. En d'autres termes, la variable de réponse (dans ce cas, la hauteur du chien) ne suit pas la tendance générale des autres données. Qui décide quels points sont aberrants ? La personne qui observe les données, bien sûr ! Dans le diagramme de dispersion des données ci-dessus, tu peux voir qu'il ne semble pas y avoir de véritables valeurs aberrantes dans les données.

    Points à fort effet de levier

    Qu'est-ce qui fait qu'un point de données de ton échantillon est un point à fort effet de levier ?

    Unpoint de levier élevé est un point qui présente une distance inhabituellement grande entre lui et la moyenne.

    Un point de levier élevé peut se situer au-dessus ou au-dessous de la moyenne. Les points de ce type peuvent avoir un effet important sur la régression linéaire.

    Points d'influence

    L'influence est un moyen de mesurer l'impact d'une valeur aberrante ou d'un point à fort effet de levier sur ton modèle de régression.

    Un point est considéré comme influent s'il influence indûment une partie de ton analyse de régression, comme la ligne de meilleur ajustement.

    Bien que les valeurs aberrantes et les points à fort effet de levier puissent être des points influents, ils ne le sont pas toujours. Pour savoir si une valeur aberrante ou un point à fort effet de levier est réellement influent, tu dois le retirer de l'ensemble des données, recalculer la régression linéaire, puis voir dans quelle mesure il a changé. La meilleure façon de vérifier est de voir si la valeur de \(R^2\) a changé.

    Pour un rappel sur la valeur \(R^2\), voir les articles Régression linéaire et Résidus.

    Interprétation géométrique de la somme des carrés résiduels

    Une fois que tu as réalisé un nuage de points des données, tu peux vérifier s'il a l'air linéaire. Dans ce cas, il pourrait l'être, mais la question est de savoir comment tracer la ligne. Comme tu peux le voir dans l'image ci-dessous, n'importe laquelle des trois lignes tracées semble correspondre assez bien aux données.

    Régression des moindres carrés Diagramme de dispersion montrant trois lignes potentielles à travers les données StudySmarterFig. 2 - Diagramme de dispersion montrant trois lignes potentielles à travers les données.

    Qu'est-ce qui fait d'une ligne la "meilleure" ligne ? Tu veux une ligne qui soit aussi proche que possible du plus grand nombre de points de données de l'échantillon. Pour cela, tu dois examiner l'écart , également appelé résidu. Le résidu d'un point de données est simplement la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement.

    Diagramme de dispersion de la régression des moindres carrés montrant l'écart de deux points par rapport à la ligne, l'un au-dessus de la ligne et l'autre en dessous StudySmarter.Fig. 3 - Diagramme de dispersion montrant l'écart de deux des points de données.

    Un résidu négatif signifie que le point se trouve sous la ligne, et un résidu positif signifie que le point se trouve au-dessus de la ligne. Si un point se trouve exactement sur la ligne, le résidu est égal à zéro. Comme le résidu peut être positif ou négatif, il est courant d'examiner le carré du résidu pour éviter que les choses ne s'annulent accidentellement.

    Définition de la somme des carrés résiduels

    Examinons la définition de la somme résiduelle des carrés. Tu remarqueras qu'elle peut être définie pour n'importe quelle droite \(y=a+bx\), et pas seulement pour la droite de meilleur ajustement.

    Pour \(n\) points de données,

    \N[(x_1, y_1), (x_2, y_2), \Npoints (x_n, y_n),\N]

    Une façon de mesurer l'ajustement d'une droite (y=bx+a) à des données bivariées est lasomme des résidus quadratiques à l'aide de la formule .

    \[\sum\limites_{i=1}^n (y_i - (a+bx_i))^2.\N- \N- \N- \N- \N- \N- \N- \N- \N- \N].

    L'objectif est de rendre la somme des résidus au carré aussi petite que possible.

    Pour savoir pourquoi la somme des carrés résiduels est la meilleure façon de procéder, consulte l'article Minimiser la somme des carrés résiduels.

    Tu peux voir le résidu au point \((x_i,y_i)\) écrit sous la forme \(\epsilon_i\).

    Formule pour la somme des carrés résiduels

    Tu peux maintenant définir la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés.

    Laligne de régression des moindres carrés est la ligne qui minimise la somme des écarts quadratiques par rapport aux données de l'échantillon.

    Tu dois encore trouver un moyen de trouver la droite de régression des moindres carrés ! Heureusement, d'autres personnes ont fait tous les calculs pour trouver la pente et l'ordonnée à l'origine de la droite. La notation des formules est la suivante :

    • \(n\) nombre de points d'échantillonnage ;

    • \(\bar{x}\) la moyenne des valeurs \(x_i\) ; et

    • \(\bar{y}\) la moyenne des valeurs \(y_i\).

    La pente de la ligne de régression des moindres carrés est la suivante

    \[ b = \frac{\sum\limites_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ \sum\limites_{i=1}^n(x_i - \bar{x})^2 } = \frac{S_{xy}}{S_{xx}} ,\]

    l'ordonnée à l'origine est

    \N[ a = \Nbar{y} - b\Nbar{x},\N]

    et l'équation de la droite de régression des moindres carrés est

    \[ \hat{y} = a+bx,\]

    où \(\hat{y}\) est la valeur prédite qui résulte de la substitution d'un \(x\) donné dans l'équation.

    \(S_{xx}\) et \(S_{xy}\) sont appelées statistiques sommaires, et leurs formules peuvent apparaître en fonction des outils d'apprentissage que tu utilises.

    Prenons un exemple.

    Revenons au tableau des poids et des tailles des chiens. La variable dépendante est la taille (ce sont les valeurs \(y_i\)) et la variable indépendante est le poids (ce sont les valeurs \(x_i\)). Il y a \(24\) points de données dans le tableau, donc \(n=24\). Tu peux calculer

    • \N( \Nbar{x} = 46.75\N) et
    • \N(\Nbar{y} = 19,79\N),

    arrondis à deux décimales. En général, tu utiliseras un tableur ou une calculatrice pour trouver les valeurs de \(b\) et \(a\), surtout lorsqu'il y a beaucoup de points de données ! Ici

    • \N( a =11.69\N) et
    • \(b = 0.17\),

    où les deux valeurs ont été arrondies à deux décimales. L'équation de la droite de régression des moindres carrés est donc la suivante

    \N[ \Nqui{y} = 11,69 + 0,17x.\N]

    Régression des moindres carrés diagramme de dispersion des données montrant la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés StudySmarterFig. 4 - Diagramme de dispersion avec la ligne de meilleur ajustement, également connue sous le nom de ligne de régression des moindres carrés.

    Maintenant que tu as une formule pour la droite, tu peux trouver l'écart résiduel de la somme des carrés pour cette droite. Utilise la formule,

    \[\sum\limites_{i=1}^24 (y_i - (a+bx_i))^2 \approx 160.58.\]

    En fait, la valeur de R^2, également connue sous le nom de coefficient de détermination, est d'environ R^2 = 0,73, soit 73%.

    Cherchons maintenant les points influents.

    Pour revenir au tableau des données,si tu regardes l'écart pour chaque point de l'échantillon, l'un d'entre eux semble contribuer beaucoup plus que les autres à l'écart de la somme des carrés. Ce point de données est \N( (37, 23)\N) avec un écart de presque \N(24\N). C'est beaucoup plus que n'importe quel autre point de l'échantillon, le plus élevé étant inférieur à \(12\). Cela implique que le point de données \N( (37, 23)\N) est un point à fort effet de levier, mais tu dois montrer s'il s'agit ou non d'un point influent.

    Il se peut que \( (37, 23)\) soit un point influent. Si tu retires ce point de l'échantillon et que tu calcules la nouvelle valeur de \(R^2\), tu obtiens environ \(0,77\), ou \(77\%\), avec une droite de régression des moindres carrés de \(0,77\).

    \N[\Nqui{y} = 11,31 + 0,18x,\N] et un écart résiduel de la somme des carrés de \N(135,36\N).

    Rappelle-toi que le coefficient de détermination, \(R^2\), est une mesure de la variabilité de \(y\) qui peut être expliquée par une relation linéaire entre \(x\) et \(y\). Plus \(1\) est proche de \(R^2\), plus les données de ton échantillon sont linéaires. Ainsi, en supprimant un point de l'ensemble des données, tu as modifié la valeur de \(R^2\) de \(73\%) à \(77\%), ce qui est un grand changement ! Cela signifie que le point de données \N( (37, 23)\N) est en fait un point influent.

    Rappelle-toi que la variabilité peut être réduite en augmentant la taille de l'échantillon. Voir Estimations ponctuelles non biaisées pour plus d'informations.

    Une fois que tu as obtenu la droite de régression des moindres carrés, que peux-tu en faire ?

    Exemples de sommes des carrés résiduels

    Il y a quelques éléments importants à prendre en compte lorsque tu utilises la droite de régression des moindres carrés pour faire une prédiction.

    • La droite de régression des moindres carrés est un prédicteur de la population, pas d'un individu.

    • L'utilisation de la droite de régression des moindres carrés pour faire une prédiction pour une valeur en dehors de la plage des données collectées risque de ne pas très bien fonctionner.

    Voyons un exemple du type de problèmes qui peuvent survenir lorsque ces considérations sont ignorées.

    Régression des moindres carrés Les bouledogues sont très lourds compte tenu de leur petite taille StudySmarterFig. 5 - Les bouledogues sont un exemple de la raison pour laquelle tu ne peux pas nécessairement faire une prédiction sur un individu à partir d'une ligne de régression des moindres carrés.

    Reprends les informations sur le poids et la taille du chien et utilise la droite de régression des moindres carrés

    \N- [\N- \Nqui{y} = 11,31 + 0,18x,\N]

    que peux-tu prédire sur la taille d'un bouledogue qui pèse \(65\) livres ?

    Réponse :

    En introduisant simplement le poids du bouledogue, tu obtiens

    \[\hat{y} = 11.31 + 0.18(65) = 23.01,\]

    La ligne de régression des moindres carrés prédit donc que le bouledogue devrait mesurer \(23,01\) pouces. Cependant, un bouledogue de ce poids mesurera en réalité environ \(15\) pouces, ce qui est une sacrée différence ! C'est un exemple de la raison pour laquelle tu peux utiliser la ligne de régression des moindres carrés pour faire une prédiction sur les chiens en général (c'est-à-dire la population de chiens) et non sur des chiens en particulier.

    Qu'en est-il d'un chien dont le poids est supérieur à \(100\) livres ?

    Régression des moindres carrés Les chiens de type bull mastiff sont un pour une piscine de la taille d'un enfant StudySmarterFig. 6 - Les mâtins de taureau sont définitivement faits pour une pataugeoire de la taille d'un enfant !

    Un mâle bull mastiff peut facilement peser plus de 100 kilos. Ce poids se situe en dehors de la fourchette des données recueillies dans le tableau. Lorsque tu utilises la ligne de régression des moindres carrés pour faire une prédiction, tu découvres qu'un mâle bull mastiff devrait peser

    \N- [\N- ce qui{y} = 11,31 + 0,18(130) = 34,71 \N, \Ntext{in},\N]

    grand. Cependant, en général, ce chien ne mesurera pas plus de \(27\) pouces, ce qui est considérablement moins que ce que prédit la ligne de régression des moindres carrés ! Cela s'explique par le fait que le poids du chien est très éloigné des données recueillies, et que laligne de régression des moindres carrés n'est donc pas un très bon indicateur.

    Somme résiduelle des carrés - Principaux enseignements

    • Le résidu d'un point de données est la distance qui sépare le point de données de la ligne potentielle de meilleur ajustement. L'écart peut être positif ou négatif.
    • Pour les points de données \(n\),

      \N[(x_1, y_1), (x_2, y_2), \Npoints (x_n, y_n),\N]

      Une façon de mesurer l'ajustement d'une droite (y=mx+b\) à des données bivariées est la somme résiduelle des écarts quadratiques à l'aide de la formule suivante

      \[\sum\limites_{i=1}^n (y_i - (a+bx_i))^2.\N- \N- \N- \N- \N- \N- \N- \N- \N- \N].

    • La droite de régression des moindres carrés est la droite qui minimise la somme des carrés résiduels.
    • La pente de la droite de régression des moindres carrés est la suivante

      \[ \N- b &=\frac{S_{xy}}{S_{xx}} \N- & = \Nfrac{S_{xy}}{S_{xx}} \\ & = \frac{\sum\limites_{i=1}^n(x_i - \bar{x})(y_i - \bar{y})}{ \sum\limites_{i=1}^n(x_i - \bar{x})^2 }, \end{align}\]

      l'ordonnée à l'origine est

      \N[ a = \Nbar{y} - b\Nbar{x},\N]

      et l'équation de la droite de régression des moindres carrés est

      \[ \hat{y} = a+bx,\]

      où \(\hat{y}\) est la valeur prédite qui résulte de la substitution d'un \(x\) donné dans l'équation.

    Questions fréquemment posées en La somme des carrés des résidus
    Qu'est-ce que la somme des carrés des résidus?
    La somme des carrés des résidus est une mesure de la dispersion des points de données autour d'une ligne de régression.
    Pourquoi utilise-t-on la somme des carrés des résidus?
    On utilise la somme des carrés des résidus pour évaluer la précision d'un modèle prédictif en quantifiant l'erreur totale.
    Comment calcule-t-on la somme des carrés des résidus?
    On calcule la somme des carrés des résidus en additionnant les carrés des écarts entre les valeurs observées et les valeurs prédites.
    Quelle est l'importance de minimiser la somme des carrés des résidus?
    Minimiser la somme des carrés des résidus améliore l'ajustement du modèle de régression et augmente sa précision.

    Teste tes connaissances avec des questions à choix multiples

    Vrai ou faux : Plus \(1\) est proche de \(R^2\), plus les données de ton échantillon sont linéaires.

    Vrai ou faux : Le coefficient de détermination, \(R^2\), est une mesure de la variabilité de \(y\) qui peut être expliquée par une relation linéaire entre \(x\) et \(y\).

    Vrai ou faux : la droite de régression des moindres carrés est le seul moyen de faire une prédiction sur une population.

    Suivant

    Découvre des matériels d'apprentissage avec l'application gratuite StudySmarter

    Lance-toi dans tes études
    1
    À propos de StudySmarter

    StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.

    En savoir plus
    Équipe éditoriale StudySmarter

    Équipe enseignants Mathématiques

    • Temps de lecture: 14 minutes
    • Vérifié par l'équipe éditoriale StudySmarter
    Sauvegarder l'explication

    Sauvegarder l'explication

    Inscris-toi gratuitement

    Inscris-toi gratuitement et commence à réviser !

    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    La première appli d'apprentissage qui a réunit vraiment tout ce dont tu as besoin pour réussir tes examens.

    • Fiches & Quiz
    • Assistant virtuel basé sur l’IA
    • Planificateur d'étude
    • Examens blancs
    • Prise de notes intelligente
    Rejoins plus de 22 millions d'étudiants qui apprennent avec notre appli StudySmarter !

    Obtiens un accès illimité avec un compte StudySmarter gratuit.

    • Accès instantané à des millions de pièces de contenu.
    • Fiches de révision, notes, examens blancs, IA et plus encore.
    • Tout ce dont tu as besoin pour réussir tes examens.
    Second Popup Banner