Tu es maintenant prêt à appliquer cette méthode à une éventuelle question d'examen.
Le nombre d'heures étudiées par les élèves et leurs résultats à l'examen sont consignés dans le tableau ci-dessous.
Temps d'étude en heures | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
Résultat de l'examen | \(49\) | \(81\) | \(71\) | \(83\) | \(99\) |
a. Calcule \(S_{xy}\) et \(S_{xx}\).
b. Trouve la droite de régression de \(y\) sur \(x\).
c. Reporte les points de données et la ligne de régression sur le même graphique.
d. Interprète la signification de \(a=10.2\) et \(b=46\) dans le contexte de la question.
e. Prédis la note d'un élève qui étudie pendant
i) 2,5 heures
ii) \N(8\N) heures.
f. Commente tes réponses pour la partie e).
Solution
a. À l'aide de ta calculatrice, tu peux facilement trouver les résultats suivants,
\(\sum x=15\) \(\sum x^2=55\) \(\bar{x}=3\) \(\sum xy=1,251\) \(\sum y=383\) \(\sum y^2=30,693\) \(\bar{y}=76.6\).
Il suffit d'insérer ces résultats dans les formules détaillées ci-dessus pour obtenir les statistiques récapitulatives.
\N-( \Nbegin{align}) S_{xx} &=\sum x^2 - \dfrac{(\sum x)^2}{n} \N&= 55 - \Ndfrac{15^2}{5} \\&= 10. \N-{align}\N-{align}})
\N-( \N- début{align}) S_{xy} &= \sum xy - \dfrac{\sum x \sum y}{n}\&= 1251 - \dfrac{15 \times 383}{5} \\&= 102. \NFin{align}\N)
b. En commençant par \(a\), le gradient de la ligne,
\[a=\dfrac{S_{xy}}{S_{xx}}=\frac{102}{10}=10.2.\]
L'ordonnée à l'origine est donc
\(b=\bar{y}-a\bar{x}=76.6-10.2 fois 3=46\).
Par conséquent, la ligne de régression est \N(y=10.2x+46\N).
c. C'est une excellente question pour revérifier ton travail - il sera évident que tu as fait de graves erreurs de calcul !
Exemple de droite de régression des moindres carrés
d. Puisque \(a=10,2\), pour chaque heure supplémentaire sur l'axe \(x\), l'élève obtient \(10,2\) points de plus à l'examen.
Puisque \(b=46\), si un élève n'étudiait pas du tout, il obtiendrait quand même (selon la ligne de régression) 46 points.
e. Saisis simplement les chiffres ci-dessus pour \(x\).
i) Si \(x=2,5\), \(y=10,2\ fois 2,5+46=71,5\).
ii) Si \(x=8\N), \N(y=10,2\Nfois 8+46=127,6\N).
f. Il y a un problème fondamental pour la partie ii) : puisque les examens sont notés en pourcentage, la note \(127,6\N) n'existe pas ! En réalité, pour tout laps de temps supérieur à 5 heures, les données ne contiennent aucune information sur ce qu'il advient des notes des élèves.
Bien que tu puisses déduire que pour toute durée supérieure à 5 heures, 100 % serait une bonne prédiction, cela dépasse la portée des données et du modèle de régression linéaire.
Tu dois garder à l'esprit que l'utilisation d'une droite de régression ne doit jamais servir à prédire les valeurs qui se situent dans l'intervalle des données à partir desquelles tu déduis cette droite de régression, c'est-à-dire l'interpolation.
Si tu essayes de faire des prédictions en dehors de cette plage, cela s'appelle une extrapolation et c'est moins fiable car les données peuvent se comporter différemment.
Le plus difficile dans ce sujet est de s'assurer que tu entres les bons chiffres dans ta calculatrice ! Assure-toi de revérifier tes calculs lors de l'examen afin de ne pas perdre des points faciles.