Supposons que tu veuilles savoir quelle est la taille moyenne d'un chien. Pour faire cela avec des statistiques et des intervalles de confiance, tu aurais généralement besoin de savoir quelque chose sur la variance des tailles des chiens dans leur ensemble. Mais en général, tu ne connais pas la variance de ta population, alors que faire ? Eh bien, tu pourrais augmenter la taille de ton échantillon, mais cela peut prendre du temps et de l'argent que tu n'as peut-être pas. Donc, si tu n'as qu'un petit échantillon et que tu ne connais pas la variance de la population, c'est la distribution \(t\) deStudent qui vient à la rescousse !
Tu connais peut-être la distribution normale comme une courbe en forme de cloche, mais ce n'est pas la seule distribution en forme de cloche qui existe !
Il existe de nombreuses autres distributions qui partagent cette forme, dont la distribution \(t\). Bien que ces deux distributions soient très similaires, elles sont utilisées dans des situations différentes.
Tu utiliserais une distribution normale si tu faisais un intervalle de confiance ou un test d'hypothèse où:
les populations sont normalement distribuées et ont une variance égale ;
la variance de la population est connue ; ou
la taille de l'échantillon est importante.
En revanche, tu utiliserais une distribution \(t\) si tu faisais un intervalle de confiance ou un test d'hypothèse dans les cas suivants : les populations sont normalement distribuées et tu ne connais pas la variance de la population ; ou la taille de l'échantillon est importante :
les populations sont normalement distribuées et tu ne connais pas les variances des populations ; ou
la population est normalement distribuée mais la taille de l'échantillon est petite.
Rappelle-toi que si tu connais la variance de la population, ou si tu as un échantillon suffisamment grand, pour une variable aléatoire normalement distribuée, \(X\), où
tu peux construire un intervalle de confiance ou un test d'hypothèse.
En réalité, il est peu probable que tu connaisses la variance réelle de la population, tout comme tu ne connais généralement pas la moyenne de la population, qui est souvent ce que tu testes.
Lorsque la taille de l'échantillon \(n\) est suffisamment grande, tu peux utiliser la variance de l'échantillon \(S\) au lieu de la variance de la population \(\sigma\).Dans ce cas, le théorème de la limite centrale te donne que
Lorsque \(n\) est petit, plutôt que d'utiliser la distribution normale, tu peux utiliser la distribution \(t\). La valeur de \(t\) est donnée par
\[t=\frac{\bar{X}-\mu}{\dfrac{S}{\sqrt{n}}}.\]
Tu peux voir ci-dessous le graphique de la distribution normale standard comparée à la distribution \(t\) pour différentes valeurs de \(n\).
Fig. 2 - Distribution normale standard comparée à la distribution \(t\) pour différentes valeurs de \(n\).
Comme tu peux le voir dans le graphique ci-dessus, la distribution \(t\) se rapproche de la distribution normale standard à mesure que \(n\) augmente. C'est l'une des raisons pour lesquelles les statisticiens disent qu'une taille d'échantillon de \(20\) est souvent suffisante pour passer d'une distribution \(t\) à une distribution normale.
Comme la taille de l'échantillon joue un rôle important dans les distributions \(t\), on lui donne un nom spécial, comme tu le verras dans la section suivante.
Degrés de liberté dans la distribution t
Tout comme pour la distribution du chi-deux et la distribution\(F\), la taille de l'échantillon \(n\) détermine le nombre dedegrés de liberté. La taille de l'échantillon t'indique deux choses sur les degrés de liberté de la distribution \(t\) :
Le nombre de degrés de liberté, \(\upsilon\), est déterminé par la taille de l'échantillon moins \(1\) : \(\upsilon = n-1\).
Lorsque \(\upsilon \à \infty\), la distribution \(t\) se rapproche de \(\text{N}(0,1^2)\).
En effet, la distribution normale et la distribution \N(t\N) sont assez similaires. Toutes deux sont symétriques et présentent une forme de courbe en cloche, et elles ont le même comportement final.
Pour indiquer que tu utilises un degré de liberté spécifique pour une distribution \(t), tu peux écrire distribution \(t_\upsilon\).
La formule de la distribution t
Voici la formule dont tu auras besoin pour la distribution t.
Si un échantillon aléatoire \(X_1,X_2,X_3, \dots,X_n\) est sélectionné à partir d'une distribution normale avec une variance inconnue \(\sigma ^2\), alors
\[t=\dfrac{\bar{X}-\mu}{\dfrac{S}{\sqrt{n}}}\]
où \(t\N) est une distribution \N(t_{n-1}\N) et \N(S^2\N) est un estimateur sans biais de \N(\Nsigma^2\N).
Pour un rappel de ce que signifie être sans biais, voir l'article Biais de l'estimateur.
Tout comme pour la distribution normale standard, il existe des tableaux de valeurs que tu peux utiliser avec la distribution \(t\).
Tableaux pour la distribution t
Le tableau ci-dessous est une section d'une table de probabilité de la distribution \(t\).
Tableau 1. Tableau de probabilité de la distribution \(t\)
\(\upsilon\)
\(0.100\)
\(0.050\)
\(0.025\)
\(1\)
\(3.0777\)
\(6.3138\)
\(12.7062\)
\(2\)
\(1.8856\)
\(2.9200\)
\(4.3027\)
\(3\)
\(1.6377\)
\(2.3534\)
\(3.1824\)
Les valeurs du tableau sont celles qui dépassent la probabilité en haut du tableau pour un certain nombre de degrés de liberté.
Par exemple, supposons que \(X\) a \(3\) degrés de liberté. Le nombre \(3.1824\) dans le coin inférieur droit du tableau ci-dessus signifie que :
\N(P(X>3,1824) = 0,025\N) ; et
\N(P(X<3,1824) = 1-0,025=0,975\N).
Puisque la distribution \(t\) est symétrique pour tous les degrés de liberté, tu sais aussi que
\N(P(X<-3,1824) = 0,025\N) ; et
\N(P(X>-3,1824) = 1-0,025=0,975\N).
La zone \(P(X>3,1824 )=0,025\) pour une courbe de distribution de \(t\)avec \(3\) degrés de liberté est ombrée dans le graphique ci-dessous. Rappelle-toi que lorsque \(\upsilon = 3\) la taille de l'échantillon est \(n=4\).
Fig. 3 - Distribution de \(t_3\) avec la zone ombrée égale à \(0,025\).
Prenons un exemple.
Supposons que \(X\) est une variable aléatoire avec des degrés de liberté \(\upsilon\). Trouve la valeur de \(s\N) où \(P(|X|<s)=0.80\N) où \(\upsilon = 3\N).
Solution
Remarque que \ (P(|X|<s)=0,80\) est identique à \(P(|X|>s)=0,20\) car la distribution de \(t\) est symétrique. Cela semble un peu étrange, mais cela signifie simplement que \(P(X<-s)=0,1\) et \(P(X>s)=0,1\). Il est souvent utile de faire un dessin de ce que tu cherches.
Fig. 4 - La zone ombrée totale est \N(0,2\N).
Tu peux utiliser la table de distribution de \(t\) ou une calculatrice pour trouver que la valeur de \(s\) qui te donne \ (P(X>s)=0,1\) est \(s=1,6377 \).
Valeurs critiques pour la distribution t
Les valeurs critiques sont utilisées pour construire les intervalles de confiance. Les intervalles de confiance dépendent du niveau de confiance que tu utilises. Rappelle-toi que les limites de confiance pour un \(100(1-\alpha)\%\) ont toujours la forme suivante
statistique de test \(\pm\) (\(t\)-valeur critique)(erreur standard).
Dans le cas des distributions \(t\), l'erreur standard est donnée par
Remarque qu'à mesure que le niveau de confiance augmente, la valeur critique de \(t\) augmente également, ce qui signifie que ton intervalle de confiance s'agrandit. C'est logique pour deux raisons principales :
plus tu es confiant dans une prédiction, plus il est difficile de garantir que tu as capturé le paramètre de la population dans l'intervalle de confiance ; et
la valeur critique \(t\) est liée à l'aire sous la courbe de distribution \(t\).
Par exemple, au niveau de confiance \(80\%), tu demandes en fait que \(80\%) de l'aire sous la courbe soit capturée dans la zone ombrée. Plus ton niveau de confiance est élevé, plus la zone ombrée est grande !
Fig. 5 - Distribution de \(t\)montrant comment le niveau de confiance est lié à l'aire sous la courbe.
C'est l'une des raisons pour lesquelles il peut être utile de faire un dessin de ce que tu essaies de trouver avant de prendre une calculatrice ou une table de distribution en T !
Distribution en T - Principaux enseignements
Si l'échantillon aléatoire \(X_1,X_2,X_3, \dots,X_n\) est normalement distribué avec une variance inconnue, \(\sigma ^2\), on a alors \[t=\dfrac{\bar{X}-\mu}{\dfrac{S}{\sqrt{n}}}] où \(t\) a une distribution \(t_{n-1}\) et \(S^2\) est un estimateur sans biais pour \(\sigma ^2\).
Le nombre de degrés de liberté est déterminé par la taille de l'échantillon moins \N(1\N),\N(\Nupsilon = n-1\N).
À mesure que \(\upsilon \à \nfty\r), la distribution de \(t\r) se rapproche de \(\text{N}(0,1^2)\r).
La valeur critique, \N(t^*\N), pour le niveau de confiance \N(\Nalpha\N) peut être trouvée avec la formule \N[ t^*= t_{n-1}\Nà gauche(\Nfrac{\Nalpha}{2}\Nà droite). \N].
Apprends plus vite avec les 11 fiches sur Distribution en T
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Distribution en T
Qu'est-ce que la distribution en T en statistiques?
La distribution en T de Student est utilisée pour estimer la moyenne d'une population lorsque l'échantillon est petit et que la variance populationnelle est inconnue.
Quand utilise-t-on la distribution en T?
On utilise la distribution en T principalement lorsque les échantillons sont petits (n < 30) et que la variance populationnelle est inconnue.
Quelle est la différence entre la distribution normale et la distribution en T?
La distribution en T a des queues plus épaisses que la distribution normale, ce qui la rend plus apte à estimer des échantillons petits.
Comment calculer la valeur de T?
La valeur de T se calcule comme suit : t = (moyenne de l'échantillon - hypothèse de population) / (écart type de l'échantillon / racine carrée de la taille de l'échantillon).
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.