Sauter à un chapitre clé
Que sont les variables catégorielles ?
Rappelle-toi que les données univariées, également appelées données à une variable, sont des observations faites sur les individus d'une population ou d'un échantillon. Ces données sont de différents types : qualitatives, quantitatives, catégorielles, continues, discrètes, etc. En particulier, tu vas étudier les variables catégorielles, qui sont aussi souvent appelées données catégorielles. Voyons d'abord la définition.
Une variable est dite catégorique si les données recueillies se répartissent en catégories. En d'autres termes, lesdonnées catégorielles sont des données qui peuvent être divisées en différents groupes au lieu d'être mesurées numériquement.
Les variables catégorielles sont des variables qualitatives car elles traitent de qualités et non de quantités. Ainsi, des exemples de données catégorielles seraient la couleur des cheveux, le type d'animaux de compagnie d'une personne et ses aliments préférés. En revanche, des choses comme la taille, le poids et le nombre de tasses de café qu'une personne boit par jour sont mesurées numériquement et ne sont donc pas des données catégorielles.
Pour découvrir les différents types de données et leur utilisation, tu peux consulter les pages Données à une variable etAnalyse des données du site .
Données catégorielles et données quantitatives
Tu sais maintenant ce que sont les données catégorielles, mais en quoi sont-elles différentes des données quantitatives ? Il est utile d'examiner d'abord la définition.
Les donnéesquantitatives sont des données qui permettent de compter le nombre d'éléments d'un ensemble de données ayant une qualité particulière.
Lesdonnées quantitatives répondent généralement à des questions telles que "combien" ou "combien". Par exemple, des données quantitatives seraient collectées si tu voulais savoir combien de personnes ont dépensé pour acheter un téléphone portable. Les données quantitatives sont souvent utilisées pour comparer plusieurs ensembles de données. Pour une discussion plus complète sur les données quantitatives et leur utilisation, consulte le site Variables quantitatives.
Les données catégorielles sont qualitatives et non quantitatives !
Données catégoriques et données continues
Très bien, qu'en est-il des données continues ? Peuvent-elles être catégoriques ? Jetons un coup d'œil à la définition des données continues.
Les donnéescontinues sont des données qui sont mesurées sur une échelle de nombres, où les données peuvent être n'importe quel nombre sur l'échelle.
La hauteur est un bon exemple de données continues. Pour n'importe quel nombre compris entre 4 et 5 pieds, il peut y avoir une personne de cette taille. En général, les données catégorielles ne sont pas des données continues.
Types de variables catégorielles
Il existe deux principaux types de variables catégorielles : les variables nominales et les variables ordinales.
Variables catégorielles ordinales
Une variable catégorielle est dite ordinale si elle présente un ordre implicite.
Un exemple de données catégorielles ordinales serait le sondage au début de cet article. Il te demandait d'évaluer ta satisfaction sur une échelle de 1 à 5, ce qui signifie qu'il y a un ordre implicite dans ton évaluation. Rappelle-toi que les données numériques sont des données qui impliquent des nombres, ce qui est le cas de l'exemple de l'enquête. Il est donc possible que les données d'une enquête soient à la fois ordinales et numériques.
Variables catégorielles nominales
Une variable catégorielle est dite nominale si les catégories sont nommées, c'est-à-dire si les données ne comportent pas de nombres.
Supposons qu'une enquête te demande dans quel type de logement tu vis, et que les options que tu puisses choisir sont le dortoir, la maison et l'appartement. Ce sont des exemples de catégories nommées, il s'agit donc de données catégorielles nominales. En d'autres termes, s'il y a une catégorie nommée mais qu'elle n'est pas ordonnée numériquement, il s'agit d'une variable catégorielle nominale.
Variables catégorielles dans les statistiques
Avant de passer à d'autres exemples de variables catégorielles, examinons certains des avantages et des inconvénients des données catégorielles.
Du côté des avantages, on trouve :
Les résultats sont très simples parce que les gens n'ont le choix qu'entre quelques options.
Comme les options sont présentées à l'avance, il n'y a pas de questions ouvertes à analyser. Les données catégorielles sont appelées concrètes en raison de cette propriété.
Les données catégorielles peuvent être beaucoup plus faciles à analyser (et moins coûteuses à analyser) que d'autres types de données.
Du côté des inconvénients, on trouve :
En général, tu dois obtenir un assez grand nombre d'échantillons pour t'assurer que l'enquête représente fidèlement la population. Cela peut coûter cher.
Comme les catégories sont définies au début de l'enquête, celle-ci n'est pas très sensible. Par exemple, si les deux seules options pour la couleur des cheveux dans un sondage sont les cheveux bruns et les cheveux blancs, les gens auront du mal à décider dans quelle catégorie mettre leur couleur de cheveux (à supposer qu'ils en aient une). Cela peut conduire à des non-réponses et à des choix imprévus de la part des gens sur la couleur de leurs cheveux, ce qui fausse les données.
Tu ne peux pas faire d'analyse quantitative sur des données catégorielles ! Parce que ce ne sont pas des données numériques, tu ne peux pas faire d'arithmétique dessus. Par exemple, tu ne peux pas prendre un taux de satisfaction de \(4\) et l'ajouter à un taux de satisfaction de \(3\) pour obtenir un taux de satisfaction de \(7\).
Le tableau suivant résume les avantages et les inconvénients des variables catégorielles dans les statistiques :
Tableau 1. Avantages et inconvénients des variables catégorielles | |
---|---|
Avantages | Inconvénients |
Les résultats sont simples | Grands échantillons |
Données concrètes | Peu sensible |
Analyse plus facile et moins coûteuse | Pas d'analyse quantitative |
Collecte de données catégorielles
Comment recueille-t-on des données catégorielles ? Cela se fait souvent par le biais d'entretiens (en personne ou au téléphone) ou d'enquêtes (en ligne, par courrier ou en personne). Dans les deux cas, les questions posées ne sont pas ouvertes. Elles demanderont toujours aux gens de choisir entre un ensemble spécifique d'options.
Analyse des données catégorielles
Les données collectées doivent ensuite être analysées, alors comment analyser les données catégorielles ? Souvent, on le fait avec des proportions ou des pourcentages, et cela peut se faire sous forme de tableaux ou de graphiques. Deux des façons les plus fréquentes d'examiner les données catégorielles sont les diagrammes à barres et les diagrammes circulaires.
Supposons qu'on te demande de faire un sondage pour savoir si les gens aiment une boisson gazeuse particulière et que tu obtiennes les informations suivantes :
- 14 personnes ont aimé la boisson gazeuse ; et
- 50 personnes ne l'ont pas aimée.
Nous devons d'abord déterminer s'il s'agit de données catégorielles.
Solution
Oui. Tu peux diviser les réponses en deux catégories, dans ce cas "a aimé" et "n'a pas aimé". Il s'agit d'un exemple de données catégorielles nominales.
Maintenant, comment pouvons-nous représenter ces données ? Nous pourrions le faire à l'aide d'un diagramme à barres ou d'un diagramme circulaire.
L'un ou l'autre te permet de comparer visuellement les données. Pour de nombreux autres exemples sur la façon de construire un graphique pour des données catégorielles, voir Graphiques en barres.
Exemples de variables catégorielles
Voyons quelques exemples de ce que peuvent être les données catégorielles.
Supposons que tu souhaites voir un film et que tu demandes à tes amis s'ils l'ont aimé ou non afin de décider si tu veux dépenser de l'argent pour l'acheter. Parmi tes amis, \(15\) a aimé le film et \(50\) ne l'a pas aimé. Quelle est la variable ici, et de quel type de variable s'agit-il ?
Solution
Tout d'abord, il s'agit de données catégorielles. Elles sont divisées en deux catégories, " a aimé " et " n'a pas aimé ". Il y a une variable dans l'ensemble des données, à savoir l'opinion de tes amis sur le film. En fait, il s'agit d'un exemple de données catégorielles nominales.
Prenons un autre exemple.
Pour revenir à l'exemple du film, supposons que tu demandes à tes amis s'ils ont aimé ou non un film particulier, et dans quelle ville ils vivent. Combien y a-t-il de variables et de quel type sont-elles ?
Solution
Comme dans l'exemple précédent, l'opinion de tes amis sur le film est une variable, et elle est catégorique. Comme tu as également demandé à tes amis dans quelle ville ils vivaient, il y a une deuxième variable ici, et c'est le nom de l'état dans lequel ils vivent. Il n'y a qu'un nombre limité d'États aux États-Unis, donc il y a un nombre fini d'endroits qu'ils peuvent citer comme étant leur État. L'état est donc une deuxième variable nominale catégorielle sur laquelle tu as recueilli des données.
Modifions un peu ce que tu demandes dans ton enquête.
Supposons maintenant que tu aies demandé à tes amis combien ils étaient prêts à payer pour voir le film, et que tu leur aies donné trois fourchettes de prix : moins de 5 dollars, entre 5 et 10 dollars, et plus de 10 dollars. De quel type de données s'agit-il ?
Solution
Il s'agit toujours de données catégorielles car tu as défini les catégories dans lesquelles tes amis peuvent répondre avant de leur demander de répondre à ton enquête. Cependant, il s'agit cette fois de données catégorielles ordinales puisque tu peux classer les catégories par prix (qui est un nombre).
Alors, comment comparer des variables catégorielles ?
Corrélation entre les variables catégorielles
Supposons que tu demandes à tes amis s'ils ont aimé ou non un film particulier et s'ils ont payé moins de 5 dollars, entre 5 et 10 dollars ou plus de 10 dollars pour le voir. Il s'agit de deux variables catégorielles, alors comment peux-tu les comparer ? Existe-t-il un moyen de savoir si le montant payé pour voir le film a eu une influence sur la mesure dans laquelle ils l'ont aimé ?
Une chose que tu peux faire est de regarder les diagrammes à barres comparatifs des données, ou un tableau à double entrée. Tu trouveras plus d'informations à ce sujet dans l'article Graphiques en barres. L'autre chose que tu peux faire est un test statistique plus officiel, appelé test du khi-deux. Ce sujet est abordé dans l'article Inference for Distributions of Categorical Data (Inférence pour les distributions de données catégorielles).
Variables catégorielles - Principaux enseignements
- Une variable est dite catégorique si les données recueillies se répartissent en catégories.
- Les variables catégoriellessont variables qualitatives parce qu'elles traitent de qualités et non de quantités.
- Une variable catégorielle est dite ordinale si elle comporte un ordre implicite.
- Une variable catégorielle est dite nominale si les catégories sont nommées.
- Les tableaux et les diagrammes à barres sont des moyens de visualiser les variables catégorielles.
Apprends avec 0 fiches de Variables Catégorielles dans l'application gratuite StudySmarter
Tu as déjà un compte ? Connecte-toi
Questions fréquemment posées en Variables Catégorielles
À propos de StudySmarter
StudySmarter est une entreprise de technologie éducative mondialement reconnue, offrant une plateforme d'apprentissage holistique conçue pour les étudiants de tous âges et de tous niveaux éducatifs. Notre plateforme fournit un soutien à l'apprentissage pour une large gamme de sujets, y compris les STEM, les sciences sociales et les langues, et aide également les étudiants à réussir divers tests et examens dans le monde entier, tels que le GCSE, le A Level, le SAT, l'ACT, l'Abitur, et plus encore. Nous proposons une bibliothèque étendue de matériels d'apprentissage, y compris des flashcards interactives, des solutions de manuels scolaires complètes et des explications détaillées. La technologie de pointe et les outils que nous fournissons aident les étudiants à créer leurs propres matériels d'apprentissage. Le contenu de StudySmarter est non seulement vérifié par des experts, mais également régulièrement mis à jour pour garantir l'exactitude et la pertinence.
En savoir plus