Rappelle-toi que les données univariées, également appelées données à une variable, sont des observations faites sur les individus d'une population ou d'un échantillon. Ces données sont de différents types : qualitatives, quantitatives, catégorielles, continues, discrètes, etc. En particulier, tu vas étudier les variables catégorielles, qui sont aussi souvent appelées données catégorielles. Voyons d'abord la définition.
Une variable est dite catégorique si les données recueillies se répartissent en catégories. En d'autres termes, lesdonnéescatégoriellessont des données qui peuvent être divisées en différents groupes au lieu d'être mesurées numériquement.
Les variables catégorielles sont des variables qualitatives car elles traitent de qualités et non de quantités. Ainsi, des exemples de données catégorielles seraient la couleur des cheveux, le type d'animaux de compagnie d'une personne et ses aliments préférés. En revanche, des choses comme la taille, le poids et le nombre de tasses de café qu'une personne boit par jour sont mesurées numériquement et ne sont donc pas des données catégorielles.
Pour découvrir les différents types de données et leur utilisation, tu peux consulter les pages Données à une variable etAnalyse des données du site.
Données catégorielles et données quantitatives
Tu sais maintenant ce que sont les données catégorielles, mais en quoi sont-elles différentes des données quantitatives ? Il est utile d'examiner d'abord la définition.
Les donnéesquantitatives sont des données qui permettent de compter le nombre d'éléments d'un ensemble de données ayant une qualité particulière.
Lesdonnées quantitativesrépondent généralement à des questions telles que "combien" ou "combien". Par exemple, des données quantitatives seraient collectées si tu voulais savoir combien de personnes ont dépensé pour acheter un téléphone portable. Les données quantitatives sont souvent utilisées pour comparer plusieurs ensembles de données. Pour une discussion plus complète sur les données quantitatives et leur utilisation, consulte le siteVariables quantitatives.
Les données catégorielles sont qualitatives et non quantitatives !
Données catégoriques et données continues
Très bien, qu'en est-il des données continues ? Peuvent-elles être catégoriques ? Jetons un coup d'œil à la définition des données continues.
Les donnéescontinues sont des données qui sont mesurées sur une échelle de nombres, où les données peuvent être n'importe quel nombre sur l'échelle.
La hauteur est un bon exemple de données continues. Pour n'importe quel nombre compris entre 4 et 5 pieds, il peut y avoir une personne de cette taille. En général, les données catégorielles ne sont pas des données continues.
Types de variables catégorielles
Il existe deux principaux types de variables catégorielles : les variables nominales et les variables ordinales.
Variables catégorielles ordinales
Une variable catégorielle est dite ordinale si elle présente un ordre implicite.
Un exemple de données catégorielles ordinales serait le sondage au début de cet article. Il te demandait d'évaluer ta satisfaction sur une échelle de 1 à 5, ce qui signifie qu'il y a un ordre implicite dans ton évaluation. Rappelle-toi que les données numériques sont des données qui impliquent des nombres, ce qui est le cas de l'exemple de l'enquête. Il est donc possible que les données d'une enquête soient à la fois ordinales et numériques.
Variables catégorielles nominales
Une variable catégorielle est dite nominale si les catégories sont nommées, c'est-à-dire si les données ne comportent pas de nombres.
Supposons qu'une enquête te demande dans quel type de logement tu vis, et que les options que tu puisses choisir sont le dortoir, la maison et l'appartement. Ce sont des exemples de catégories nommées, il s'agit donc de données catégorielles nominales. En d'autres termes, s'il y a une catégorie nommée mais qu'elle n'est pas ordonnée numériquement, il s'agit d'une variable catégorielle nominale.
Variables catégorielles dans les statistiques
Avant de passer à d'autres exemples de variables catégorielles, examinons certains des avantages et des inconvénients des données catégorielles.
Du côté des avantages, on trouve :
Les résultats sont très simples parce que les gens n'ont le choix qu'entre quelques options.
Comme les options sont présentées à l'avance, il n'y a pas de questions ouvertes à analyser. Les données catégorielles sont appelées concrètes en raison de cette propriété.
Les données catégorielles peuvent être beaucoup plus faciles à analyser (et moins coûteuses à analyser) que d'autres types de données.
Du côté des inconvénients, on trouve :
En général, tu dois obtenir un assez grand nombre d'échantillons pour t'assurer que l'enquête représente fidèlement la population. Cela peut coûter cher.
Comme les catégories sont définies au début de l'enquête, celle-ci n'est pas très sensible. Par exemple, si les deux seules options pour la couleur des cheveux dans un sondage sont les cheveux bruns et les cheveux blancs, les gens auront du mal à décider dans quelle catégorie mettre leur couleur de cheveux (à supposer qu'ils en aient une). Cela peut conduire à des non-réponses et à des choix imprévus de la part des gens sur la couleur de leurs cheveux, ce qui fausse les données.
Tu ne peux pas faire d'analyse quantitative sur des données catégorielles ! Parce que ce ne sont pas des données numériques, tu ne peux pas faire d'arithmétique dessus. Par exemple, tu ne peux pas prendre un taux de satisfaction de \(4\) et l'ajouter à un taux de satisfaction de \(3\) pour obtenir un taux de satisfaction de \(7\).
Le tableau suivant résume les avantages et les inconvénients des variables catégorielles dans les statistiques :
Tableau 1. Avantages et inconvénients des variables catégorielles
Avantages
Inconvénients
Les résultats sont simples
Grands échantillons
Données concrètes
Peu sensible
Analyse plus facile et moins coûteuse
Pas d'analyse quantitative
Collecte de données catégorielles
Comment recueille-t-on des données catégorielles ? Cela se fait souvent par le biais d'entretiens (en personne ou au téléphone) ou d'enquêtes (en ligne, par courrier ou en personne). Dans les deux cas, les questions posées ne sont pas ouvertes. Elles demanderont toujours aux gens de choisir entre un ensemble spécifique d'options.
Analyse des données catégorielles
Les données collectées doivent ensuite être analysées, alors comment analyser les données catégorielles ? Souvent, on le fait avec des proportions ou des pourcentages, et cela peut se faire sous forme de tableaux ou de graphiques. Deux des façons les plus fréquentes d'examiner les données catégorielles sont les diagrammes à barres et les diagrammes circulaires.
Supposons qu'on te demande de faire un sondage pour savoir si les gens aiment une boisson gazeuse particulière et que tu obtiennes les informations suivantes :
14 personnes ont aimé la boisson gazeuse ; et
50 personnes ne l'ont pas aimée.
Nous devons d'abord déterminer s'il s'agit de données catégorielles.
Solution
Oui. Tu peux diviser les réponses en deux catégories, dans ce cas "a aimé" et "n'a pas aimé". Il s'agit d'un exemple de données catégorielles nominales.
Maintenant, comment pouvons-nous représenter ces données ? Nous pourrions le faire à l'aide d'un diagramme à barres ou d'un diagramme circulaire.
Diagramme à barres "J'ai aimé" et "Je n'ai pas aimé
Diagramme circulaire montrant le pourcentage de personnes qui ont aimé ou n'ont pas aimé le soda.
L'un ou l'autre te permet de comparer visuellement les données. Pour de nombreux autres exemples sur la façon de construire un graphique pour des données catégorielles, voir Graphiques en barres.
Exemples de variables catégorielles
Voyons quelques exemples de ce que peuvent être les données catégorielles.
Supposons que tu souhaites voir un film et que tu demandes à tes amis s'ils l'ont aimé ou non afin de décider si tu veux dépenser de l'argent pour l'acheter. Parmi tes amis, \(15\) a aimé le film et \(50\) ne l'a pas aimé. Quelle est la variable ici, et de quel type de variable s'agit-il ?
Solution
Tout d'abord, il s'agit de données catégorielles. Elles sont divisées en deux catégories, " a aimé " et " n'a pas aimé ". Il y a une variable dans l'ensemble des données, à savoir l'opinion de tes amis sur le film. En fait, il s'agit d'un exemple de données catégorielles nominales.
Prenons un autre exemple.
Pour revenir à l'exemple du film, supposons que tu demandes à tes amis s'ils ont aimé ou non un film particulier, et dans quelle ville ils vivent. Combien y a-t-il de variables et de quel type sont-elles ?
Solution
Comme dans l'exemple précédent, l'opinion de tes amis sur le film est une variable, et elle est catégorique. Comme tu as également demandé à tes amis dans quelle ville ils vivaient, il y a une deuxième variable ici, et c'est le nom de l'état dans lequel ils vivent. Il n'y a qu'un nombre limité d'États aux États-Unis, donc il y a un nombre fini d'endroits qu'ils peuvent citer comme étant leur État. L'état est donc une deuxième variable nominale catégorielle sur laquelle tu as recueilli des données.
Modifions un peu ce que tu demandes dans ton enquête.
Supposons maintenant que tu aies demandé à tes amis combien ils étaient prêts à payer pour voir le film, et que tu leur aies donné trois fourchettes de prix : moins de 5 dollars, entre 5 et 10 dollars, et plus de 10 dollars. De quel type de données s'agit-il ?
Solution
Il s'agit toujours de données catégorielles car tu as défini les catégories dans lesquelles tes amis peuvent répondre avant de leur demander de répondre à ton enquête. Cependant, il s'agit cette fois de données catégorielles ordinales puisque tu peux classer les catégories par prix (qui est un nombre).
Alors, comment comparer des variables catégorielles ?
Corrélation entre les variables catégorielles
Supposons que tu demandes à tes amis s'ils ont aimé ou non un film particulier et s'ils ont payé moins de 5 dollars, entre 5 et 10 dollars ou plus de 10 dollars pour le voir. Il s'agit de deux variables catégorielles, alors comment peux-tu les comparer ? Existe-t-il un moyen de savoir si le montant payé pour voir le film a eu une influence sur la mesure dans laquelle ils l'ont aimé ?
Une chose que tu peux faire est de regarder les diagrammes à barres comparatifs des données, ou un tableau à double entrée. Tu trouveras plus d'informations à ce sujet dans l'article Graphiques en barres. L'autre chose que tu peux faire est un test statistique plus officiel, appelé test du khi-deux. Ce sujet est abordé dans l'article Inference for Distributions of Categorical Data (Inférence pour les distributions de données catégorielles).
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.