Quel est le point commun entre un dauphin qui saute à travers des cerceaux, un chien qui fait le mort et un chat qui fait un high five ? C'est le conditionnement opérant ! Cette section examine le conditionnement opérant de B. F. Skinner, sa théorie et quelques exemples.
Nous commencerons par aborder la définition du conditionnement opérant.
Ensuite, nous explorerons les principes et les concepts qui constituent la théorie du conditionnement opérant et l'expérience de conditionnement opérant de Skinner.
Nous explorerons ensuite quelques exemples de la théorie du conditionnement opérant.
B.F. Skinner pensait qu'il était possible d'étudier le comportement de manière scientifique. Il pensait également que le comportement est volontaire et qu'il a un but : affecter son environnement. Ce comportement, qu'il a appelé comportement opérant, est au centre du conditionnement opérant.
Skinner décrit le comportement opérant comme un comportement influencé par ses résultats.
En d'autres termes, une personne agit sur son environnement pour obtenir les résultats souhaités. Alors, qu'est-ce que le conditionnement opérant ?
Leconditionnement opérant est une méthode d'apprentissage ou de modification des comportements dans laquelle la conséquence d'une réponse, qu'elle soit bonne ou négative, influence la répétition d'une action.
Fig. 1. Un chien se retourne pour obtenir une friandise.
Supposons que tu donnes une friandise à ton chien lorsqu'il se retourne. Le chien apprend à associer l'action à la récompense grâce au conditionnement opérant et répétera probablement le comportement.
Le conditionnement opérant stipule que chaque action que nous entreprenons dans notre environnement a des conséquences. Nous sommes plus enclins à répéter des comportements qui ont des résultats positifs que des actions qui ont des résultats négatifs. Lorsque nous recevons une punition comme conséquence d'un comportement, il est fort probable que nous ne répéterons jamais ce comportement.
Théorie du conditionnement opérant
Pour son étude scientifique, Skinner a divisé le comportement en trois parties : le stimulus discriminant, la réponse opérante et le renforçateur ou le punisseur. Ces trois éléments constituent la contingence à trois termes, qui illustre une relation entre la réponse opérante et la conséquence (un renforçateur ou une punition).
Définissons ces trois termes :
Un stimulus discriminant sert d'antécédent au comportement, comme les événements ou les situations dans lesquels un comportement se produit.
Lesrenforçateurs sont les réponses augmentant la probabilité du comportement qu'il suit.
Lespunisseurs sont les réponses qui diminuent la probabilité du comportement qui s'ensuit.
Un examen (stimulus discriminant) approche, tu as bien révisé et tu as fait de ton mieux pour te préparer à l'examen. Les résultats sont arrivés et tu as obtenu une bonne note. Tes parents étaient fiers et t'ont emmené dans ton restaurant préféré (renforçateur). Si tu as joué aux jeux vidéo toute la journée et que tu as échoué à ton examen, tes parents t'ont grondé parce que tu étais irresponsable (punisseur).
La contingence à trois termes a servi de base à l'étude de Skinner sur le conditionnement opérant. Avec son analyse, il a également identifié plusieurs types de conditionnement opérant.
Conditionnement opérant : Types
Skinner a développé quatre types de conditionnement opérant : le renforcement positif, le renforcement négatif, la punition positive et la punition négative.
Nous avons mentionné que le conditionnement opérant consiste à récompenser ou à punir des comportements.
Dans le cas du renforcement positif, un résultat favorable suit le comportement pour augmenter sa récurrence.
Lorsque tu appliques le renforcement positif, tu veux renforcer une réponse (par exemple, en termes de fréquence ou de probabilité) en utilisant un renforçateur opérant. Dans ce cas, il s'agit d'un renforçateur positif.
John a remarqué que son ami Luke avait l'air triste, il a donc décidé de lui faire une blague pour lui remonter le moral. Luke a ri, ce qui a renforcé positivement le comportement de John. Ainsi, la prochaine fois que Luke sera triste, John risque de répéter ce comportement.
Le renforcement positif renforce un comportement, alors que le renforcement négatif l'affaiblit. C'est vrai ? Le renforcement négatif peut également renforcer un comportement. Ce type de renforcement relève du conditionnement opérant aversif.
Lerenforcement négatif se produit lorsque tu supprimes un événement désagréable (stimulus aversif ou renforçateur négatif) à la suite d'un comportement.
Tu es en train de conduire et tu entends soudain un bruit de crissement lorsque tu appuies sur les freins. Inquiet, tu as amené ta voiture chez le mécanicien et tu as constaté que les plaquettes de frein avaient besoin d'être remplacées. Le mécanicien les a remplacées et le bruit de grincement a disparu. La disparition du bruit de crissement a renforcé négativement le comportement consistant à amener la voiture chez le mécanicien.
Il existe deux types de renforcement négatif : l'évitement et le comportement de fuite.
Dans le cas de l'évitement, l'apprenant empêche l'événement désagréable de se produire. Si l'événement désagréable s'est déjà produit, la suppression du renforçateur négatif se fait par le biais d'un comportement de fuite.
L'évitement : Lorsque tu laisses ta vaisselle dans l'évier, tu entends ta mère rentrer de l'épicerie et garer sa voiture dans l'allée. Tu te précipites pour laver la vaisselle avant qu'elle n'entre dans la maison afin d'éviter de la harceler.
Échapper : Mais que se passe-t-il si ta mère arrive et voit la vaisselle dans l'évier plus tôt que prévu ? Ta mère commence à te harceler et tu fais la vaisselle pour qu'elle arrête de te harceler.
La punition est une autre forme de conditionnement opérant aversif qui vise à affaiblir les comportements. Lorsque les comportements s'affaiblissent, cela signifie qu'il y a une diminution de la fréquence, de la durée et des intervalles.
Lapunition fait référence aux conséquences négatives (stimuli aversifs) qui suivent un comportement.
La punition positive se produit lorsqu'un stimulus aversif (quelque chose que tu ne veux pas) suit une réponse.
Un groupe d'élèves risque une retenue après avoir refusé de suivre leur professeur.
Les conséquences négatives d'un mauvais comportement doivent être immédiates et cohérentes afin que l'apprenant associe la conséquence du comportement à une plus grande chance de l'arrêter.
Lapunition négative consiste à retirer quelque chose de valeur (un objet ou une activité) à la suite d'une réponse.
Une personne voit son permis de conduire suspendu après plusieurs infractions au code de la route.
Les psychologues mettent cependant en garde contre les punitions excessives, car les punitions te disent ce qu'il ne faut pas faire, ce qui peut ne pas conduire au comportement souhaité. Les punitions peuvent rendre l'apprenant agressif car il s'agit d'un mécanisme d'adaptation (pour faire face aux problèmes de la vie).
En termes simples, la punition positive (+) ajoute une conséquence négative, tandis que la punition négative (-) consiste à retirer quelque chose.
Conditionnement opérant : Propriétés du renforcement
Plus tôt, nous avons défini ce que sont les renforçateurs et les renforcements positifs et négatifs du comportement. Dans le cadre du conditionnement opérant, Skinner a identifié les propriétés du renforcement, telles que les différents types de renforçateurs et les calendriers de renforcement.
Les renforçateursprimaires, tels que la nourriture, l'eau et le sommeil, ont une importance biologique pour nous. Ce renforcement est universel, ce qui signifie qu'il peut se produire chez n'importe qui.
Les renforçateurssecondaires, également connus sous le nom de renforçateursacquis ou conditionnés, sont initialement neutres mais peuvent renforcer les comportements lorsqu'ils sont associés à un renforçateur primaire. Les exemples comprennent les jetons, les points et les autocollants.
Les horaires de renforcement décrivent la manière et le moment où les renforçateurs sont donnés à l'apprenant.
Il existe deux types d'horaires de renforcement : continu et partiel.
Lerenforcement continu consiste à donner des renforçateurs chaque fois que l'apprenant adopte le comportement ciblé.
L'enseignant donne une étoile d'or chaque fois qu'un élève participe en classe.
Le renforcementpartiel, quant à lui, consiste à donner des renforçateurs en fonction d'un nombre cible d'actions souhaitables (horaires de ratio) ou du temps (horaires d'intervalle).
Les horaires àratio fixe exigent un nombre spécifique de réponses avant que le renforcement ne se produise.
Le directeur des ventes donne à un employé une prime pour avoir atteint le chiffre d'affaires cible pendant six mois consécutifs.
Les horaires àintervalles fixes impliquent le renforcement d'un comportement souhaitable après une période spécifique. Cet horaire entraîne une augmentation du nombre de réponses à mesure que le renforcement approche.
Alice se prépare à l'examen d'autorisation d'exercer. Elle avait trois mois pour se préparer à l'examen, mais au cours des deux premiers mois, elle n'a pas passé beaucoup de temps à réviser. À l'approche de l'examen, elle a passé le dernier mois de préparation à réviser ses leçons pour s'assurer de réussir (renforcement) l'examen.
Leshoraires à ratio variable font référence à un renforcement des comportements souhaitables sans un nombre spécifique de réponses.
L'exemple le plus courant d'un schéma de renforcement à ratio variable est celui des machines à sous. L'imprévisibilité du renforcement encourage les comportements de jeu.
Leshoraires à intervalles variables font référence à un renforcement des comportements souhaitables à des intervalles de temps imprévisibles.
L'imprévisibilité de la réception d'un message (renforcement) par messagerie instantanée peut encourager le comportement consistant à vérifier tes notifications à différents moments de la journée.
Conditionnement opérant : Principes
Nous avons vu comment le renforcement se produit et les types de renforçateurs donnés. Nous allons maintenant examiner trois principes essentiels du conditionnement opérant.
Le principe d'immédiateté met en évidence le moment où le renforcement est administré. Si le renforcement a lieu juste après le comportement, plus son effet sur l'apprenant est important. Moins il est immédiat, moins les conséquences sont efficaces.
Le principe de contingence fait référence à la régularité avec laquelle une conséquence suit un comportement. Ce principe souligne l'importance de relayer une réponse de façon fiable pour augmenter l'efficacité de la conséquence.
Le principe de satiété nous dit que si l'apprenant n'a pas d'appétit pour un stimulus particulier (par exemple, une récompense), la conséquence ne sera pas si efficace que cela ; en revanche, s'il a besoin d'un stimulus spécifique, l'effet de la conséquence augmente.
Conditionnement opérant de Skinner : Expérience
Pour tester sa théorie, B. F. Skinner a mené des expériences de conditionnement opérant sur des animaux en observant leur comportement dans la boîte de Skinner. Skinner a mis au point la boîte de Skinner, ou chambre de conditionnement opérant, qui enregistre le comportement d'un organisme dans un laps de temps précis.
L'animal reçoit soit une récompense (palette de nourriture), soit une punition (chocs électriques désagréables) lorsqu'il présente certains comportements, comme appuyer sur le levier pour les rats ou picorer les touches pour les pigeons.
Fig. 2 L'expérience de Skinner confirme sa théorie du conditionnement opérant.
En se déplaçant dans la boîte, le rat a accidentellement appuyé sur le levier relié à une pastille de nourriture. La pastille alimentaire a fait tomber automatiquement de la nourriture dans un distributeur de nourriture (renforcement positif). Le rat a appris ce comportement gratifiant rapidement après avoir été placé dans la boîte de Skinner seulement quelques fois.
Skinner a testé le renforcement négatif en donnant au rat des chocs électriques désagréables lorsqu'il se trouvait dans la boîte. Lorsque le rat se déplaçait dans la boîte, il appuyait accidentellement sur le levier et les chocs électriques cessaient immédiatement (renforcement négatif).
Après avoir été placé plusieurs fois dans la boîte, le rat a rapidement appris ce comportement. La prochaine fois que le rat a été placé dans la boîte, il s'est immédiatement dépêché d'appuyer sur le levier pour éviter l'expérience désagréable des chocs électriques.
Exemples et applications du conditionnement opérant
Il existe plusieurs exemples d'application du conditionnement opérant dans la vie quotidienne. Le conditionnement opérant de Skinner a contribué au développement de thérapies thérapeutiques telles que l'économie de jetons et le modelage du comportement.
Les parents et les enseignants utilisent l'économie de jetons pour renforcer le comportement souhaité grâce à des jetons tels que des autocollants, des coupons, de l'argent ou des points que l'enfant peut échanger contre des récompenses telles que de la nourriture, des activités ou des privilèges. L'économie de jetons permet d'apprendre aux enfants à suivre les règles à la maison et à l'école.
Fig. 3 Entraînement des animaux de cirque
Lemodelage du comportement consiste à susciter des réponses en simplifiant le comportement souhaité en petites étapes gérables, suivies d'une récompense lorsque l'apprenant accomplit chaque étape.
Par exemple, les dresseurs utilisent le modelage du comportement pour enseigner des tours complexes aux animaux de cirque.
Dans la thérapie comportementale, les psychologues utilisent le conditionnement opérant et ses principes pour modifier le comportement et traiter des troubles psychologiques tels que la dépression, les troubles alimentaires et les troubles obsessionnels compulsifs (TOC).
Conditionnement classique et opérant
Nous comprenons que le conditionnement classique et le conditionnement opérant sont tous deux des formes d'apprentissage associatif. Mais quelle est la différence ? Examinons ce tableau pour comparer les deux types de conditionnement.
Conditionnement classique
Conditionnement opérant
Les comportements sont involontaires.
Les comportements sont volontaires.
L'apprentissage a lieu avant qu'une réponse ne se produise (présentation d'un stimulus non conditionné après un stimulus conditionné).
L'apprentissage a lieu après une réponse (par le biais d'un renforcement ou d'une punition).
L'apprenant est passif.
L'apprenant est actif.
L'apprenant associe un stimulus neutre à un stimulus non conditionné, ce qui entraîne une réponse.
L'apprenant associe une réponse à une conséquence qui la suit, affectant la récurrence d'un comportement.
Leconditionnement opér ant est une méthode d'apprentissage ou de modification des comportements dans laquelle la conséquence d'une réponse, qu'elle soit bonne ou négative, influence la répétition d'une action.
À l'aide de la boîte de Skinner, B. F. Skinner a mené des recherches sur le conditionnement opérant sur des animaux, qui ont enregistré leur comportement au fil du temps.
Les propriétés du renforcement comprennent le renforcementprimaire et secondaire et les calendriers de renforcement basés sur le nombre de réponses ou les intervalles de temps.
Parmi les exemples concrets de conditionnement opérant, on peut citer l'économie de jetons, le modelage du comportement et la thérapie comportementale.
Leconditionnement opérant diffère du conditionnement classique parce que les comportements sont volontaires et que l'apprentissage a lieu après une réponse. Le conditionnement classique considère les comportements comme des réflexes, et l'apprentissage a lieu avant qu'une réaction ne se produise.
Références
Fig. 2. Image de l'expérience du rat de Skinner (https://commons.wikimedia.org/wiki/File:Skinner_box_scheme_01.png) par Andreas1 (https://commons.wikimedia.org/w/index.php?title=User:Andreas1&action=edit&redlink=1) sous licence CC BY-SA 3.0 (https://creativecommons.org/licenses/by-sa/3.0/deed.en)
Apprends plus vite avec les 14 fiches sur Conditionnement opérant
Inscris-toi gratuitement pour accéder à toutes nos fiches.
Questions fréquemment posées en Conditionnement opérant
Qu'est-ce que le conditionnement opérant en psychologie?
Le conditionnement opérant est une méthode d'apprentissage qui utilise des récompenses et des punitions pour modifier le comportement.
Qui a développé la théorie du conditionnement opérant?
La théorie du conditionnement opérant a été développée par le psychologue américain B.F. Skinner.
Comment fonctionne le renforcement positif dans le conditionnement opérant?
Le renforcement positif augmente la probabilité d'un comportement en ajoutant une conséquence agréable après ce comportement.
Quelle est la différence entre le conditionnement opérant et le conditionnement classique?
Le conditionnement opérant modifie le comportement par des conséquences, tandis que le conditionnement classique associe deux stimuli pour produire une réponse.
How we ensure our content is accurate and trustworthy?
At StudySmarter, we have created a learning platform that serves millions of students. Meet
the people who work hard to deliver fact based content as well as making sure it is verified.
Content Creation Process:
Lily Hulatt
Digital Content Specialist
Lily Hulatt is a Digital Content Specialist with over three years of experience in content strategy and curriculum design. She gained her PhD in English Literature from Durham University in 2022, taught in Durham University’s English Studies Department, and has contributed to a number of publications. Lily specialises in English Literature, English Language, History, and Philosophy.
Gabriel Freitas is an AI Engineer with a solid experience in software development, machine learning algorithms, and generative AI, including large language models’ (LLMs) applications. Graduated in Electrical Engineering at the University of São Paulo, he is currently pursuing an MSc in Computer Engineering at the University of Campinas, specializing in machine learning topics. Gabriel has a strong background in software engineering and has worked on projects involving computer vision, embedded AI, and LLM applications.