10/04/2021
Les mécanismes d'apprentissage chez le chien.
Le chien est un opportuniste, il cherche, comme tout être vivant, à satisfaire ses besoins physiologiques primaires (respirer, boire, manger, dormir à l'abri, être en sécurité) , sociaux (appartenance à un groupe, communication, cohésion sociale), et un sentiment d'estime et d'utilité.
De la même manière que les rats de Skinner, le chien apprend en explorant son environnement et en tirant les conséquences de ses actions selon qu'elles ont été renforcées positivement, neutres ou renforcées négativement par une conséquence désagréable.
Aujourd'hui , on considère que les actions renforcées positivement (R+) s'ancrent de façon plus rapide que celles renforcées de façon négative (R-, P+).
C'est surtout vrai en raison du fait que la promesse d'une récompense active des zones particulières du cerveau, situées le long du faisceau médian du télencéphale , dans les aires motrices et dans l'hypotalamus et correspondant entre elles. Elles sont appelées: "Hotspots".
De ce fait, la promesse d'une récompense dope le mouvement (et est pondérée par la satiété ou la fatigue)!
Si on croise ces processus avec un passage progressif de l'attribution des récompenses du mode systématique au mode séquentiel puis aléatoire, on obtient un outil d'apprentissage extrêmement puissant.
En revanche le renforcement négatif inhibe le mouvement mais permet un ancrage plus immédiat et plus stable. Par exemple, un chien comprend en une seule fois qu'il ne faut pas toucher la clôture électrique!
Quand on veut conditionner un chien , on cherche à augmenter la probabilité d'une réponse motrice adaptée à un ordre donné.
Pour cela , on peut utiliser le :
Renforcement positif (R+) = Ajouter un stimulus agréable aprés l'éxécution de l'action désirée,
Renforcement négatif (R-)= Enlever un stimulus désagréable après l'éxécution de l'action désirée.
Punition positive (P+) = Ajouter un stimulus désagréable après l'éxécution dune action indésirable.
Punition négative (P-)= Enlever un stimulus agréable promis en cas de non exécution d'une action demandée.
Lorsque on veut dresser uniquement "en positif" , on doit utiliser uniquement le R+et le P-
Et on sait qu'on n'utilise alors que la moitié des moyens cognitifs permettant de "dialoguer" avec le cerveau du chien.
On sait que l'utilisation du P+ inhibe tous les comportements, il est donc proscrit en phase d'apprentissage et doit demeurer exceptionnel par la suite. On peut le réserver à des actions strictement interdites de façon permanente par exemple : collier anti-aboiement ou clôture anti-fugue.
Certains chiens modélisent très rapidement les situations de conflit et en viennent même à les rechercher , y compris lorsque ces situations impliquent une sanction désagréable.
Tout se passe comme si "l'espoir" généré par la récompense finale (cas des sports de saisie, notamment) amène le chien à rechercher les sanctions comme des étapes incontournables pour accéder à la récompense.
Par exemple, lors de l'affrontement/aboiement en IGP , le chien ne doit jamais toucher l'HA .
Lors d'un montage traditionnel, chaque fois qu'il le fait, il reçoit une saccade qu'il le ramène en arrière. Quand,il n'a pas touché l'HA pendant quelques secondes, il est récompensé en ayant le droit de mordre. Le chien modélise donc la séquence suivante : Je cède à ma pulsion , je touche, on me corrige, je touche ,on me corrige , je garde enfin la distance, on me récompense.
C'est peut être logique d'un point de vue humain mais pas d'un point de vue canin!
Le chien va apprendre à reproduire cette séquence complète, corrections comprises!
Et si on essayait plutôt de fonctionner en P-?
J'arrive devant L'HA , je touche, on me ramène en arrière et je ne mords pas.
Et on recommence jusqu'à ce que le chien en tire ses propres conclusions...
J'ai volontairement laissé le R- pour la fin , car c'est le moins connu et le plus intéressant.
Certains "positivistes" ne veulent même pas en entendre parler mais ils l'utilisent de fait sans même en avoir conscience!
Deux exemples:
-Lors du rappel , le chiot est maintenu par une laisse et tire pour rejoindre son maître, au bout de quelques mètres l'assistant lâche complètement la laisse et le chiot accélère jusqu'à son maître.
-Plusieurs champions entraînent la stabilité du couché ou du debout en tirant sur le collier pour que le chien se campe et résiste. Dans les deux cas, du pur renforcement négatif!
Nous voilà donc avec une option supplémentaire: Une fois que le chien est suffisamment actif et sait comment rechercher et obtenir une récompense , nous pouvons lui rendre les choses plus difficiles en l'entraînant à lutter contre une sensation désagréable (par exemple, la tension d'une cordelette) pour pouvoir exécuter l'ordre demandé. Dès qu'il obtempère , la sensation désagréable disparaît et c'est une première satisfaction . Et si on le récompense à cet instant précis, on double cette sensation positive. C'est le principe du NE-PO-PO.
Ce que ce procédé amène, c'est non seulement une accélération des actions mais également une fiabilisation de celles ci, notamment vis à vis des conditions extérieures.
A l'inverse, lorsque l'on regarde une séance de dressage menée par des tout-positifs, on assiste souvent à des séquences du type positif/positif/ négatif. Pourquoi?
Le chien fait moyennement , il est récompensé , il refait plus doucement, il est récompensé , la fatigue et la satiété aidant, il ralentit encore ou ne fait plus et le propriétaire s'énerve. Nul besoin qu'il frappe le chien pour que celui ci sente son énervement et s'inhibe encore plus: PO-PO-NE!
C'est pour cette raison qu'il est important d'apprendre nos chiens à devenir actifs et ouverts:
1) Actif parce que c'est à lui de chercher les comportements qui vont lui amener une récompense. On peut guider son choix et sa recherche de deux façons :
-Soit en délimitant très précisément "l'aquarium" (l'espace à l'intérieur duquel on évolue avec le chien) et les accessoires qui y sont disposés. On peut alors s'appuyer sur son comportement exploratoire en utilisant des validations successives en "shaping"
-Soit en lui apprenant au leurre les comportements qu'on souhaite valoriser.
2) Ouvert, car il faut qu'il soit à même d'appréhender sans cesse de nouvelles situations par l'intermédiaire d'un système de frustration par non récompense (P-). Le chien cherchant en retour à modifier son comportement pour avoir quand même sa récompense
Dans tous les cas, un dressage performant devra absolument s'appuyer sur des validations claires des actions que l'on souhaite voir se développer en réponses automatiques.
Les instruments d'activation: Ce ne sont pas des objets dévolus au travail mais pas non plus des objets de jeu. Ils sont souvent utilisés par paires avec des déplacements de l'un à l'autre (Boxs, Gros bidons, cibles , Piquets ....etc....). Ces déplacements de type navette génèrent vitesse et excitation chez le chien et c'est l'occasion rêvée d'apprendre à les contrôler en dosant ses intonations et ses félicitations. Comme ces objets ne sont normalement pas présents sur un terrain de travail, toute situation d'échec, de blocage ou de conflit ne se transpose pas de l'un à l'autre et ça permet de poser les choses sans jamais s'énerver.
Quand ils sont maîtrisés séparément, on peut parfaitement les combiner dans une optique de discrimination auditive. Le conducteur peut également faire réaliser des allers retours rapides et placer la récompense en triangle par rapport au à ces déplacements (travail en triangle : Je suis la clé). En se plaçant lui même à l'opposé de la récompense, il travaille en double triangle (Quand ton travail me plaît, je t'autorise à venir devant moi ou à côté et si tu es stable et intense, je t'autoriserai à aller chercher ta récompense.
Ces objets d'activation peuvent aussi être introduit dans le montage des exercices pour constituer des points de départ et d'arrivée stables et visibles ou des points de rotation (ou de stabilisation).
Comme ils sont bien connus du chien, ils le confortent dans le respect d'une consigne (conserver l'immobilité, par exemple).
Philippe Roustand