Most powerful reward schedule: Variable ratio

In a  variable ratio schedule a desired behaviour (once it is established and put on cue) will be reinforced randomly. There is no way the horse can predict when he can expect a reward, so this will keep him motivated to perform well.

Benefits of a variable reinforcement schedule

With a variable ratio schedule it will take a very long time before a behaviour will become extinct. Extinction means that the behaviour will no longer be displayed in a certain situation. There is 0% chance of a reward so therefor the behaviour has become ‘useless’ in that situation.

A variable ratio schedule is the most powerful reward schedule. Your horse figures ‘This could be the time my behaviour gets rewarded, so let’s try this again’. No reward? ‘Maybe this time I will get a reward… Let’s give it a bit more effort… Yes! It worked’.__rewards_hippologic

A variable reward schedule is also the reason why most horses keep displaying undesired behaviours. I explain this further in this post.

Extinction burst

If a behaviour is never rewarded (intrinsically or extrinsically) it will go extinct. Just before a behaviour goes extinct there is usually an ‘extinction burst’.

Often when an in the past rewarded behaviour doesn’t result in a reward the animal shows a sudden and temporary increase in the behaviour followed by the eventual decline and extinction of the behaviour targeted for elimination. Novel behaviour, or emotional responses or aggressive behaviour, may also occur (Miltenberger, R. (2012). Behaviour modification, principles and procedures. (5th ed., pp. 87-99). Wadsworth Publishing Company.)

Extinction_Graph

Extinction, extinction burst and spontaneous recovery graph from study.com

The same principle occurs in a consciously applied variable reward schedule. Just before the horse loses interest in displaying the behaviour he will show a little ‘extinction burst’ as a last attempt to influence the reinforcement (reward). This is the improved behaviour a trainer is looking for and wants to mark and reward.

Withhold the click

If the horse already has a strong positive reinforcement history with a certain behaviour or with positive reinforcement training in general, it can react differently to a withdrawn click than when he is in the beginning of the learning stage of an exercise.

A well used withdrawal of the click will induce an improvement of behaviour (extinction burst). It also can help the horse figure out quicker which behaviour is rewarded and which isn’t. In this way you can give more information about what you want.

Instead of the trainer acting like a ‘vending machine’: put money (behaviour) in and expect a reward (treat comes out), the trainer now behaves more like a ‘gambling machine’ with a fair chance to win.

_reward_schedules_hippologic

The horse may become ‘superstitious’ and tries to figure out if there was a difference with the behaviour that was similar and didn’t get rewarded and the one that did. Just like superstitious people who are suddenly paying attention to the colour of their socks in order to influence their chances of winning, the animal will also pay more attention to the details of the behaviour in order to influences the chances of a click and reward.

Pitfalls of withholding a click too long

Withholding a click can also trigger impatience, frustration or confusion in the horse. So  use this technique with caution. You don’t want to discourage your horse. A little bit of frustration is no big deal, as long as the horse stays in learning mode.

Sometimes a bit of frustration can actually benefit the learning process. It is the trainers responsibility to walk this line. If the horse gets frustrated or shuts down, turn back to a continuous reward schedule for a while and make your training steps smaller and lower your criteria.

When you start teaching a new behaviour it is really important to click every improvement and use a continuous reward schedule. The next step in training should be only rewarding the behaviour when you have cued it. Once the cue is established, switch to a variable reward schedule.

Fading out the rewards

So once your horse has learned a specific behaviour you can reward less and less and still get the behaviour. This is called fading out the click.

Continuous reward schedules are very easy to use (reward 100%) because you don’t have to think about it. What about a variable reward schedule, are you using this in your training?

Sandra Poppema
For tailored positive reinforcement training advise, please visit my website and book a free intake consult!

Follow my blog with Bloglovin

 

‘Clickertraining werkt niet bij mijn paard’

Mijn eerste reactie als iemand me vertelt ‘Clickertraining werkt niet bij mijn paard’ is ‘Waarom niet? Slaapt hij?’. Dat is natuurlijk een grapje. (Click here for the English version of this text.)

Er zijn eigenlijk maar twee manieren om paarden iets te leren. Bij de ene manier versterkt men het gedrag door iets vervelends (een ‘aversive) weg te nemen als het paard het juiste doet (deze methode heet negative reinforcement, -R) en bij de andere manier wordt iets prettigs (eenappetitive‘) aan het paard gegeven om het gedrag te versterken (dit heet positive reinforcement, +R).

Wat is de achterliggende betekenis van de bewering ‘Clickertraining werkt niet bij mijn paard’? Betekent het dat:

  • De trainer het concept van +R niet (helemaal) snapt en het daarom ook niet goed toepast?
  • Het paard niet op het brugsignaal, de clicker, reageert?
  • Het paard niet geïnteresseerd is in de beloningen die de trainer biedt?
  • Het paard niet op de trainer let en daarom ook niet op zijn aanwijzingen en/of clicker reageert?
  • Clickertraining alleen maar soms werkt?
  • Het paard soms zelfs slechter presteert als de trainer clickertraining gebruikt.

__Clicker_training_werkt_niet_hippologic

#1 Trainer snapt het concept niet
Er kan nogal wat ‘mis’ gaan als de trainer zich niet bewust is van zijn invloed op het paard, of als hij niet snapt wat hij aan het doen is en daardoor een ander resultaat verwacht dan hij krijgt. De basisbegrippen die een clickertrainer moet kennen zijn: positive reinforcement, negative reinforcementbrugsignaaltimingshaping behaviourveilig voedselbeloningen aanbieden, cues, reinforcer (= versterkers) en de leer theorie.

#2 Het paard reageert niet op de clicker
Kan het paard het brugsignaal (de click, tongklik of je speciale woord) horen? Kent jouw paard de betekenis van je brugsignaal? Gemiddeld duurt het 30 tot 50 herhalingen voordat een paard heeft geleerd dat het brugsignaal (click + beloning, click + beloning, click + beloning enz.) de aankondiging is van iets prettigs.

Klinkt je brugsignaal altijd hetzelfde? Een clicker maakt slechts één soort geluid en daardoor ‘reist’ het altijd over hetzelfde pad in de hersenen. Met andere woorden: het paard weet, dat als hij dat geluid hoort, altijd een beloning volgt.

Als men een speciaal woord gebruikt, kan het langer duren voordat dit als ‘brugsignaal’ in de paardenhersenen gegrift staat. De stem wordt beïnvloed door vele factoren: emoties, een verkoudheid, het volume, toonhoogte.

Doordat een gesproken brugsignaal altijd een klein beetje anders klinkt, duurt het langer voor een paard het voldoende generaliseert. Hij moet altijd eerst ‘beslissen’ of dit wel of niet het brugsignaal was. Het kan daardoor ook iets langer duren voor het paard goed reageert op het brugsignaal en het aangeduide gedrag gaat herhalen.

Als men verschillende soorten brugsignalen gebruikt, moet men zich ervan verzekeren dat ze allemaal apart zijn aangeleerd.

Het kan ook zijn dat het paard het brugsignaal nog niet associeert met de beloning die erop volgt, zie #3.

#3 Het paard is niet geïnteresseerd in beloningen
Het ‘geheim’ dat in de beloningen schuilt, is dat het het gewenste gedrag moet versterken. ‘De ontvanger bepaalt de beloning’ wordt vaak gezegd in clickertraining. Dat houdt in dat als het paard het gewenste gedrag niet opnieuw wil uitvoeren nadat hij ervoor beloont was, de beloning dus niet belonend werkte.

Het is aan de trainer om te ontdekken wat het paard wil en wat zijn behoeften zijn. Een beloning kan ook veranderen in waarde. Een plukje lekker ruikend hooi kan in de winter een lekkere beloning zijn, maar niet in de lente als hij in een weiland vol sappig voorjaarsgras loopt. Het is de verantwoordelijkheid van de trainer om uit te vinden wat werkt voor dat paard op dat moment.

#4 Het paard let niet op de trainer
Waarom niet? Is er iets urgenter dan de aanwijzingen van de trainer? Kan de afleiding worden weggehaald of kan het paard beter elders getraind worden die dag? Denkt het paard dat hij in gevaar is? Het doet er niet toe of de persoon het gevaar niet ziet of denkt dat het paard zich ‘aanstelt’. Voor het paard is het echt!

Is het paard in de leermodus? Is hij ontspannen genoeg en voldoende geïnteresseerd om iets nieuws te leren?

Reageert het paard goed op het brugsignaal, zie #2? Zijn de cues duidelijk en begrijpt het paard ze? Houdt de trainer het paard betrokken of is hij zelf afgeleid? Is het paard gefrustreerd of heeft hij zich mentaal afgesloten om een of andere reden? Werken de beloningen gedragsversterkend? Wordt het juiste gedrag gemarkeerd door het brugsignaal? Het draait allemaal om timing: ‘You get what you reinforce’.

_clickertraining_hippologic_reinforce

#5 Clickertraining lijkt slechts in sommige gevallen te werken
Het kan zijn dat het paard niet in de beloning geïnteresseerd is die dag, zie bij #3. Hij kan afgeleid zijn, zie bij #4. Het kan zijn dat de cue nog niet voldoende is bevestigd in een andere trainingsomgeving. Paarden leren in een bepaalde context en als daarin iets veranderd moet het paard opnieuw leren de cue van de trainer daaruit destilleren.

Het paard reageert niet zo goed omdat de trainer zijn criteria te snel omhoog gooit. Als de trainingsstappen te groot zijn of er teveel criteria tegelijk veranderen, snapt het paard het niet meer. Dit wordt ook wel ‘lumping’ genoemd in het Engels. Voorkom ‘lumping’ door een goed shaping plan te maken. Het beloningsschema is te voorspelbaar, zie bij #6.

#6 Het paard presteert slechter door clickertraining
De beloningen hebben hun waarde verloren waardoor het paard geen interesse meer heeft. Het kan ook zijn dat het beloningsschema te voorspelbaar is geworden waardoor het gedrag juist ‘uitdooft’ (niet meer vertoond wordt). Met andere woorden: de click motiveert het paard niet meer.

Uiteraard is dit slechts het topje van de ijsberg van mogelijke oorzaken waarom ‘clickertraining / positive reinforcement niet werkt’ voor jou(w paard).

Welke oorzaken kun jij nog noemen?

Sandra Poppema
Bezoek mijn website voor persoonlijk advies of hulp bij clickertraining

Volg mijn blog ook op Bloglovin