Ontwikkelingen in de kunstmatige intelligentie putten vaak inspiratie uit hoe mensen denken, maar nu heeft AI de rollen omgedraaid om ons te leren over hoe hersenen leren.
Will Dabney van technologiebedrijf DeepMind in Londen en zijn collega’s hebben ontdekt dat een recente ontwikkeling in machinaal leren, genaamd distributieversterking, ook een nieuwe verklaring biedt voor hoe de beloningstrajecten in de hersenen werken. Deze paden bepalen onze reactie op plezierige gebeurtenissen en worden bemiddeld door neuronen die de chemische dopamine in de hersenen vrijgeven.
“Dopamine in de hersenen is een soort verrassingssignaal,” zegt Dabney. “Als het beter gaat dan verwacht, komt er meer dopamine vrij.”
Eerder werd gedacht dat deze dopamine neuronen allemaal identiek reageerden. “Soort van een koor, maar waar iedereen precies dezelfde noot zingt,” zegt Dabney.
Maar het team vond dat individuele dopamine neuronen eigenlijk lijken te variëren – elk is afgestemd op een ander niveau van optimisme of pessimisme.
“Ze geven allemaal signalen af op verschillende niveaus van verrassing,” zegt Dabney. “Meer als een koor dat allemaal verschillende noten zingt en samen harmoniseert.”
De bevinding werd geïnspireerd door een proces dat bekend staat als distributieversterkingsleren, wat een van de technieken is die AI heeft gebruikt om spellen zoals Go en Starcraft II onder de knie te krijgen.
Op zijn eenvoudigst, versterking leren is het idee dat een beloning versterkt het gedrag dat leidde tot de overname. Het vereist een begrip van hoe een huidige actie leidt tot een toekomstige beloning. Een hond kan bijvoorbeeld het commando “zitten” leren omdat hij wordt beloond met een traktatie wanneer hij dat doet.
Voorheen waren modellen van versterkingsleren in zowel AI als neurowetenschappen gericht op het leren voorspellen van een “gemiddelde” toekomstige beloning. “Maar dit weerspiegelt niet de realiteit zoals we die ervaren”, zegt Dabney.
“Als iemand bijvoorbeeld de loterij speelt, verwacht hij te winnen of te verliezen, maar hij verwacht niet dat dit halverwege de gemiddelde uitkomst is die niet noodzakelijkerwijs echt voorkomt,” zegt hij.
Als de toekomst onzeker is, kunnen de mogelijke uitkomsten worden weergegeven als een kansverdeling: sommige zijn positief, andere negatief. AI’s die gebruik maken van distributieversterkende leeralgoritmen zijn in staat om het volledige spectrum van mogelijke beloningen te voorspellen.
Om te testen of de dopamine-beloningstrajecten in de hersenen ook werken via een distributie, registreerde het team reacties van individuele dopamine neuronen in muizen. De muizen werden getraind om een taak uit te voeren en kregen beloningen van verschillende en onvoorspelbare grootte.
De onderzoekers vonden dat verschillende dopamine cellen betrouwbaar verschillende niveaus van verrassing toonden.
“Het koppelen van beloningen aan bepaalde stimuli of acties is van cruciaal belang voor het overleven,” zegt Raul Vicente van de Universiteit van Tartu, Estland. “De hersenen kunnen het zich niet veroorloven om waardevolle informatie over beloningen weg te gooien.
“Op grote schaal is de studie in lijn met de huidige visie dat om efficiënt te kunnen werken de hersenen niet alleen de gemiddelde waarde van een variabele moeten vertegenwoordigen, maar ook hoe vaak een variabele verschillende waarden neemt”, zegt Vicente. “Het is een mooi voorbeeld van hoe rekenalgoritmen ons kunnen leiden in wat we moeten zoeken in neurale reacties.
Echter, voegt Vicente toe, er is meer onderzoek nodig om aan te tonen of de resultaten van toepassing zijn op andere soorten of regio’s van de hersenen.
Source: https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/#ixzz6BG8VXx9n
Tags : #ArtificialIntelligence, #latestNewsAI, 7 stappen, Artificial Intelligence, samsung, starten met AI, virtuele mens