22-01-2020 5:22 am Gepubliceerd door Nederland.ai Laat uw gedicht achter

Het trainen van een kunstmatige intelligentie agent om zoiets als het navigeren in een complexe 3D wereld te doen is rekenkundig duur en tijdrovend. Om deze potentieel bruikbare systemen beter te kunnen creëren, hebben de Facebook-ingenieurs enorme efficiëntievoordelen behaald door in wezen de langzaamste van het peloton achter te laten.

Het maakt deel uit van de nieuwe focus van het bedrijf op “belichaamde AI”, dat wil zeggen systemen voor machinaal leren die op intelligente wijze met hun omgeving interageren. Dat kan van alles betekenen – bijvoorbeeld het reageren op een spraakcommando met behulp van een conversatiecontext, maar ook subtielere dingen zoals een robot die weet dat hij de verkeerde kamer van een huis is binnengedrongen. Precies waarom Facebook zo geïnteresseerd is dat ik het aan je eigen speculaties overlaat, maar feit is dat ze serieuze onderzoekers hebben gerekruteerd en gefinancierd om dit en aanverwante domeinen van AI-werk te onderzoeken.

Om dergelijke “belichaamde” systemen te creëren, moet je ze trainen met behulp van een redelijke facsimile van de echte wereld. Je kunt niet verwachten dat een AI die nog nooit een echte hal heeft gezien, weet wat muren en deuren zijn. En gezien hoe traag echte robots in het echte leven bewegen, kun je niet verwachten dat ze hier hun lessen leren. Dat is wat Facebook ertoe bracht om Habitat te creëren, een set van gesimuleerde real-world-omgevingen die zo fotorealistisch zijn dat wat een AI leert door ze te navigeren, ook kan worden toegepast op de echte wereld.

Dergelijke simulatoren, die gebruikelijk zijn in robotica en AI-trainingen, zijn ook nuttig omdat je, als simulatoren, vele gevallen van hen tegelijkertijd kunt uitvoeren – voor eenvoudige, duizenden tegelijk, elk met een agent in het proberen om een probleem op te lossen en uiteindelijk de bevindingen terug te rapporteren aan het centrale systeem dat het verzonden heeft.

Helaas gebruiken fotorealistische 3D-omgevingen veel rekenwerk in vergelijking met eenvoudiger virtuele omgevingen, wat betekent dat onderzoekers zich beperken tot een handvol gelijktijdige instances, waardoor het leren wordt vertraagd tot een vergelijkende crawl.

De Facebook-onderzoekers, onder leiding van Dhruv Batra en Erik Wijmans, de eerste een professor en de tweede een promovendus aan Georgia Tech, hebben een manier gevonden om dit proces te versnellen met een orde van grootte of meer. En het resultaat is een AI-systeem dat met een succespercentage van 99,9% en weinig fouten een 3D-omgeving van begin tot eind kan navigeren.

Eenvoudige navigatie is fundamenteel voor een werkende “belichaamde AI” of robot, en daarom koos het team ervoor om deze te vervolgen zonder extra moeilijkheden toe te voegen.

“Het is de eerste taak. Vergeet het antwoord op de vraag, vergeet de context – kan je gewoon van punt A naar punt B gaan? Als de agent een kaart heeft, is dit gemakkelijk, maar zonder kaart is het een open probleem”, zegt Batra. “Mislukkeling bij de navigatie betekent dat elke stapel die er boven op gebouwd is, naar beneden zal vallen.”

Het probleem, vonden ze, was dat de trainingssystemen te veel tijd besteedden aan het wachten op slowpokes. Misschien is het niet eerlijk om ze zo te noemen – dit zijn AI-agenten die om welke reden dan ook gewoonweg niet in staat zijn om hun taak snel uit te voeren.

“Het is niet per se zo dat ze langzaam leren”, legt Wijmans uit. “Maar als je het navigeren van een eenkamerappartement simuleert, is het veel makkelijker om dat te doen dan het navigeren van een 10-slaapkamer herenhuis.”

Het centrale systeem is ontworpen om te wachten op alle uitgezonden agenten om hun virtuele taken te voltooien en terug te rapporteren. Als een enkele agent er 10 keer langer over doet dan de rest, betekent dit dat er een enorme hoeveelheid tijd wordt verspild terwijl het systeem zit te wachten, zodat het zijn informatie kan bijwerken en een nieuwe batch kan versturen.

De innovatie van het Facebook-team is om deze ongelukkige achterblijvers op intelligente wijze af te snijden voordat ze klaar zijn. Na een bepaalde tijd in de simulatie zijn ze klaar, en de gegevens die ze hebben verzameld worden toegevoegd aan de voorraad.

“Je hebt al deze arbeiders aan het werk, en ze doen allemaal hun ding, en ze praten allemaal met elkaar,” zei Wijmans. “Men zal de anderen vertellen, “oké, ik ben bijna klaar,” en ze zullen allemaal rapporteren over hun vooruitgang. Wie ziet dat ze achterblijven bij de rest zal de hoeveelheid werk die ze doen voor de grote synchronisatie die plaatsvindt, verminderen”.

Als een machine leren agent zou kunnen voelen slecht, ik weet zeker dat het zou op dit punt, en inderdaad dat agent krijgt “gestraft” door het systeem, in dat het niet zo veel virtuele “versterking” als de anderen. De antropomorfe termen maken dit meer menselijk dan het is – in wezen inefficiënte algoritmen of algoritmen die in moeilijke omstandigheden worden geplaatst, worden gedegradeerd in belang. Maar hun bijdragen zijn nog steeds waardevol.

“We maken gebruik van alle ervaring die de werkers opdoen, ongeacht of het een succes of een mislukking is – we leren er nog steeds van”, legt Wijmans uit.

Dit betekent dat er geen verspilde kringlopen zijn waarbij sommige werknemers wachten op de voltooiing van andere. Door op tijd meer ervaring op te doen met de taak die voor ons ligt, gaat de volgende groep van iets betere werkers veel eerder naar buiten, een zelfversterkende cyclus die serieuze winst oplevert.

In de experimenten die ze uitvoerden, vonden de onderzoekers dat het systeem, met de pakkende naam Decentralized Distributed Proximal Policy Optimization of DD-PPO, bijna ideaal leek te schalen, waarbij de prestaties bijna lineair toenamen tot meer rekenkracht gewijd aan de taak. Dat wil zeggen, het verhogen van de rekenkracht 10x resulteerde in bijna 10x de resultaten. Aan de andere kant leidden standaard algoritmen tot zeer beperkte schaalvergroting, waarbij 10x of 100x de rekenkracht slechts een kleine verhoging van de resultaten oplevert vanwege de manier waarop deze geavanceerde simulatoren zichzelf hamstreren.

Deze efficiënte methoden laten de Facebook-onderzoekers agenten produceren die een point to point navigatietaak in een virtuele omgeving kunnen oplossen binnen de hun toegewezen tijd met een betrouwbaarheid van 99,9%. Ze toonden zelfs robuustheid aan voor fouten en vonden een manier om snel te herkennen dat ze een verkeerde afslag hadden genomen en de andere kant op terug te gaan.

De onderzoekers speculeerden dat de agenten hadden geleerd om “de structurele regelmatigheden uit te buiten”, een uitdrukking die in sommige omstandigheden betekent dat de AI bedacht heeft hoe ze moeten bedriegen. Maar Wijmans verduidelijkte dat het waarschijnlijker is dat de omgevingen die ze gebruikten een aantal real-world lay-out regels hebben.

“Dit zijn echte huizen die we hebben gedigitaliseerd, dus ze leren dingen over hoe huizen in westerse stijl worden ingericht”, zei hij. Enkel aangezien u niet de keuken zou verwachten om direct in een slaapkamer binnen te gaan, heeft AI geleerd om andere patronen te erkennen en andere ,,veronderstellingen” te maken.

Het volgende doel is om een manier te vinden om deze agenten hun taak met minder middelen te laten uitvoeren. Elke agent had een virtuele camera het navigeerde met dat op voorwaarde dat het gewone en diepte beelden, maar ook een onfeilbare coördinaten systeem om te vertellen waar het reisde en een kompas dat altijd gericht op het doel. Was het maar altijd zo makkelijk! Maar tot dit experiment was het succespercentage zelfs met die middelen aanzienlijk lager, zelfs met veel meer trainingstijd.

Habitat zelf krijgt ook een nieuwe verflaag met enige interactiviteit en aanpasbaarheid.

“Voor deze verbeteringen was Habitat een statisch universum”, legt Wijmans uit. “De agent kan zich verplaatsen en tegen muren botsen, maar hij kan geen lade openen of een tafel omverwerpen. We hebben het zo gebouwd omdat we een snelle, grootschalige simulatie wilden – maar als je taken als ‘ga mijn laptop van mijn bureau halen’ wilt oplossen, kun je die laptop maar beter ook daadwerkelijk oppakken”.

Daarom laat Habitat gebruikers nu objecten toevoegen aan kamers, krachten toepassen op die objecten, controleren op botsingen, enzovoort. Immers, er is meer in het echte leven dan alleen maar disembodied glijden rond een wrijvingsloze 3D-constructie.

De verbeteringen moeten Habitat een robuuster platform voor experimenten maken, en zullen het ook mogelijk maken voor agenten die erin getraind zijn om het leren direct over te brengen naar de echte wereld – iets waar het team al aan begonnen is en waar het binnenkort een paper over zal publiceren.

Tags : , , ,

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

14 + 12 =

The maximum upload file size: 256 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here