03-02-2020 5:38 am Gepubliceerd door Nederland.ai Laat uw gedicht achter

Tot voor kort waren computers hopeloos in het produceren van zinnen die echt zinnig waren. Maar op het gebied van de natuurlijke taalverwerking (NLP) zijn grote stappen gezet en machines kunnen nu met een druk op de knop overtuigende passages genereren.

Deze vooruitgang is gedreven door deep-learning technieken, die statistische patronen in woordgebruik en argumentatiestructuur uit grote hoeveelheden tekst halen. Maar een nieuw document van het Allen Institute of Artificial Intelligence vestigt de aandacht op iets wat nog ontbreekt: machines begrijpen niet echt wat ze schrijven (of lezen).

Dit is een fundamentele uitdaging in het grootse streven naar generaliseerbare AI, maar buiten de academische wereld is het ook relevant voor de consument. Chatbots en stemassistenten die gebaseerd zijn op state-of-the-art natuurtaalmodellen zijn bijvoorbeeld de interface geworden voor veel financiële instellingen, zorgverleners en overheidsinstellingen. Zonder een echt begrip van taal zijn deze systemen eerder geneigd om te falen, waardoor de toegang tot belangrijke diensten wordt vertraagd.

De onderzoekers bouwden voort op het werk van de Winograd Schema Challenge, een test die in 2011 in het leven werd geroepen om de common-sense redenering van NLP-systemen te evalueren. De uitdaging maakt gebruik van een set van 273 vragen met zinnenparen die op één woord na identiek zijn. Dat woord, dat bekend staat als een trigger, draait de betekenis van het voornaamwoord van elke zin om, zoals te zien is in het onderstaande voorbeeld:

  • De trofee past niet in de bruine koffer omdat die te groot is.
  • De trofee past niet in de bruine koffer omdat deze te klein is.

Om te slagen moet een NLP-systeem uitzoeken naar welke van de twee opties het voornaamwoord verwijst. In dit geval zou het “trofee” voor de eerste en “koffer” voor de tweede moeten selecteren om het probleem correct op te lossen.

De test is oorspronkelijk ontworpen met het idee dat dergelijke problemen niet kunnen worden beantwoord zonder een dieper begrip van de semantiek. State-of-the-art deep-learning modellen kunnen nu ongeveer 90% nauwkeurigheid bereiken, dus het lijkt erop dat NLP dichter bij zijn doel is gekomen. Maar in hun paper, dat op de AAAI-conferentie van volgende maand de Outstanding Paper Award zal ontvangen, dagen de onderzoekers de effectiviteit van de benchmark uit en daarmee de mate van vooruitgang die het veld daadwerkelijk heeft geboekt.

Ze creëerden een aanzienlijk grotere dataset, WinoGrande genaamd, met 44.000 van dezelfde soort problemen. Hiervoor hebben ze een crowdsourcingschema ontworpen om snel nieuwe zinsparen te creëren en te valideren. (Een deel van de reden dat de Winograd-dataset zo klein is, is dat deze met de hand is gemaakt door deskundigen). Werknemers op Amazon Mechanical Turk creëerden nieuwe zinnen met vereiste woorden geselecteerd door middel van een randomisatieprocedure. Elk zinnenpaar werd vervolgens aan drie extra arbeiders gegeven en alleen bewaard als het aan drie criteria voldeed: ten minste twee arbeiders selecteerden de juiste antwoorden, alle drie achtten ze de opties ondubbelzinnig, en de referenties van het voornaamwoord konden niet worden afgeleid door middel van eenvoudige woordverbindingen.

Als laatste stap hebben de onderzoekers de dataset ook door een algoritme laten lopen om zoveel mogelijk “artefacten” te verwijderen – onbedoelde gegevenspatronen of correlaties die een taalmodel zouden kunnen helpen om tot de juiste antwoorden te komen om de verkeerde redenen. Dit verkleinde de kans dat een model de dataset zou kunnen leren bespelen.

Toen ze de state-of-the-art modellen op deze nieuwe problemen testten, daalden de prestaties tot tussen 59,4% en 79,1%. Daarentegen bereikte de mens nog steeds 94% nauwkeurigheid. Dit betekent dat een hoge score op de oorspronkelijke Winograd-test waarschijnlijk wordt opgeblazen. “Het is gewoon een dataset-specifieke prestatie, geen algemene taakverwezenlijking”, zegt Yejin Choi, een associate professor aan de Universiteit van Washington en een senior onderzoeksmanager bij AI2, die het onderzoek leidde.

Choi hoopt dat de dataset zal dienen als een nieuwe benchmark. Maar ze hoopt ook dat het meer onderzoekers zal inspireren om verder te kijken dan diepgaand leren. De resultaten benadrukten haar dat echte common-sense NLP-systemen andere technieken moeten bevatten, zoals gestructureerde kennismodellen. Haar eerdere werk is veelbelovend in deze richting. “We moeten op de een of andere manier een ander spelplan vinden”, zegt ze.

De krant heeft enige kritiek gekregen. Ernest Davis, een van de onderzoekers die aan de oorspronkelijke Winograd-uitdaging heeft gewerkt, zegt dat veel van de voorbeeldzinnenparen die in de paper worden genoemd “ernstig tekortschieten”, met verwarrende grammatica. “Ze komen niet overeen met de manier waarop mensen die Engels spreken daadwerkelijk voornaamwoorden gebruiken,” schreef hij in een e-mail.

Maar Choi merkt op dat echt robuuste modellen geen perfecte grammatica nodig hebben om een zin te begrijpen. Mensen die Engels als tweede taal spreken, halen soms hun grammatica door elkaar, maar geven toch hun betekenis door.

“Mensen kunnen gemakkelijk begrijpen waar onze vragen over gaan en het juiste antwoord kiezen,” zegt ze, verwijzend naar de 94%-prestatienauwkeurigheid. “Als mensen dat zouden moeten kunnen, is mijn standpunt dat machines dat ook zouden moeten kunnen.”

Tags : , , , ,

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

4 + 19 =

The maximum upload file size: 20 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here