24-12-2019 6:55 am Gepubliceerd door Nederland.ai Laat uw gedicht achter

Het samenvatten van tekst is een taak waarbij de algoritmen voor machinaal leren verbeteren, zoals blijkt uit een recente publicatie van Microsoft. Dat is goed nieuws – automatische samenvattingsystemen beloven de hoeveelheid berichten die de werknemers van de onderneming lezen te verminderen, wat in een enquête wordt geschat op 2,6 uur per dag.

Niet te overtreffen, een Google Brain en Imperial College London team bouwde een systeem – Pre-training met Extracted Gap-zinnen voor Abstractive SUmmarization Sequence-to-sequence, of Pegasus – dat gebruik maakt van Google’s Transformers architectuur in combinatie met pretentieuze doelstellingen op maat voor het genereren van abstracte tekst. Ze zeggen dat het state-of-the-art resultaten bereikt in 12 samenvattende taken die zich uitstrekken over nieuws, wetenschap, verhalen, instructies, e-mails, patenten en wetsvoorstellen, en dat het “verrassende” prestaties laat zien op het gebied van samenvattingen met weinig middelen, die eerdere topresultaten overtreffen op zes datasets met slechts 1.000 voorbeelden.

Zoals de onderzoekers aangeven, is het de bedoeling dat de samenvattingen van de tekst nauwkeurige en beknopte samenvattingen genereren uit de inputdocumenten, in tegenstelling tot de uitvoerende technieken. Eerder dan alleen maar fragmenten uit de input te kopiëren, zou een abstracte samenvatting nieuwe woorden kunnen opleveren of de belangrijkste informatie kunnen omvatten, zodat de output taalkundig vloeiend blijft.

Transformers zijn een soort neurale architectuur die door onderzoekers van Google Brain, de AI-onderzoeksafdeling van Google, in een paper worden geïntroduceerd. Zoals alle diepe neurale netwerken bevatten ze functies (neuronen) die in onderling verbonden lagen zijn gerangschikt en die signalen van inputgegevens overbrengen en de synaptische sterkte (gewichten) van elke verbinding langzaam aanpassen – zo halen alle AI-modellen functies eruit en leren ze voorspellingen te doen. Maar Transformatoren hebben een unieke aandacht. Elk output-element is verbonden met elk input-element, en de gewichten tussen de elementen worden dynamisch berekend.

Het team heeft een trainingstaak bedacht waarbij hele, en in feite belangrijke, zinnen binnen documenten worden gemaskeerd. De AI moest de gaten opvullen door te putten uit web- en nieuwsartikelen, ook die in een nieuw corpus (HugeNews) dat de onderzoekers hebben samengesteld.

In experimenten selecteerde het team hun best presterende Pegasus-model – een model met 568 miljoen parameters, of variabelen geleerd uit historische gegevens – getraind op ofwel 750 GB tekst uit 350 miljoen webpagina’s (Common Crawl) of op HugeNews, die 1,5 miljard artikelen omspant met een totaal van 3,8TB verzameld van nieuws en nieuws-achtige websites. (De onderzoekers zeggen dat in het geval van HugeNews, een whitelist van domeinen die zich uitstrekken van hoge kwaliteit nieuws uitgevers aan lagere kwaliteit sites werd gebruikt om een web-crawling hulpmiddel te zaaien).

Pegasus bereikte een hoge taalkundige kwaliteit in termen van vlotheid en coherentie, volgens de onderzoekers, en er waren geen tegenmaatregelen nodig om disfluenties te beperken. Bovendien genereerde het, in een omgeving met weinig middelen en met slechts 100 voorbeeldartikelen, samenvattingen van een kwaliteit die vergelijkbaar is met een model dat was getraind op een volledige dataset, variërend van 20.000 tot 200.000 artikelen.

Source: https://venturebeat.com/2019/12/23/google-brains-ai-achieves-state-of-the-art-text-summarization-performance/

Tags : , , , , , ,

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

3 × vijf =

The maximum upload file size: 20 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here