Voor het eerst kon kunstmatige intelligentie (AI) een hogere nauwkeurigheid bereiken dan mensen bij het herkennen van alledaagse gesprekken. In de toekomst zou de technologie als basis kunnen dienen voor automatische vertalingen.
Digitale assistenten zoals Alexa, Cortana of Siri maken de automatische transcriptie van gesproken teksten en vertalingen mogelijk. Voor dit doel gebruiken spraakherkenningssystemen kunstmatige neurale netwerken die akoestische signalen toewijzen aan individuele lettergrepen en woorden met behulp van bibliotheken. De resultaten zijn nu erg goed als de assistenten rechtstreeks worden aangesproken of als een tekst wordt voorgelezen. In het dagelijks leven doen zich echter nog vaak problemen voor die, zoals recentelijk door de Ruhr-Universität-Bochum (RUB) is uitgevoerd, er ook toe kunnen leiden dat spraakassistenten onbedoeld worden geactiveerd door verkeerd begrepen signaalwoorden.
Ook gesprekken tussen meerdere mensen zorgen op dit moment nog vaak voor problemen. Volgens Alex Waibel van het Karlsruhe Institute of Technology (KIT) “zijn er onderbrekingen, stotteraars, vullende geluiden als ‘ah’ of ‘hm’ en ook gelach of hoest wanneer mensen met elkaar praten. Bovendien, zoals Waibel uitlegt: “Woorden worden vaak op een onduidelijke manier uitgesproken. Als gevolg hiervan hebben zelfs mensen problemen bij het maken van een exacte transcriptie van zo’n informele dialoog. Nog grotere problemen worden echter veroorzaakt door kunstmatige intelligentie (AI).
Alledaagse gesprekken problematisch voor AI
Volgens een voordruk van arXiv zijn wetenschappers rond Waibel er nu in geslaagd een AI te ontwikkelen die alledaagse gesprekken sneller en beter transcribeert dan mensen. Het nieuwe systeem is gebaseerd op een technologie die universitaire colleges in realtime vertaalt uit het Duits en Engels. Zogenaamde encoder-decodernetwerken worden gebruikt om akoestische signalen te analyseren en er woorden aan toe te wijzen. Volgens Waibel is “de herkenning van spontane spraak het belangrijkste onderdeel van dit systeem, omdat fouten en vertragingen de vertaling snel onbegrijpelijk maken.
Verhoogde nauwkeurigheid en verminderde latentie
Nu hebben KIT-wetenschappers het systeem aanzienlijk verbeterd en in het bijzonder de latentie aanzienlijk verminderd. Waibel en zijn team gebruikten een aanpak gebaseerd op de waarschijnlijkheid van bepaalde woordcombinaties en koppelden deze aan twee andere herkenningsmodules.
In een gestandaardiseerde test luisterde het nieuwe spraakherkenningssysteem naar fragmenten uit een verzameling van ongeveer 2.000 uur aan telefoongesprekken, die het systeem automatisch zou transcriberen. Volgens Waibel “is het menselijke foutenpercentage hier ongeveer 5,5 procent. De AI daarentegen haalde slechts een foutenpercentage van 5,0 procent en overtrof daarmee voor het eerst de mens bij het herkennen van alledaagse gesprekken. De latentietijd, dwz de vertraging tussen de aankomst van het signaal en het resultaat, is ook erg snel, gemiddeld 1,63 seconden, maar komt nog niet helemaal in de buurt van de gemiddelde latentie van 1 seconde van een mens.
In de toekomst zou het nieuwe systeem bijvoorbeeld kunnen worden gebruikt als basis voor automatische vertalingen of voor andere scenario’s waarin computers natuurlijke taal moeten verwerken.