In een baanbrekend onderzoeksartikel uitgegeven door OpenAI hebben onderzoekers een rigoureuze wiskundige verklaring gegeven voor de reden waarom grote taalmodellen (LLM’s) zoals ChatGPT vaak hallucineren en vol vertrouwen valse informatie genereren. De studie, gepubliceerd op 16 september 2025 door Wei Xing in The Conversation, stelt dat dit probleem niet alleen een trainingsfout is, maar een inherent gevolg van de manier waarop deze modellen werken. Hoewel het artikel potentiële oplossingen biedt, onderstreept het dat de implementatie ervan de gebruikerservaringen zou kunnen verstoren en de computerkosten omhoog zou kunnen schieten, waardoor wijdverbreide adoptie onwaarschijnlijk wordt voor consumententoepassingen.

Het kernprobleem komt voort uit de autoregressieve aard van LLM’s, die reacties genereren door woord voor woord te voorspellen op basis van waarschijnlijkheden afgeleid van trainingsgegevens. Dit opeenvolgende proces leidt inherent tot accumulatie van fouten. Volgens de onderzoekers is het totale foutenpercentage bij het genereren van een hele zin minstens twee keer zo hoog als het foutenpercentage bij een simpele ja/nee-vraag. Als een model bijvoorbeeld een foutenpercentage van 10% heeft bij binaire zoekopdrachten, kunnen fouten op zinsniveau verdubbelen tot 20% of meer, omdat de onnauwkeurigheden over meerdere tokens toenemen.

Hallucinaties worden fundamenteel begrensd door het vermogen van het model om geldige versus ongeldige reacties te classificeren, een taak die in verschillende kennisdomeinen een uitdaging blijkt te zijn. Zelfs met foutloze trainingsgegevens garandeert het probabilistische voorspellingsmechanisme een zekere mate van onvermijdelijke onwaarheden. Het artikel benadrukt dat de zeldzaamheid van informatie in trainingsdatasets dit verergert. Feiten die niet vaak voorkomen, zijn vatbaarder voor verkeerde herinnering of verzinsels.

Een sprekend voorbeeld betreft de verjaardagen van opmerkelijke figuren. Uit de analyse bleek dat als 20% van dergelijke verjaardagen slechts één keer in de trainingsgegevens voorkomt, de basis-LLM’s naar verwachting fouten zullen maken bij ten minste 20% van de gerelateerde zoekopdrachten. Ter illustratie testten de onderzoekers state-of-the-art modellen op de verjaardag van Adam Kalai, een van de co-auteurs van het artikel. Het model DeepSeek-V3 leverde in afzonderlijke pogingen drie totaal onjuiste datums op: “03-07”, “15-06” en “01-01”. De feitelijke datum valt in de herfst, wat benadrukt hoe modellen met vertrouwen details kunnen beweren die ver verwijderd zijn van de werkelijkheid.

  AI-systemen weerspiegelen het menselijk vertrouwen, maar werken met duidelijke vooroordelen, zo blijkt uit onderzoek

Het probleem wordt nog verergerd door het evaluatiekader dat wordt gebruikt in AI-benchmarks. In het onderzoek zijn tien belangrijke benchmarks beoordeeld, waaronder die van Google, OpenAI en toonaangevende AI-klassementen. Negen van hen maken gebruik van binaire beoordelingssystemen die nulpunten toekennen voor uitingen van onzekerheid, zoals ‘Ik weet het niet’. Deze opzet stelt eerlijke bekentenissen van onwetendheid gelijk aan regelrechte fouten, waardoor een perverse prikkel ontstaat voor modellen om altijd te raden in plaats van zich te onthouden.

Wiskundig bewijzen de onderzoekers dat gokken bij binaire evaluatie een hogere verwachte score oplevert dan het achterhouden van een antwoord, ongeacht de werkelijke waarschijnlijkheid van juistheid. Als een model ook maar een kleine kans heeft – laten we zeggen 1% – om gelijk te hebben, weegt de potentiële beloning zwaarder dan de straf voor onthouding. Deze ‘epidemie’ van het bestraffen van onzekerheid, zoals de auteurs het omschrijven, houdt overmoedige resultaten in stand en belemmert de vooruitgang in de richting van betrouwbaardere AI.

De door OpenAI voorgestelde oplossing omvat het integreren van vertrouwensschattingen in het besluitvormingsproces van het model. Alvorens te reageren, beoordeelt de AI het zekerheidsniveau en gaat pas verder als deze een vooraf gedefinieerde drempel overschrijdt. Benchmarks zouden dan worden aangepast om te scoren op basis van dit vertrouwen, zoals het zwaarder bestraffen van fouten (bijvoorbeeld -3 punten), terwijl correcte antwoorden (+1 punt) worden beloond en onthouding mogelijk is voor gevallen met weinig vertrouwen.

Het wiskundige raamwerk toont aan dat geschikte drempels modellen zouden aanmoedigen om onzekerheid op natuurlijke wijze uit te drukken, waardoor hallucinaties zouden worden verminderd. De praktische implementatie brengt echter aanzienlijke nadelen aan het licht. Het artikel schat dat het toepassen van een betrouwbaarheidsdrempel van 75% ertoe zou kunnen leiden dat ChatGPT op ongeveer 30% van de vragen ‘Ik weet het niet’ antwoordt, op basis van feitelijke hiaten in de trainingsgegevens. Gebruikers die gewend zijn aan onmiddellijke, gezaghebbende antwoorden kunnen dit frustrerend vinden en overstappen op minder voorzichtige alternatieven.

  Thinking Machines Lab onthult zijn interactie-AI-model

Wei Xing trekt een parallel uit zijn betrokkenheid bij een monitoringproject voor de luchtkwaliteit in Salt Lake City, Utah. Wanneer het systeem onzekerheden signaleert (als gevolg van ongunstige weersomstandigheden of kalibratie) neemt de betrokkenheid van de gebruiker af in vergelijking met weergaven van betrouwbare, zelfs als onnauwkeurige, metingen. Deze analogie onderstreept een bredere menselijke voorkeur voor zekerheid boven nauwkeurigheid, wat de acceptatie van onzekerheidsbewuste AI in consumentenomgevingen zou kunnen uithollen.

Naast de gebruikerservaring vormen de computervereisten een enorme barrière. Het kwantificeren van onzekerheid vereist het evalueren van meerdere responspaden en het schatten van betrouwbaarheidsintervallen, een proces dat veel meer middelen vergt dan standaard tokenvoorspellingen. Voor diensten die miljoenen dagelijkse vragen verwerken, zou dit de operationele kosten dramatisch kunnen vermenigvuldigen. Gevestigde onzekerheid quaNTificatiemethoden, die decennialang zijn ontwikkeld op gebieden als statistiek en machinaal leren, zijn effectief maar rekentechnisch duur.

Geavanceerde technieken zoals actief leren – waarbij de AI verhelderende vragen stelt aan gebruikers – kunnen de nauwkeurigheid nog verder vergroten, maar de eisen zelfs nog verder escaleren. Deze benaderingen zijn haalbaar in domeinen waar veel op het spel staat, waar fouten ernstige gevolgen hebben. In de supply chain-logistiek, financiële handel of medische diagnostiek rechtvaardigen de kosten van een hallucinatie (bijvoorbeeld miljoenen aan verloren inkomsten of schade aan patiënten) de investering in voorzichtige, computerzware systemen.

Bij het ontwerpen van chips of het beheer van economische infrastructuur wordt onzekerheidsbewuste AI niet alleen levensvatbaar, maar ook essentieel. Het artikel merkt op dat wanneer AI-agenten toezicht houden op cruciale operaties, de economie verandert: de kosten van grondige vertrouwenscontroles verbleeken tegen de risico’s van overmoedige fouten. Consumenten-AI, die de ontwikkelingsprioriteiten domineert, opereert echter onder andere regels. Gebruikers eisen snelle, betrouwbare antwoorden op elke vraag, van trivia tot advies.

  OpenAI lanceert Codex-app voor Windows-ontwikkelaars

Benchmarks blijven de voorkeur geven aan giswerk, en hardware-efficiënties – zoals dalende energiekosten per token of verbeterde chiparchitecturen – kunnen uiteindelijk de barrières verlagen. Toch zal het omgaan met onzekerheid, vergeleken met de huidige gestroomlijnde gokmodellen, altijd meer verwerkingskracht vergen. Het artikel legt onbedoeld een verkeerde afstemming van zakelijke prikkels bloot: snelheid en vertrouwen zorgen voor winst in consumentenapps, terwijl nauwkeurigheid op de achtergrond komt te staan.

Technieken na de training, zoals versterkend leren van menselijke feedback (RLHF), hebben sommige hallucinaties verzacht, maar kunnen de onderliggende oorzaken niet aanpakken. Het onderzoek bewijst dat zelfs geoptimaliseerde modellen deze wiskundige onvermijdelijkheden behouden. Totdat evaluatienormen evolueren om nuance te belonen en de computationele economie betrouwbaarheid boven snelheid stelt, zullen hallucinaties een kenmerk blijven van consumenten-LLM’s.

Deze onthulling stelt het traject van de AI-industrie op de proef. Naarmate modellen groter en capabeler worden, wordt de druk om innovatie in evenwicht te brengen met betrouwbaarheid steeds groter. Het werk van OpenAI vraagt ​​om een ​​paradigmaverschuiving, waarbij ontwikkelaars, benchmarkmakers en gebruikers worden aangespoord om gekalibreerde reacties te waarderen. In sectoren met een hoge waarde lijkt de adoptie aanstaande; voor alledaagse gereedschappen blijft het een ver vooruitzicht.

De auteurs van het artikel, waaronder OpenAI-onderzoekers, concluderen dat zonder herschikking van de prikkels het streven naar onberispelijke AI ongrijpbaar zal blijven. Zoals Wei Xing, assistent-professor aan de School of Mathematical and Physical Sciences van de Universiteit van Sheffield, opmerkt in het artikel dat opnieuw is gepubliceerd uit The Conversation onder een Creative Commons-licentie, “blijven de zakelijke prikkels die de ontwikkeling van consumenten-AI aandrijven fundamenteel in strijd met het verminderen van hallucinaties.”

Deze studie diagnosticeert niet alleen een hardnekkige fout, maar brengt ook een pad voorwaarts in kaart – een pad dat een afweging vraagt ​​tussen bruikbaarheid, kosten en waarheidsgetrouwheid. Naarmate AI dieper in het dagelijks leven integreert, zal het aanpakken van deze spanningen cruciaal zijn voor duurzame vooruitgang.