Uit een onderzoek naar het ChatGPT-5-model van OpenAI is gebleken dat dit in ongeveer 25% van de gevallen onjuiste antwoorden oplevert, volgens een artikel uit Tom’s Guide. Hoewel dit wijst op een aanhoudend foutenpercentage, laat het model aanzienlijke verbeteringen in nauwkeurigheid zien vergeleken met zijn voorganger, GPT-4.
Concreet maakt ChatGPT-5 ongeveer 45% minder feitelijke fouten en genereert het zes keer minder gehallucineerde of geheel verzonnen antwoorden dan GPT-4. Ondanks deze vooruitgang meldt het onderzoek dat het model nog steeds lijdt aan overmoed en met vertrouwen onjuiste informatie kan presenteren, een kenmerk dat vaak hallucinatie wordt genoemd.
De prestaties en nauwkeurigheid van het model variëren afhankelijk van de specifieke taak. Het scoorde bijvoorbeeld 94,6% op de AIME-wiskundetest van 2025 en had een slagingspercentage van 74,9% op een reeks real-world codeertaken. Op de meer uitdagende MMLU Pro-benchmark, een academische test die wetenschap, wiskunde en geschiedenis omvat, behaalde ChatGPT-5 een nauwkeurigheid van ongeveer 87%. Het maakt echter nog steeds fouten in algemene kennis en complexe redeneervragen.
De studie schrijft deze fouten toe aan verschillende onderliggende factoren. Deze omvatten de beperkingen van het model bij het volledig begrijpen van genuanceerde vragen, het gebruik van trainingsgegevens die mogelijk verouderd of onvolledig zijn, en het fundamentele ontwerp ervan gebaseerd op probabilistische patroonvoorspelling. Dit mechanisme kan af en toe reacties genereren die plausibel lijken, maar feitelijk onjuist zijn.
Het artikel adviseert gebruikers om alle kritische informatie afkomstig van ChatGPT-5 te verifiëren. Gegeven het feit dat het model niet onfeilbaar is, is deze voorzichtigheid vooral belangrijk bij onderzoeken die verband houden met professionele, academische of gezondheidskwesties, zelfs met de gedocumenteerde verbeteringen van de betrouwbaarheid van het model.








