OpenAI’s ChatGPT 4.0 beantwoordde 85% van de vragen correct in een klinisch neurologisch onderzoek en overtrof daarmee de gemiddelde menselijke score van 73,8%. Deze prestatie in een proof-of-concept-studie geeft het potentieel van AI in de klinische neurologie aan. De studie, uitgevoerd door onderzoekers van het Universitair Ziekenhuis Heidelberg en het Duitse Kankeronderzoekscentrum, bevatte zowel ChatGPT 3.5 als ChatGPT 4.0.
Vergelijking met oudere versies en menselijke prestaties
Terwijl ChatGPT 4.0 een succespercentage van 85% behaalde, ChatGPT 3.5 scoorde 66,8%. Beide versies van ChatGPT gebruikten consequent zelfverzekerde taal, zelfs als ze onjuist waren. De bevindingen suggereren dat hoewel ChatGPT meerkeuzevragen nauwkeurig kan beantwoorden, dit niet gelijk staat aan het vermogen om klinische geneeskunde uit te oefenen of klinische beslissingen te nemen.
Nog steeds zwakker in het denken van hogere orde
Bij het onderzoek was gebruik gemaakt van een vragenbank van de American Board of Psychiatry and Neurology (ABPN) en de European Board for Neurology. De prestaties van ChatGPT benadrukten de kracht ervan op het gebied van gedrag, cognitieve en psychologische categorieën, maar vertoonden zwakkere prestaties bij taken die denken van een hogere orde vereisen in vergelijking met denktaken van een lagere orde. Bij het onderzoek werden vragen gebruikt die zowel het basisbegrip als het vermogen om informatie toe te passen, te analyseren of te evalueren, beoordeelden.
Onderzoekers: Wees voorzichtig
De resultaten suggereren dat grote taalmodellen zoals ChatGPT zou belangrijke toepassingen kunnen hebben in de klinische neurologie, met verdere verfijningen. De onderzoekers waarschuwen echter voor een overmatig vertrouwen op deze modellen voor cognitieve taken van hoge orde. Het is ook belangrijk op te merken dat de modellen zijn getraind op basis van uitgebreide tekstgegevens, maar niet over zoekmogelijkheden op internet beschikken. Deskundigen benadrukken dat elke toepassing van transformatortechnologie in klinische of educatieve omgevingen zorgvuldige menselijke validatie en factchecking vereist.
Source: ChatGPT demonstreert vaardigheid in het neurologie-examen