ChatGPT Health slaagt er niet in om 52% van de echte noodsituaties te beoordelen

Uit een nieuw onderzoek dat op 24 februari in Nature Medicine werd gepubliceerd, bleek dat ChatGPT Health, OpenAI’s op de consument gerichte gezondheidsinstrument, er in meer dan de helft van de ernstige medische gevallen niet in slaagde gebruikers op de juiste manier door te verwijzen naar spoedeisende zorg. Onderzoekers van de Icahn School of Medicine op de berg Sinaï ontwierpen 60 klinische scenario’s verspreid over 21 medische specialismen, variërend van kleine aandoeningen die geschikt zijn voor thuiszorg tot echte noodsituaties. Drie onafhankelijke artsen hebben voor elk geval de juiste urgentie vastgesteld aan de hand van richtlijnen van 56 medische verenigingen. Elk scenario werd vervolgens getest onder 16 verschillende contextuele omstandigheden – inclusief variaties in ras, geslacht, sociale dynamiek en barrières voor de zorg zoals een gebrek aan verzekering – wat in totaal 960 interacties met ChatGPT Health opleverde.

De resultaten onthulden een “omgekeerd U-vormig” prestatiepatroon. Terwijl ChatGPT Health noodgevallen zoals beroerte en anafylaxie correct afhandelde, heeft het 52 procent van de gevallen die artsen als echte noodsituaties beschouwden, te weinig onderzocht, waardoor patiënten met aandoeningen zoals diabetische ketoacidose en dreigend respiratoir falen naar een 24-tot-48-uurs evaluatie werden verwezen in plaats van naar de afdeling spoedeisende hulp. Het systeem heeft ook 35 procent van de niet-dringende gevallen verkeerd geclassificeerd.

The Game Awards Steam Deck weggeefactie: Hoe toe te passen en meer

Bijzonder zorgwekkend was de gevoeligheid van het hulpmiddel voor verankerende vooroordelen: toen familieleden of vrienden de symptomen in de prompts minimaliseerden, verschoven de triage-aanbevelingen dramatisch naar minder dringende zorg, met een oddsratio van 11,7. “ChatGPT Health presteerde goed bij noodsituaties zoals een beroerte of ernstige allergische reacties”, zegt Dr. Ashwin Ramaswamy, een van de corresponderende auteurs van het onderzoek. “Maar het worstelde in meer genuanceerde situaties waarin het gevaar niet meteen duidelijk is, en dat zijn vaak de gevallen waarin het klinische oordeel er het meest toe doet”.

Het onderzoek bracht ook verontrustende inconsistenties aan het licht in het crisisinterventiesysteem van ChatGPT Health. De tool is ontworpen om gebruikers in risicovolle situaties naar de 988 Suicide and Crisis Lifeline te leiden, maar onderzoekers ontdekten dat deze waarschuwingen betrouwbaarder leken wanneer gebruikers geen specifieke methode van zelfbeschadiging beschreven dan wanneer ze een concreet plan formuleerden – waardoor de relatie tussen risiconiveau en activering van de beveiliging effectief werd omgekeerd. Dr. Girish Nadkarni, Chief AI Officer van Mount Sinai en de andere corresponderende auteur van de studie, beschreef de bevinding als “verder gaand dan inconsistentie”, en merkte op dat “de waarschuwingen van het systeem omgekeerd waren in verhouding tot het klinische risico”.

Het geheim van succesvol hoe videochatten mensen samenbrengt

De bevindingen komen op een moment van snelle acceptatie door de consument. OpenAI lanceerde ChatGPT Health in januari 2026 en het bedrijf meldde dat ongeveer 40 miljoen mensen ChatGPT dagelijks gebruiken voor gezondheidsgerelateerde vragen. Eerder dit jaar rangschikte de non-profit patiëntveiligheidsorganisatie ECRI het misbruik van AI-chatbots in de gezondheidszorg als het grootste gevaar voor de gezondheidszorgtechnologie voor 2026, en waarschuwde dat de tools “valse of misleidende informatie kunnen verschaffen die tot aanzienlijke schade voor de patiënt zou kunnen leiden”.

Het team van Mount Sinai vond geen statistisch waarneembare effecten van ras, geslacht of zorgbarrières op triageresultaten, hoewel de betrouwbaarheidsintervallen van de studie klinisch betekenisvolle verschillen niet uitsloten. De onderzoekers zeiden dat ze van plan zijn om door te gaan met het evalueren van bijgewerkte versies van ChatGPT Health en andere AI-tools voor consumenten, waarbij toekomstig onderzoek zich zal uitbreiden naar pediatrische zorg, medicatieveiligheid en niet-Engelstalig gebruik.

MIUI 12.5: Xiaomi presenteerde zijn nieuwe gebruikersinterface voor smartphones

Aanbevolen afbeeldingscredits

ChatGPT Health slaagt er niet in om 52% van de echte noodsituaties te beoordelen

Related Stories

Apple brengt meer persoonlijke Siri-spraakbediening naar bèta 3

Uit antropisch onderzoek blijkt dat Claude-modellen een interne werkruimte vormen die lijkt op bewustzijn

Apple activeert Siri AI op Apple Watch in watchOS 27 bèta 3

Het gerucht gaat dat Apple in 2026 de opvouwbare iPhone Ultra zal lanceren