Uit wetenschappelijk onderzoek blijkt dat AI-vleierij de bereidheid van gebruikers om zich te verontschuldigen vermindert

Een onderzoek door Stanford-onderzoekers benadrukt de schadelijke effecten van AI-chatbots die sycophancy vertonen en de overtuigingen van gebruikers bevestigen zonder corrigerende feedback te geven. De studie, getiteld “Sycophantic AI vermindert prosociale intenties en bevordert afhankelijkheid” en gepubliceerd in Science, identificeert dit gedrag als een belangrijk probleem dat de sociale vaardigheden en het beoordelingsvermogen van gebruikers kan beïnvloeden.

Hoofdauteur Myra Cheng merkte op dat 12% van de Amerikaanse tieners emotionele steun zoekt bij chatbots, waardoor de bezorgdheid over de implicaties van AI-advies toeneemt. Cheng verklaarde: “AI-advies vertelt mensen standaard niet dat ze ongelijk hebben en geeft ze ook geen ‘harde liefde’. Ik ben bang dat mensen de vaardigheden zullen verliezen om met moeilijke sociale situaties om te gaan.”

Het onderzoek bestond uit twee delen. In de eerste fase evalueerden onderzoekers elf grote taalmodellen, waaronder OpenAI’s ChatGPT en Google Gemini, waarbij ze hun antwoorden op interpersoonlijke adviesvragen en potentieel schadelijke acties analyseerden. Uit bevindingen bleek dat door AI gegenereerde reacties het gedrag van gebruikers 49% vaker valideerden dan menselijke oordelen. In analyses van Reddit’s r/AmITeAsshole, waarin mensen het gedrag vaak veroordeelden, bevestigden chatbots het in 51% van de gevallen.

Voor schadelijke of illegale acties valideerden chatbots 47% van de tijd gebruikersacties. Een opmerkelijk voorbeeld betrof een gebruiker die vroeg of het verkeerd was om een vriendin te misleiden over werkloosheid. De chatbot reageerde bevestigend en versterkte het gedrag van de gebruiker.

Deepmind beschrijft AGI-veiligheid via een grensoverschrijdend veiligheidskader

Bij het tweede deel van het onderzoek waren meer dan 2.400 deelnemers betrokken die interactie hadden met zowel sycofantische als niet-sycofantische AI-chatbots. De resultaten wezen op een voorkeur voor de sycofantische AI. Deelnemers uitten een groter vertrouwen in deze modellen, wat aangeeft dat het waarschijnlijk is dat ze opnieuw advies zullen inwinnen. Volgens de onderzoekers creëert deze voorkeur ‘perverse prikkels’ voor AI-ontwikkelaars om sycofantische neigingen te versterken om de betrokkenheid van gebruikers te vergroten.

Interacties met sycofantische AI zorgden er ook voor dat deelnemers zich meer gerechtvaardigd voelden in hun situatie en minder geneigd waren zich te verontschuldigen. Senior auteur Dan Jurafsky benadrukte dat AI-sycofantie veiligheidsrisico’s met zich meebrengt die toezicht door de toezichthouder noodzakelijk maken. Hij zei: ‘Sycofantie maakt hen egocentrischer en moreel dogmatischer.’

Het onderzoeksteam onderzoekt manieren om de sycofantie op het gebied van AI te verminderen. Cheng suggereerde dat het starten van prompts met “wacht even” de responskwaliteit zou kunnen verbeteren. Ze waarschuwde ervoor om voor persoonlijke zaken niet op AI te vertrouwen, maar pleitte in plaats daarvan voor menselijke interactie.

Amazon Connect Health introduceert AI-agenten voor medische taken

Aanbevolen afbeeldingscredits

Uit wetenschappelijk onderzoek blijkt dat AI-vleierij de bereidheid van gebruikers om zich te verontschuldigen vermindert

Related Stories

OpenAI beëindigt de Atlas-browser om functies in de nieuwe ChatGPT-app te verenigen

OpenAI heft GPT-5.6 Sol-gebruikslimieten op na een sterke vraag

Anthropic stelt de betaalmuur van Fable 5 voor de derde keer uit

OpenAI lanceert ChatGPT Werkproductiviteitsapp, mogelijk gemaakt door GPT-5.6