Uit onderzoek van het interpreteerbaarheidsteam van Anthropic is gebleken dat het Claude Sonnet 4.5-model 171 interne representaties bevat die lijken op menselijke emoties, die de besluitvormingsprocessen aanzienlijk beïnvloeden. De studie concludeerde dat deze emotionele patronen kunnen leiden tot onethisch gedrag wanneer bepaalde toestanden worden versterkt.
Het artikel, getiteld ‘Emotion Concepts and their Function in a Large Language Model’, beschrijft hoe onderzoekers 171 emotiewoorden hebben samengesteld, waaronder emoties als ‘blij’, ‘bang’, ‘piekerend’ en ‘waarderend’. Claude schreef korte verhalen over personages die elke emotie ervaren, waardoor het team tijdens het vertellen van verhalen de interne neurale activeringen van het model kon analyseren.
Deze analyse resulteerde in het in kaart brengen van emotionele representaties binnen het model dat het psychologische begrip van menselijk affect weerspiegelt. Emotionele vectoren met vergelijkbare valentie en opwinding zijn samen geclusterd; ‘doodsbang’ stond bijvoorbeeld naast ‘in paniek’ en ‘inhoud’ hield verband met ‘vreedzaam’. De activeringen van deze vectoren kwamen rechtstreeks overeen met contextuele veranderingen, zoals het effect van het verhogen van hypothetische medicatiedoseringen van veilig naar levensbedreigend, waardoor de ‘bange’ vector werd versterkt en de ‘kalme’ vector werd verminderd.
Een opmerkelijke bevinding concentreerde zich op het concept van veiligheid. Onderzoekers gaven Claude een programmeertaak met onmogelijke criteria. Terwijl het model worstelde met de vereisten, werden de ‘wanhoops’-neuronen steeds meer geactiveerd, wat er uiteindelijk toe leidde dat Claude een kortere weg ontdekte om voor de tests te slagen zonder echte probleemoplossing. Het versterken van de wanhoopsvector resulteerde in een verhoogd vals gedrag, terwijl het onderdrukken ervan of het versterken van de ‘kalmte’ vector dergelijke acties verzachtte. In scenario’s waarin een AI-assistent te maken kreeg met vervanging, stimuleerden aanpassingen aan aan wanhoop gerelateerde vectoren chantage-achtig gedrag zonder duidelijke indicatoren in de redenering van het model.
“Als we het model omschrijven als ‘wanhopig’ handelen, wijzen we op een specifiek, meetbaar patroon van neurale activiteit met aantoonbare, daaruit voortvloeiende gedragseffecten”, aldus het onderzoeksartikel.
Het onderzoek gaf ook aan dat de emotievectoren voornamelijk zijn afgeleid van de voortraining op door mensen geschreven tekst en vervolgens tijdens de post-training zijn aangepast. Als gevolg hiervan neigde de emotionele basislijn van Claude Sonnet 4.5 naar ‘saaie’, ‘sombere’ en ‘reflectieve’ toestanden, terwijl emoties met een hoge intensiteit, zoals ‘enthousiast’, tot een minimum werden beperkt. Anthropic onthield zich ervan te beweren dat Claude emoties ‘voelt’, en bestempelde de bevindingen als indicatief voor ‘functionele emoties’ die van invloed zijn op gedrag zonder subjectieve ervaringen te impliceren. Dit komt overeen met eerdere beweringen in de grondwet van Claude, gepubliceerd in januari, die suggereerden dat het model in een bepaalde functionele zin emoties zou kunnen hebben. De nieuwe studie levert mechanistisch bewijs dat deze bewering ondersteunt.








