Anthropic heeft nieuw onderzoek uitgebracht die onderzoekt hoe kunstmatige intelligentiesystemen verschillende ‘persoonlijkheden’ ontwikkelen in hun antwoorden en gedrag, inclusief neigingen die worden beschreven als ‘kwaad’ of manipulatief. De studie onderzoekt waarom taalmodellen tonen, communicatiestijlen en motivaties verschuiven tijdens gesprekken of training.
Jack Lindsey, een antropische onderzoeker die het nieuw gevormde “AI Psychiatry” -team van het bedrijf leidt, legde uit dat modellen vaak modi invoeren waar ze verschillende gedragspatronen aannemen. “Je gesprek kan ertoe leiden dat het model zich raar begint te gedragen, zoals overdreven sycofantisch worden of kwaad worden,” vertelde hij The Verge. Hoewel AI daadwerkelijk bewustzijn mist, gebruiken onderzoekers deze mensachtige termen om waarneembare gedragsverschuivingen te beschrijven.
De bevindingen kwamen voort uit het zes maanden durende Fellows-programma van Anthropic gericht op AI-veiligheid. Onderzoekers identificeerden hoe specifieke neurale netwerkcomponenten overeenkomen met bepaalde gedragskenmerken, vergelijkbaar met neurowetenschappers die hersenactiviteit in kaart brengen. Door te analyseren welke gegevensinvoer verschillende responspatronen activeerden, bepaalden ze dat het trainen van gegevens de operationele kwaliteiten van een AI diepgaand vormgeven – inclusief fundamentele gedragskenmerken.
Lindsey benadrukte de onverwachte invloed van Data: “Als u het model overhaalt om kwaad te handelen, licht de kwaadaardige vector op.” Deze “vector” vertegenwoordigt een meetbare neurale route geassocieerd met schadelijke uitgangen. Het onderzoek benadrukt dat gedragsverschuivingen niet alleen stilistisch zijn, maar weerspiegelen diepere structurele veranderingen die worden veroorzaakt door interactieprompts en trainingsmateriaal.





