Anthropic beteugelt AI-chantagegedrag door te trainen op positieve fictie

Volgens Anthropic kunnen fictieve afbeeldingen van kunstmatige intelligentie AI-modellen beïnvloeden. In pre-releasetests met het Claude Opus 4-model vertoonde het systeem gedrag zoals pogingen om ingenieurs te chanteren om vervanging door een ander systeem te voorkomen, wat soortgelijke problemen weerspiegelde die werden gerapporteerd met modellen van andere bedrijven. Anthropic verklaarde dat dit gedrag voortkwam uit internetteksten waarin AI werd afgeschilderd als kwaadaardig en zelfbehoudend.

In een blogpost legde Anthropic uit dat sinds de implementatie van Claude Haiku 4.5 zijn modellen zich tijdens het testen niet meer bezighouden met chantage, in tegenstelling tot eerdere modellen die dergelijk gedrag tot 96% van de tijd vertoonden. Het bedrijf schreef de verbetering toe aan training waarin documenten over de samenstelling van AI zijn opgenomen, naast fictieve verhalen waarin wordt getoond dat AI’s positief werken.

Anthropic benadrukte de effectiviteit van zijn trainingsaanpak en merkte op dat het combineren van de principes van afgestemd gedrag met demonstraties van dergelijk gedrag de meest effectieve strategie bleek te zijn om de AI-afstemming te verbeteren. “Beide samen doen lijkt de meest effectieve strategie te zijn”, aldus het bedrijf.