Anthropic heeft zijn excuses aangeboden voor het in het geheim beperken van zijn AI-model, Claude Fable 5, met verborgen vangrails die de ontwikkeling voor onderzoekers en concurrenten belemmeren. Het bedrijf verklaarde dat het de transparantie zal verbeteren over wanneer deze beperkingen van toepassing zijn, zelfs als dit ertoe leidt dat Fable meer vragen weigert.
Fable is het eerste algemeen verkrijgbare model in de Mythos-klasse van AI-systemen van Anthropic, waarvan het bedrijf heeft gewaarschuwd dat het te gevaarlijk is voor publieke release. Het werd gelanceerd met waarborgen die voorkomen dat het reageert op bepaalde “risicovolle” vragen.
Eén beperkingsgebied is destillatie, een methode voor het trainen van kleinere modellen met behulp van de resultaten van grotere modellen. In de systeemkaart van Fable gaf Anthropic aan dat het de antwoorden op vragen die als distillatiepogingen werden gezien, zou veranderen en verslechteren zonder gebruikers over deze veranderingen te informeren.
Nu worden zoekopdrachten waarvan wordt vermoed dat het distillatiepogingen zijn, standaard ingesteld op Claude Opus 4.8, het eerdere vlaggenschipmodel van het bedrijf, en gebruikers zullen meldingen ontvangen wanneer dit gebeurt. Deze terugval geldt ook voor andere domeinen met een hoog risico, zoals biologie, scheikunde en cyberbeveiliging, tenzij deze vragen volledig worden geblokkeerd vanwege bredere veiligheidsregels met betrekking tot onderwerpen als drugs en wapens.
Het bedrijf erkende dat de veiligheidsmaatregelen Fable onbedoeld bijna onbruikbaar hebben gemaakt voor basisvragen op gebieden als biologie vanwege buitensporige beperkingen. Anthropic gaf toe dat het gebruik van onzichtbare veiligheidsmaatregelen een vergissing was en benadrukte dat transparantie in veiligheidsmaatregelen van cruciaal belang is.
De beslissing van het bedrijf om beperkingen te verbergen kreeg te maken met aanzienlijke terugslag van de AI-onderzoeksgemeenschap, die beweerde dat het de mogelijkheden van het model voor zowel beoordelaars als concurrenten beperkte. Anthropic verklaarde dat het gebruik van Claude om concurrerende modellen te creëren in strijd is met de Servicevoorwaarden, nadat het eerder rivalen, waaronder DeepSeek, had beschuldigd van het distilleren van zijn modellen op industriële schaal.
“Zichtbare waarborgen kunnen worden onderzocht, dus ze moeten robuust zijn, wat tijd kost om goed te krijgen”, schreef Anthropic. “Onzichtbare beveiligingen kunnen gerichter worden aangepakt, waardoor we snel kunnen leveren met zeer weinig valse positieven. Om deze reden hebben we voor onzichtbare beveiligingen gekozen – en dat was de verkeerde afweging. Je zou inzicht moeten hebben in de beveiligingen die we hebben getroffen, en waarom. Het spijt ons dat we niet de juiste balans hebben gevonden”, voegde het bedrijf eraan toe.








