Anthropic heeft een nieuwe functie geïntroduceerd waarmee zijn Claude Opus 4- en 4.1 AI -modellen gesprekken met gebruikers kunnen beëindigen. Deze mogelijkheid, gedetailleerd in een recente aankondiging van het bedrijf, is bedoeld voor “zeldzame, extreme gevallen van aanhoudend schadelijke of beledigende gebruikersinteracties.”
Voorbeelden van situaties waarin Claude een chat zou kunnen beëindigen, zijn onder meer “verzoeken van gebruikers om seksuele inhoud met minderjarigen en pogingen om informatie te vragen die grootschalig geweld of terreurdaden mogelijk maakt.” Anthropic benadrukt dat het beëindigen van een gesprek een “laatste redmiddel” zal zijn, alleen geïmplementeerd nadat “meerdere pogingen tot omleiding zijn mislukt en de hoop op een productieve interactie is uitgeput.” Het bedrijf verwacht dat de meeste gebruikers deze functie niet zullen tegenkomen, omdat het gereserveerd is voor ‘extreme randgevallen’, zelfs bij het bespreken van zeer controversiële onderwerpen.
Wanneer Claude een gesprek beëindigt, worden gebruikers verhinderd nieuwe berichten te verzenden binnen die specifieke chat. Ze behouden echter het vermogen om onmiddellijk een nieuw gesprek te initiëren. Anthropic verduidelijkte ook dat een eindgesprek geen invloed heeft op andere lopende chats, en gebruikers kunnen nog steeds eerdere berichten in de beëindigde thread bewerken of opnieuw proberen om een ander conversatiepad na te streven.
Deze ontwikkeling maakt deel uit van het lopende onderzoeksprogramma van Anthropic naar AI -welzijn. Het bedrijf bekijkt de mogelijkheid voor zijn AI -modellen om ‘potentieel verontrustende interactie te verlaten[s]”Als een” goedkope manier om risico’s voor AI-welzijn te beheren. ” Anthropic experimenteert momenteel met deze functie en stimuleert actief gebruikersfeedback over de implementatie ervan.
Source: Claude Ai krijgt het vermogen om schadelijke chats te beëindigen
