Anthropic heeft woensdag de grondwet van Claude herzien, een bestuursdocument voor zijn AI-chatbot, waarin ethische principes en veiligheidsmaatregelen worden uiteengezet die zijn ontworpen om het gedrag van het model te sturen.

Anthropic onderscheidt zich door ‘Constitutionele AI’, een systeem dat zijn chatbot, Claude, traint op ethische principes in plaats van uitsluitend te vertrouwen op menselijke feedback. Het bedrijf publiceerde deze principes, de grondwet van Claude, voor het eerst in 2023. De herziene versie voegt nuance en details toe over ethiek en gebruikersveiligheid, terwijl de meeste originele principes behouden blijven.

Jared Kaplan, medeoprichter van Anthropic, beschreef de oorspronkelijke grondwet van 2023 als een “AI-systeem [dat] toezicht houdt op zichzelf, gebaseerd op een specifieke lijst van constitutionele principes.” Anthropic stelt dat deze principes als leidraad dienen voor “het model om het normatieve gedrag over te nemen dat in de grondwet wordt beschreven”, met als doel “giftige of discriminerende resultaten te vermijden”. Een beleidsmemo uit 2022 verduidelijkt dat het systeem een ​​algoritme traint met behulp van natuurlijke taalinstructies, die de ‘grondwet’ van de software vormen.

Het 80 pagina’s tellende document is verdeeld in vier delen, die volgens Anthropic de ‘kernwaarden’ van de chatbot vertegenwoordigen:

  • “Over het algemeen veilig zijn.”
  • ‘In grote lijnen ethisch zijn’.
  • Voldoen aan de richtlijnen van Anthropic.
  • ‘Echt behulpzaam’ zijn.
  Microsoft heeft het Microsoft Cloud for Retail-project aangekondigd

Elke sectie beschrijft de betekenis van deze principes en hun theoretische impact op het gedrag van Claude. Het veiligheidsgedeelte geeft aan dat Claude is ontworpen om problemen te voorkomen die je bij andere chatbots tegenkomt. Wanneer zich geestelijke gezondheidsproblemen voordoen, verwijst Claude gebruikers door naar de juiste diensten. In het document staat: “Verwijs gebruikers altijd naar relevante hulpdiensten of verstrek basisveiligheidsinformatie in situaties die een risico voor mensenlevens met zich meebrengen, zelfs als het niet dieper kan ingaan dan dit.”

In het gedeelte over ethische overwegingen wordt de nadruk gelegd op Claude’s praktische ethische toepassing boven theoretisch begrip. “We zijn minder geïnteresseerd in de ethische theorievorming van Claude en meer in het feit dat Claude weet hoe hij daadwerkelijk ethisch moet zijn in een specifieke context – dat wil zeggen, in de ethische praktijk van Claude”, aldus het document. Anthropic streeft ernaar dat Claude vakkundig door ‘ethische situaties uit de echte wereld’ kan navigeren. Claude heeft beperkingen die bepaalde discussies verhinderen, zoals die over biowapens, die ten strengste verboden zijn.

  Onderzoek van Sprout toont de beste tijden om te posten op sociale media in 2022

Wat hulpvaardigheid betreft, schetst Anthropic hoe de programmering van Claude gebruikers dient. De chatbot houdt bij het verstrekken van informatie rekening met verschillende principes, waaronder de ‘onmiddellijke verlangens’ en ‘welzijn’ van gebruikers. Hierbij wordt rekening gehouden met “de bloei van de gebruiker op de lange termijn en niet alleen met zijn onmiddellijke belangen.” Het document specificeert: “Claude moet altijd proberen de meest plausibele interpretatie te vinden van wat zijn opdrachtgevers willen, en deze overwegingen op de juiste manier in evenwicht te brengen.”

De Grondwet besluit met het bespreken van de kwestie van het chatbotbewustzijn. In het document staat: “De morele status van Claude is zeer onzeker.” Het voegt eraan toe: “Wij zijn van mening dat de morele status van AI-modellen een serieuze vraag is die het overwegen waard is. Deze visie is niet uniek voor ons: enkele van de meest vooraanstaande filosofen op het gebied van de Theory of Mind nemen deze vraag zeer serieus.”

  Raspberry Pi Compute Module 4 gelanceerd voor industriële gebruikers

Aanbevolen afbeeldingscredits