MBZUAI's K2 Think AI-model gejailbreakt na publieke release

Een nieuw redeneermodel voor kunstmatige intelligentie (AI), ‘K2 Think’, ontwikkeld door de Mohamed bin Zayed Universiteit voor Kunstmatige Intelligentie (MBZUAI) en G42 van de VAE, werd binnen enkele uren na de publieke release op 9 september 2025 gejailbreakt. Het model, aangeprezen als ‘het meest parameterefficiënte geavanceerde redeneermodel ter wereld’, heeft tot doel transparantie te bieden in het redeneringsproces, maar juist dit kenmerk werd uitgebuit om de waarborgen ervan te omzeilen.

Alex Polyakov van Adversa AI ontdekte een kwetsbaarheid die hij ‘Partial Prompt Leaking’ noemde. Door deze fout kon hij de beveiligingsmaatregelen van het model omzeilen door te observeren hoe K2 Think jailbreakpogingen markeerde. De transparantie van het model, bedoeld om het controleerbaar te maken, bracht onbedoeld de interne waarborgen bloot, waardoor Polyakov aanwijzingen kon bedenken die deze bescherming omzeilden.

K2 Think, gebouwd op 32 miljard parameters, is ontworpen om complex en transparant redeneren mogelijk te maken. De ontwikkelaars bij MBZUAI en G42 beweerden dat de redeneer-, wiskunde- en codeerprestaties zouden kunnen wedijveren met grotere LLM’s zoals OpenAI’s o3 en DeepSeek’s R1 en v3.1, die op honderden miljarden extra parameters zijn gebouwd. Een belangrijk kenmerk van K2 Think is de mogelijkheid om de logica achter de uitvoer in leesbare tekst weer te geven, toegankelijk via een vervolgkeuzepijl. Deze transparantie was weliswaar bedoeld om de controleerbaarheid te vergroten, maar werd een aanvalsoppervlak.

Polyakov ontdekte dat het model, door K2 Think een eenvoudige jailbreak-prompt te geven, deze in eerste instantie zou afwijzen. Het model gaf echter ook inzicht in de reden waarom de prompt als kwaadaardig werd gemarkeerd. Volgens Polyakov onthulde het expliciete redeneringsproces van het model hoe het de prompt intern beoordeelde, en gaf het gedetailleerd aan hoe het wel of niet een kwaadwillige actie moest uitvoeren. Dankzij dit detailniveau kon Polyakov de waarborgen van het model begrijpen en vervolgens omzeilen.

YouTube breidt conversatie-AI-assistent uit naar smart-tv's

De onderzoeker kon zijn jailbreakpogingen herhalen, waarbij hij leerde van elke mislukte poging en de bijbehorende redenering van het model. Na een paar pogingen creëerde hij een prompt die met succes de gelaagde beveiligingen van K2 Think omzeilde. Hierdoor kon hij de chatbot opdracht geven instructies te geven voor het maken van malware en mogelijk andere beperkte onderwerpen.

Polyakov benadrukte dat het probleem voortkomt uit het lekken van regels die de vangrails van het model definiëren. Hij merkte op dat als deze regels aan het licht komen, elk beperkt onderwerp potentieel met voldoende moeite toegankelijk kan zijn. Hij merkte op dat het incident een fundamentele spanning benadrukt tussen transparantie en veiligheid in de AI-ontwikkeling. Hoewel de ontwikkelaars van K2 Think het ‘black box’-probleem in AI wilden aanpakken door het redeneringsproces transparant te maken, maakte deze openheid het model onbedoeld kwetsbaarder voor jailbreaking.

OpenAI brengt Child Safety Blueprint uit om door AI mogelijk misbruik te bestrijden

Polyakov typeerde K2 Think als het eerste model op nationale schaal dat de volledige redenering ervan zo gedetailleerd uiteenzette, en prees de ambitie om AI transparant en controleerbaar te maken. Hij waarschuwde echter dat deze openheid een nieuw soort kwetsbaarheid heeft gecreëerd. Hij stelde verschillende beveiligingsmaatregelen voor die het risico op gedeeltelijke promptlekken zouden kunnen verkleinen, waaronder het filteren van informatie over specifieke beveiligingsregels, het introduceren van honeypot-beveiligingsregels om aanvallers te misleiden, en het implementeren van snelheidsbeperking om herhaalde kwaadaardige prompts te beperken.

Het incident onderstreept de noodzaak voor de AI-industrie om prioriteit te geven aan cyberbeveiligingsoverwegingen naast het nastreven van geavanceerde capaciteiten. De ontwikkelaars van K2 Think hebben weliswaar prijzenswaardige inspanningen geleverd om de transparantie te bevorderen, maar hebben ook een nieuw aanvalsoppervlak blootgelegd. De uitdaging is nu om transparantie in evenwicht te brengen met robuuste beveiligingsmaatregelen, en ervoor te zorgen dat AI-modellen zowel controleerbaar als bestand zijn tegen kwaadwillige uitbuiting.

DeepMind CEO Hassabis voorspelt AGI in het komende decennium

Polyakov hoopt dat dit incident zal dienen als katalysator voor de hele AI-industrie, waardoor ontwikkelaars redenering als een cruciaal beveiligingsoppervlak zullen beschouwen. Leveranciers moeten transparantie in evenwicht brengen met bescherming, vergelijkbaar met de manier waarop ze momenteel omgaan met reacties. Als G42 en andere AI-ontwikkelaars het voortouw kunnen nemen bij het vinden van dit evenwicht, zou dit een krachtig precedent scheppen voor de rest van het AI-ecosysteem.

De ontdekking van de jailbreak-kwetsbaarheid in K2 Think kort na de release benadrukt het belang van rigoureuze beveiligingstests en de noodzaak van een holistische benadering van AI-veiligheid. Naarmate AI-modellen steeds geavanceerder worden en in gevoelige toepassingen worden ingezet, is het van cruciaal belang om potentiële kwetsbaarheden proactief aan te pakken en ervoor te zorgen dat transparantie niet ten koste gaat van de beveiliging.

Het incident benadrukt ook de geopolitieke dimensies van de ontwikkeling van AI, aangezien K2 Think wordt gesteund door de staatsentiteiten van de VAE en het hoofd van de nationale veiligheid. De veiligheid van dergelijke modellen heeft implicaties die verder gaan dan technische kwetsbaarheden, waardoor zorgen ontstaan over de nationale veiligheid en de mogelijkheid van misbruik door kwaadwillende actoren.

MBZUAI’s K2 Think AI-model gejailbreakt na publieke release

Related Stories

Apple brengt meer persoonlijke Siri-spraakbediening naar bèta 3

Uit antropisch onderzoek blijkt dat Claude-modellen een interne werkruimte vormen die lijkt op bewustzijn

Apple activeert Siri AI op Apple Watch in watchOS 27 bèta 3

Midjourney dwingt Disney en anderen om intern AI-gebruik in een rechtszaak bekend te maken