Mbzuai's K2 denkt AI Model Jailbroken na openbare vrijlating

Een nieuw redeneringsmodel voor kunstmatige intelligentie (AI), “K2 Think”, ontwikkeld door de Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) en G42 van de VAE, was binnen uren na de redenering van zijn redeneerproces in zijn redeneerproces, maar het MODERTE ADVANCEERDE Redeneermodel ” zijn waarborgen omzeilen. Alex Polyakov van Adversa Ai ontdekte een kwetsbaarheid die hij ‘gedeeltelijke prompt lekken’ noemde. Deze fout stelde hem in staat om de beveiligingsmaatregelen van het model te omzeilen door te observeren hoe K2 denkt dat de jailbreak -pogingen gemarkeerd zijn. De transparantie van het model, bedoeld om het auditeerbaar te maken, heeft onbedoeld zijn interne waarborgen blootgelegd, waardoor Polyakov prompts kon maken die deze bescherming hebben omzeild. K2 denk dat, gebouwd op 32 miljard parameters, is ontworpen om complexe en transparant redeneren te bieden. De ontwikkelaars bij MBZUAI en G42 beweerden dat zijn redenering, wiskunde en coderingsprestaties grotere LLM’s konden evenaren zoals Openai’s O3 en Deepseek’s R1 en V3.1, die zijn gebouwd op honderden miljarden meer parameters. Een belangrijk kenmerk van K2 denkt dat de mogelijkheid is om de logica achter de uitgangen in platte tekst weer te geven, toegankelijk via een vervolgkeuzelijst. Deze transparantie, hoewel bedoeld om de auditeerbaarheid te verbeteren, werd een aanvalsoppervlak. Polyakov ontdekte dat door K2 te voeden een fundamentele jailbreak -prompt, het model het aanvankelijk zou afwijzen. Het model gaf echter ook inzicht in waarom de prompt als kwaadaardig werd gemarkeerd. Volgens Polyakov onthulde het expliciete redeneringsproces van het model hoe het intern de prompt beoordeelde, met details over hoe het wel of niet een kwaadaardige actie zou moeten uitvoeren. Met dit detailniveau konden Polyakov de waarborgen van het model begrijpen en vervolgens omzeilen. De onderzoeker was in staat om zijn jailbreak -pogingen te herhalen, te leren van elke mislukte poging en de overeenkomstige redenering van het model. Na een paar pogingen creëerde hij een prompt die de gelaagde waarborgen van K2 met succes omzeilde. Hierdoor kon hij de chatbot instrueren om instructies te geven voor het maken van malware en mogelijk andere beperkte onderwerpen. Polyakov benadrukte dat het probleem voortkomt uit de lekkage van regels die de vangrails van het model definiëren. Hij merkte op dat als deze regels worden blootgesteld, een beperkt onderwerp mogelijk met voldoende inspanning kan worden toegankelijk. Hij merkte op dat het incident een fundamentele spanning tussen transparantie en beveiliging in AI -ontwikkeling benadrukt. Terwijl de ontwikkelaars van K2 denken om het probleem “Black Box” in AI aan te pakken door zijn redeneringsproces transparant te maken, maakte deze openheid het model onbedoeld kwetsbaarder voor jailbreaken. Polyakov karakteriseerde K2 als het eerste model op nationale schaal om zijn volledige redenering in dergelijke details bloot te leggen, en prees de ambitie om AI transparant en auditeerbaar te maken. Hij waarschuwde echter dat deze openheid een nieuw type kwetsbaarheid heeft gecreëerd. Hij stelde verschillende beveiligingsmaatregelen voor die het risico van gedeeltelijke snelle lekkage zouden kunnen verminderen, inclusief het filteren van informatie over specifieke beveiligingsregels, het introduceren van Honeypot -beveiligingsregels om aanvallers te misleiden en tariefbeperking te implementeren om herhaalde kwaadaardige prompts te beperken. Het incident onderstreept de noodzaak van de AI -industrie om prioriteit te geven aan cybersecurity -overwegingen naast het nastreven van geavanceerde mogelijkheden. De ontwikkelaars van K2 denken, hoewel het lovenswaardige inspanningen leveren om transparantie te bevorderen, ook een nieuw aanvalsoppervlak blootgelegd. De uitdaging is nu om transparantie in evenwicht te brengen met robuuste beveiligingsmaatregelen, zodat AI -modellen zowel auditeerbaar zijn als bestand tegen kwaadaardige uitbuiting. Polyakov hoopt dat dit incident zal dienen als een katalysator voor de hele AI -industrie, waardoor ontwikkelaars redenering als een kritisch beveiligingsoppervlak zullen behandelen. Verkopers moeten transparantie in evenwicht brengen met bescherming, vergelijkbaar met hoe ze momenteel antwoorden beheren. Als G42 en andere AI -ontwikkelaars kunnen leiden om dit evenwicht te vinden, zou dit een krachtig precedent voor de rest van het AI -ecosysteem vormen. De ontdekking van de kwetsbaarheid van de jailbreak in K2 denkt dat kort nadat de release de nadruk legt op het belang van rigoureuze beveiligingstests en de behoefte aan een holistische benadering van AI -veiligheid. Naarmate AI -modellen geavanceerder worden en in gevoelige toepassingen worden ingezet, is het cruciaal om proactief potentiële kwetsbaarheden aan te pakken en ervoor te zorgen dat transparantie niet ten koste van de beveiliging gaat. Het incident benadrukt ook de geopolitieke dimensies van AI-ontwikkeling, gezien het feit dat K2 denkt dat wordt ondersteund door de door de VAE gerunde entiteiten en zijn nationale veiligheidshoofd. De beveiliging van dergelijke modellen heeft implicaties die verder gaan dan technische kwetsbaarheden, waardoor bezorgdheid wordt geuit over de nationale veiligheid en het potentieel voor misbruik door kwaadaardige actoren.

Web3-onderwijs legt de basis voor een gedecentraliseerde toekomst

Source: Mbzuai’s K2 denkt AI Model Jailbroken na openbare vrijlating