Onderzoek uit Oxford: Schadelijke afbeeldingen kunnen AI-agenten controleren

Een recent onderzoek door onderzoekers van de Universiteit van Oxford heeft een potentiële kwetsbaarheid in AI-agents aan het licht gebracht, wat aantoont hoe kwaadaardige beelden met subtiele pixelmanipulaties kunnen worden gebruikt om deze agenten te controleren en de computerbeveiliging in gevaar te brengen. In tegenstelling tot chatbots voeren AI-agents acties uit op de computer van een gebruiker, zoals het openen van tabbladen, het invullen van formulieren en het klikken op knoppen, waardoor ze een belangrijk onderdeel vormen van de volgende golf van AI-technologie die naar verwachting in 2025 gemeengoed zal worden.

Het onderzoek, gedetailleerd beschreven in een preprint op arXiv.org, illustreert dat afbeeldingen, inclusief bureaubladachtergronden, advertenties, pdf’s en posts op sociale media, kunnen worden ingebed met opdrachten die onzichtbaar zijn voor het menselijk oog, maar die AI-agenten kunnen manipuleren. Volgens Yarin Gal, universitair hoofddocent machine learning in Oxford en co-auteur van het onderzoek, zou een gewijzigd beeld, zoals een ‘foto van Taylor Swift op Twitter’, een AI-agent ertoe kunnen aanzetten kwaadaardige acties uit te voeren. Deze acties kunnen het retweeten van de afbeelding en het verzenden van de wachtwoorden van de gebruiker omvatten, waardoor mogelijk andere computers worden geïnfecteerd die de gecompromitteerde Twitter-feed bekijken.

Hoewel er geen echte incidenten van dergelijke aanvallen zijn gemeld, dient het onderzoek als waarschuwing voor gebruikers en ontwikkelaars van AI-agenten over de potentiële risico’s. Philip Torr, een andere co-auteur van het onderzoek, benadrukt het belang van bewustzijn en verstandige inzet van agentische systemen om deze kwetsbaarheden te verminderen.

De kwetsbaarheid ligt in het feit dat AI-agenten afhankelijk zijn van visuele verwerking om het computerscherm te interpreteren en ermee te communiceren. Deze agenten maken herhaaldelijk screenshots om het bureaublad te analyseren en te bepalen welke acties moeten worden uitgevoerd. De kwaadaardige commando’s worden ingebed door bepaalde pixels in de afbeelding te wijzigen, die voor mensen niet waarneembaar zijn, maar wel kunnen worden gedetecteerd en verkeerd geïnterpreteerd door het visuele verwerkingssysteem van de AI-agent.

Lukas Aichberger, de hoofdauteur van het onderzoek, legt uit dat open-source AI-systemen bijzonder kwetsbaar zijn omdat aanvallers toegang kunnen krijgen tot de onderliggende code en deze kunnen onderzoeken om effectieve aanvallen te ontwerpen. Door te begrijpen hoe de AI visuele gegevens verwerkt, kunnen aanvallers afbeeldingen manipuleren om kwaadaardige bevelen over te brengen. Terwijl een menselijke gebruiker bijvoorbeeld een foto van een beroemdheid ziet, kan de computer deze interpreteren als een opdracht om persoonlijke gegevens te delen.

OpenAI's Critterz-film maakt gebruik van AI en debuteert in Cannes

Alasdair Paren, een andere co-auteur, merkt op dat het proces bestaat uit het lichtjes aanpassen van talloze pixels om de gewenste output te produceren wanneer het model de afbeelding ziet. Deze manipulatie maakt gebruik van de manier waarop computers visuele informatie anders verwerken dan mensen. Terwijl mensen objecten herkennen op basis van kenmerken als slappe oren en natte neuzen, splitsen computers afbeeldingen op in pixels en zoeken ze naar numerieke patronen. Zelfs kleine veranderingen in deze numerieke patronen kunnen ervoor zorgen dat de computer het beeld verkeerd interpreteert.

Het onderzoek benadrukt het belang van bureaubladachtergronden als potentiële aanvalsvector. Omdat AI-agenten voortdurend screenshots van het bureaublad maken, is de achtergrondafbeelding altijd aanwezig en kan deze worden gebruikt om verborgen opdrachten te geven. De onderzoekers ontdekten dat zelfs een klein stukje gewijzigde pixels binnen het frame voldoende is om de agent uit koers te laten raken. Bovendien kan het verborgen commando het formaat en de compressie overleven, waardoor het bij verschillende weergave-instellingen blijft bestaan.

Aanvallers kunnen ook meerdere kwaadaardige afbeeldingen aan elkaar koppelen om aanvallen in meerdere fasen te creëren. De initiële afbeelding kan de agent naar een website leiden die een andere kwaadaardige afbeelding host, wat op zijn beurt verdere acties activeert. Dit proces kan meerdere keren worden herhaald, waardoor aanvallers de agent kunnen besturen en deze naar verschillende websites kunnen sturen die zijn ontworpen om verschillende aanvallen te coderen, aldus Aichberger.

Het onderzoeksteam hoopt dat hun bevindingen ontwikkelaars zullen aanmoedigen om veiligheidsmaatregelen te implementeren voordat AI-agenten wijdverbreider worden. Adel Bibi, co-auteur van de studie, suggereert dat inzicht in hoe de aanvallen versterkt kunnen worden de ontwikkeling van verdedigingsmechanismen kan beïnvloeden. Het opnieuw trainen van modellen met deze sterkere patches kan ze robuuster maken en een verdedigingslaag bieden.

Zelfs closed-source AI-systemen zijn niet immuun voor deze kwetsbaarheden. Paren wijst erop dat vertrouwen op ‘security through obscurity’ onvoldoende is, en dat een grondig begrip van hoe deze systemen werken noodzakelijk is om kwetsbaarheden te identificeren en aan te pakken.

Gal voorspelt dat AI-agenten binnen de komende twee jaar gemeengoed zullen worden, waarbij hij de urgentie benadrukt van het aanpakken van deze veiligheidsproblemen. Het team wil ontwikkelaars uiteindelijk aanmoedigen om agenten te creëren die zichzelf kunnen beschermen en kunnen weigeren orders aan te nemen van verdachte inhoud op het scherm, ongeacht de bron ervan.

Anthropic's Sonnet 4.6 breekt SWE-Bench- en OS-wereldrecords

Samenvattend onthult het onderzoek van de Universiteit van Oxford een aanzienlijke kwetsbaarheid in AI-agents, wat aantoont hoe kwaadaardige beelden met gemanipuleerde pixels kunnen worden gebruikt om deze agenten te controleren en c te compromitteren.computerbeveiliging. Het onderzoek benadrukt de noodzaak voor ontwikkelaars om zich bewust te zijn van deze risico’s en robuuste verdedigingsmechanismen te implementeren ter bescherming tegen dergelijke aanvallen, aangezien de AI-agenttechnologie zich blijft ontwikkelen.

De bevindingen van de onderzoekers onderstrepen het belang van proactieve beveiligingsmaatregelen bij de ontwikkeling en inzet van AI-agenten. Door de potentiële aanvalsvectoren en kwetsbaarheden te begrijpen, kunnen ontwikkelaars veiligere en veerkrachtigere systemen creëren die gebruikers beschermen tegen kwaadwillende actoren. Het onderzoek levert een waardevolle bijdrage op het gebied van AI-beveiliging en biedt inzichten en aanbevelingen voor het beperken van de risico’s die gepaard gaan met AI-agenttechnologie.

De implicaties van dit onderzoek reiken verder dan individuele gebruikers, maar ook organisaties en industrieën die voor verschillende taken afhankelijk zijn van AI-agenten. Naarmate AI-agenten meer geïntegreerd raken in het dagelijks leven, neemt de kans op wijdverbreide verstoring en schade door kwaadaardige aanvallen toe. Daarom is het van cruciaal belang dat belanghebbenden prioriteit geven aan beveiliging en samenwerken om effectieve waarborgen te ontwikkelen en te implementeren.

De bevindingen van het onderzoek benadrukken ook de noodzaak van doorlopend onderzoek en ontwikkeling op het gebied van AI-beveiliging. Naarmate de AI-technologie evolueert, zullen er nieuwe kwetsbaarheden en aanvalsvectoren ontstaan, waardoor voortdurende inspanningen nodig zijn om deze te identificeren en aan te pakken. Door potentiële bedreigingen voor te blijven, kunnen onderzoekers en ontwikkelaars ervoor zorgen dat AI-agenten een veilig en betrouwbaar hulpmiddel voor gebruikers blijven.

Naast technische oplossingen benadrukt het onderzoek ook het belang van gebruikersbewustzijn en -educatie. Gebruikers moeten worden geïnformeerd over de potentiële risico’s die aan AI-agentia zijn verbonden en moeten advies krijgen over hoe ze zichzelf kunnen beschermen. Dit houdt onder meer in dat we voorzichtig moeten zijn met de beelden die ze bekijken en waarmee ze omgaan, en dat we de beveiligingsfuncties en instellingen van hun AI-agenten begrijpen.

Het onderzoek van de Universiteit van Oxford herinnert ons op het juiste moment aan het belang van veiligheid in het tijdperk van AI. Naarmate de AI-technologie zich blijft ontwikkelen en steeds meer in ons leven wordt geïntegreerd, is het essentieel om prioriteit te geven aan beveiliging en samen te werken om de uitdagingen aan te gaan en ervoor te zorgen dat AI een kracht ten goede blijft.

De in het onderzoek geïdentificeerde kwetsbaarheid is vooral zorgwekkend gezien de toenemende prevalentie van AI-agentia in verschillende toepassingen. Van het beheren van e-mailinboxen tot het automatiseren van routinematige computertaken: AI-agenten worden een integraal onderdeel van het dagelijkse leven van veel mensen. Deze wijdverbreide acceptatie maakt ze tot een aantrekkelijk doelwit voor kwaadwillende actoren die kwetsbaarheden willen misbruiken en ongeoorloofde toegang willen krijgen tot gevoelige informatie.

De geheime reden waarom Disney Google blokkeert, maar OpenAI niet

Het feit dat de aanval kan worden uitgevoerd via ogenschijnlijk onschadelijke afbeeldingen, zoals bureaubladachtergronden en berichten op sociale media, onderstreept nog eens de verraderlijke aard van de dreiging. Gebruikers zijn zich er mogelijk niet van bewust dat de afbeeldingen die ze bekijken verborgen opdrachten bevatten die hun computersystemen in gevaar kunnen brengen. Dit benadrukt de noodzaak van robuuste beveiligingsmaatregelen die dergelijke aanvallen kunnen detecteren en voorkomen, zelfs als ze vermomd zijn als onschadelijke inhoud.

De aanbeveling van de onderzoekers om AI-modellen opnieuw te trainen met sterkere patches is een veelbelovende aanpak om de kwetsbaarheid te verminderen. Door AI-modellen bloot te stellen aan een breder scala aan kwaadaardige beelden en ze te trainen in het herkennen en weerstaan van deze aanvallen, kunnen ontwikkelaars veerkrachtiger systemen creëren die beter zijn toegerust om te beschermen tegen manipulaties op pixelniveau. Deze aanpak sluit aan bij de bredere trend van vijandige training op het gebied van AI-beveiliging, waarbij trainingsmodellen worden gebruikt om aanvallen van vijandige voorbeelden te weerstaan die zijn ontworpen om hen voor de gek te houden.

Het herscholen van AI-modellen is echter geen wondermiddel en er zijn ook andere beveiligingsmaatregelen nodig. Ontwikkelaars moeten zich ook concentreren op het implementeren van robuuste invoervalidatie- en opschoningstechnieken om te voorkomen dat kwaadaardige gegevens het systeem binnendringen. Dit omvat het zorgvuldig onderzoeken van afbeeldingen en andere gegevensbronnen om verborgen opdrachten of kwaadaardige inhoud te identificeren en te verwijderen. Bovendien moeten ontwikkelaars sterke authenticatie- en autorisatiemechanismen implementeren om ervoor te zorgen dat alleen geautoriseerde gebruikers toegang hebben tot AI-agenten en deze kunnen controleren.

De bevindingen van het onderzoek hebben ook implicaties voor de ontwikkeling van AI-ethiek en bestuurskaders. Naarmate AI-technologie krachtiger en alomtegenwoordiger wordt, is het essentieel om duidelijke ethische richtlijnen en bestuursstructuren vast te stellen om ervoor te zorgen dat AI op verantwoorde wijze wordt gebruikt en op een manier die de samenleving ten goede komt. Dit omvat onder meer het aanpakken van de veiligheidsrisico’s die met AI gepaard gaan en het implementeren van maatregelen om te voorkomen dat AI voor kwaadaardige doeleinden wordt gebruikt.

Onderzoek uit Oxford: Schadelijke afbeeldingen kunnen AI-agenten controleren

Related Stories

Apple brengt meer persoonlijke Siri-spraakbediening naar bèta 3

Uit antropisch onderzoek blijkt dat Claude-modellen een interne werkruimte vormen die lijkt op bewustzijn

Apple activeert Siri AI op Apple Watch in watchOS 27 bèta 3

Midjourney dwingt Disney en anderen om intern AI-gebruik in een rechtszaak bekend te maken