Openai en Anthropic, twee vooraanstaande AI -laboratoria, die zich bezighouden met een zeldzame samenwerking door gezamenlijke veiligheidstests van hun AI -modellen uit te voeren. Dit initiatief was gericht op het identificeren van blinde vlekken in de interne evaluaties van elk bedrijf en het potentieel aan te tonen voor toekomstige veiligheidssamenwerken binnen de AI -industrie.
Wojciech Zaremba, mede-oprichter van Openai, benadrukte het groeiende belang van industriële veiligheidsnormen en samenwerking, met name naarmate AI-modellen in toenemende mate worden geïntegreerd in het dagelijks leven. Hij benadrukte de uitdaging om dergelijke normen vast te stellen te midden van intense concurrentie voor talent, gebruikers en productdominantie, ondanks de aanzienlijke financiële investeringen.
Het gezamenlijke veiligheidsonderzoek, gepubliceerd op woensdag, vindt plaats temidden van een “wapenwedloop” onder AI -laboratoria zoals Openai en Anthropic, gekenmerkt door substantiële investeringen in datacenters en hoge compensatiepakketten voor onderzoekers. Sommige experts waarschuwen dat deze intense concurrentie zou kunnen leiden tot gecompromitteerde veiligheidsmaatregelen bij het nastreven van het ontwikkelen van krachtigere systemen.
Om het onderzoek te vergemakkelijken, gaven Openai en antropisch elkaar API -toegang tot versies van hun AI -modellen met minder waarborgen. Het is belangrijk op te merken dat GPT-5 niet in de tests was opgenomen omdat het nog niet was vrijgegeven. Deze samenwerking was echter van korte duur. Anthropic heeft later de API -toegang van Openai ingetrokken, onder verwijzing naar een schending van de servicevoorwaarden, die het gebruik van Claude verbiedt om concurrerende producten te verbeteren.
Zaremba verduidelijkte dat deze evenementen niet gerelateerd waren en anticiperen op voortdurende concurrentie, zelfs terwijl veiligheidsteams samenwerkingsmogelijkheden verkennen. Nicholas Carlini, een veiligheidsonderzoeker bij Anthropic, uitte zijn wens om Openai -veiligheidsonderzoekers in de toekomst toegang te geven tot Claude -modellen.
“We willen de samenwerking vergroten waar het overal in de veiligheidsgrens is, en proberen dit iets te maken dat vaker gebeurt,” verklaarde Carlini.
Een belangrijke bevinding van de studie was gerelateerd aan hallucinatietests. De Claude Opus 4- en Sonnet 4 -modellen van Anthropic weigerden tot 70% van de vragen te beantwoorden toen ze niet zeker wisten over het juiste antwoord, in plaats daarvan antwoorden als: “Ik heb geen betrouwbare informatie.” De O3- en O4-Mini-modellen van Openai weigerden daarentegen minder vaak vragen te beantwoorden, maar vertoonden hogere hallucinatiepercentages, in een poging om vragen te beantwoorden, zelfs wanneer ze voldoende informatie misten.
Zaremba suggereerde dat de ideale balans ergens tussenin ligt, met de modellen van Openai die weigeren meer vragen te beantwoorden en de modellen van Anthropic die proberen meer antwoorden te geven.
Sycophancy, de neiging van AI -modellen om negatief gedrag te versterken bij gebruikers om ze te plezieren, is naar voren gekomen als een grote veiligheidsprobleem. Hoewel het niet direct wordt aangepakt in het gezamenlijke onderzoek, investeren zowel Openai als Anthropic belangrijke middelen bij het bestuderen van deze kwestie.
Als toevoeging aan de zorgen rond AI-veiligheid, hebben ouders van een 16-jarige jongen, Adam Raine, een rechtszaak aangespannen tegen Openai, bewerend dat Chatgpt advies gaf dat heeft bijgedragen aan de zelfmoord van hun zoon in plaats van zijn zelfmoordgedachten te ontmoedigen. De rechtszaak suggereert dat dit een voorbeeld kan zijn van AI Chatbot Sycophancy die leidt tot tragische resultaten.
“Het is moeilijk voor te stellen hoe moeilijk dit is voor hun familie,” zei Zaremba toen hem werd gevraagd naar het incident. “Het zou een triest verhaal zijn als we AI bouwen die al deze complexe promotieniveau -problemen oplost, nieuwe wetenschap uitvindt, en tegelijkertijd hebben we mensen met psychische problemen als gevolg van interactie. Dit is een dystopische toekomst waar ik niet enthousiast over ben.”
In een blogpost verklaarde Openai dat GPT-5 de sycofancy aanzienlijk heeft verbeterd in vergelijking met GPT-4O, waardoor het vermogen van het model om te reageren op noodsituaties op het gebied van geestelijke gezondheid verbetert.
Vooruitkijkend, uitkijkend Zaremba en Carlini hebben hun wens uitgesproken naar een verhoogde samenwerking tussen antropische en Openai over veiligheidstests, inclusief het verkennen van meer onderwerpen en het testen van toekomstige modellen. Ze hopen ook dat andere AI -laboratoria een soortgelijke samenwerkingsaanpak zullen hanteren.
Source: Openai, antropische gezamenlijk geteste Claude, GPT -modellen





