Guide Labs open-source Steerling-8B om het AI-"black box"-probleem op te lossen

Guide Labs, een in San Francisco gevestigde startup, kondigde maandag de open source aan van Steerling-8B, een groot taalmodel met 8 miljard parameters. Het bedrijf, opgericht door CEO Julius Adebayo en chief science officer Aya Abdelsalam Ismail, ontwikkelde het model met een aparte architectuur die is ontworpen om elk token dat door de LLM wordt gegenereerd terug te leiden naar zijn specifieke oorsprong binnen de trainingsgegevens. Met deze mogelijkheid kunnen gebruikers referentiemateriaal voor feitelijke beweringen identificeren of complexe kenmerken zoals humor en gendercodering binnen de uitvoer van het model analyseren.

De ontwikkeling van Steerling-8B komt voort uit onderzoek dat Adebayo begon tijdens zijn PhD aan het MIT. In 2018 was hij co-auteur van een veel geciteerd artikel waarin hij aantoonde dat bestaande methoden voor het begrijpen van deep learning-modellen onbetrouwbaar waren. Dit fundamentele werk leidde tot een nieuwe methodologie voor het bouwen van LLM’s waarmee de interpreteerbaarheid rechtstreeks in de structuur van het model kan worden geïntegreerd. In plaats van post-hocanalyse toe te passen – wat Adebayo beschrijft als ‘neurowetenschap op een model’ – voegt Guide Labs een conceptlaag in die gegevens in traceerbare categorieën onderbrengt. Hoewel deze aanpak meer voorafgaande gegevensannotatie vereist, ondersteund door andere AI-modellen, wordt er vanaf de basis een transparant raamwerk opgezet.

Straaljagers gerepareerd met 3D-printen: het verlaagt de onderhoudskosten

Ondanks de gestructureerde architectuur behoudt Steerling-8B opkomend gedrag. Het team houdt bij wat zij ‘ontdekte concepten’ noemen, die het model tijdens de training onafhankelijk identificeert. Adebayo noemde quantum computing als voorbeeld van een concept dat het model op zichzelf vond, wat illustreert dat het systeem niet uitsluitend afhankelijk is van vooraf gelabelde gegevenscategorieën.

Adebayo ging in op de complexiteit van het controleren van modelgedrag, met name met betrekking tot gevoelige kenmerken zoals geslacht. “Als ik een biljoen manieren heb om geslacht te coderen, en ik codeer het in 1 miljard van de 1 biljoen dingen die ik heb, moet je ervoor zorgen dat je al die 1 miljard dingen vindt die ik heb gecodeerd, en dan moet je dat op een betrouwbare manier kunnen aan- en uitzetten”, vertelde Adebayo aan TechCrunch. Hij merkte op dat, hoewel de huidige modellen enige controle mogelijk maken, deze kwetsbaar blijven, en karakteriseert hij het betrouwbare beheer van deze coderingen als “een van de heilige graalvragen” in het veld.

Samsung introduceert Galaxy Book Go budgetlaptop: specificaties, prijs en releasedatum

Het bedrijf identificeert verschillende praktische toepassingen voor de interpreteerbaarheid van Steerling-8B. In consumentengerichte toepassingen stelt de architectuur ontwikkelaars in staat auteursrechtelijk beschermd materiaal te blokkeren of output te controleren die verband houdt met gevoelige onderwerpen zoals geweld of drugsmisbruik. In gereguleerde sectoren, met name de financiële sector, maakt het model naleving mogelijk op gebieden als de evaluatie van leningen, waarbij het algoritme kan worden geïnstrueerd om financiële gegevens in aanmerking te nemen, terwijl ras expliciet wordt genegeerd. Guide Labs heeft ook technologie ontwikkeld voor wetenschappelijk onderzoek, waarmee wordt ingespeeld op de behoefte aan inzicht in waarom deep learning-modellen specifieke resultaten opleveren, zoals bij simulaties van eiwitvouwing.

Prestatiebenchmarks geven aan dat Steerling-8B 90% van de mogelijkheden van bestaande, niet-interpreteerbare modellen behaalt, terwijl er minder trainingsgegevens worden gebruikt. Adebayo stelt dat deze efficiëntie een verschuiving aantoont van theoretische wetenschap naar praktische techniek. “Dit model laat zien dat het trainen van interpreteerbare modellen niet langer een soort wetenschap is; het is nu een technisch probleem”, aldus Adebayo. “We hebben de wetenschap ontdekt en we kunnen ze opschalen, en er is geen reden waarom dit soort modellen niet zou kunnen tippen aan de prestaties van de modellen op grensniveau.”

Google Assistant heeft een nieuwe functie genaamd Memory om ideeën, artikelen, afbeeldingen en meer op te slaan

Guide Labs is ontstaan uit Y Combinator en heeft in november 2024 een startronde van $ 9 miljoen binnengehaald van Initialized Capital. De roadmap van het bedrijf omvat het bouwen van een groter model en het bieden van API- en agenttoegang aan gebruikers. Adebayo benadrukte het belang van het democratiseren van de interpreteerbaarheid naarmate AI-systemen krachtiger worden. “De manier waarop we momenteel modellen trainen is superprimitief, en dus zal het democratiseren van de inherente interpreteerbaarheid op de lange termijn een goede zaak zijn voor onze rol binnen het menselijk ras,” zei Adebayo. “Terwijl we achter deze modellen aan gaan die superintelligent zullen zijn, wil je niet dat iets namens jou beslissingen neemt die een beetje mysterieus voor je zijn.”

Aanbevolen afbeeldingscredits

Guide Labs open-source Steerling-8B om het AI-“black box”-probleem op te lossen

Related Stories

Apple brengt meer persoonlijke Siri-spraakbediening naar bèta 3

Uit antropisch onderzoek blijkt dat Claude-modellen een interne werkruimte vormen die lijkt op bewustzijn

Apple activeert Siri AI op Apple Watch in watchOS 27 bèta 3

Het gerucht gaat dat Apple in 2026 de opvouwbare iPhone Ultra zal lanceren