Onderzoekers van DeepSeek hebben maandag een nieuw experimenteel model uitgebracht, V3.2-exp, dat is ontworpen om dramatisch lagere inferentiekosten te hebben bij gebruik in lange-contextbewerkingen. DeepSeek kondigde het model aan in een post op Hugging Face en publiceerde ook een gekoppeld academisch artikel op GitHub dat details geeft over de architectuur en prestaties ervan.
Het belangrijkste kenmerk van het model heet DeepSeek Sparse Attention. Dit systeem maakt gebruik van een module die een ‘bliksemindexer’ wordt genoemd om prioriteit te geven aan specifieke fragmenten uit het contextvenster. Na die stap kiest een afzonderlijk systeem, een ‘fijnkorrelig tokenselectiesysteem’, specifieke tokens uit die fragmenten. Deze geselecteerde tokens worden vervolgens in het beperkte aandachtsvenster van de module geladen. Door deze combinatie kan het Sparse Attention-model over lange delen van de context werken met relatief kleine serverbelastingen.
De voordelen van het systeem zijn aanzienlijk voor operaties in een lange context. Uit voorlopige tests uitgevoerd door DeepSeek is gebleken dat de prijs van een eenvoudige API-aanroep in deze situaties met maar liefst de helft kan worden verlaagd. Verdere tests zullen nodig zijn om een robuustere beoordeling van de claims op te bouwen. Het model is open-weight en gratis beschikbaar op Hugging Face, waardoor tests door derden mogelijk zijn om de in het artikel gepresenteerde resultaten te evalueren.
Het nieuwe model van DeepSeek maakt deel uit van een reeks recente doorbraken die het probleem van gevolgtrekkingskosten aanpakken. Deze kosten vertegenwoordigen de serverkosten voor het gebruik van een vooraf getraind AI-model, die verschillen van de kosten voor het trainen ervan. De onderzoekers van DeepSeek zochten naar manieren om de fundamentele transformatorarchitectuur efficiënter te laten werken en kwamen tot de conclusie dat er aanzienlijke verbeteringen kunnen worden aangebracht.
DeepSeek, gevestigd in China, is een ongewone figuur in de AI-sector, vooral voor degenen die AI-onderzoek beschouwen als een nationalistische strijd tussen de VS en China. Het bedrijf trok begin dit jaar de aandacht met zijn R1-model, dat werd getraind met behulp van voornamelijk versterkend leren tegen veel lagere kosten dan zijn Amerikaanse concurrenten. Het model leidde echter niet tot een grootschalige revolutie in AI-training, zoals sommigen voorspelden, en het bedrijf is in de maanden daarna uit de schijnwerpers verdwenen.
Het is onwaarschijnlijk dat de nieuwe benadering van ‘spaarzame aandacht’ dezelfde opschudding zal veroorzaken als R1, maar het zou Amerikaanse aanbieders nog steeds een aantal broodnodige trucs kunnen leren om de inferentiekosten laag te houden.








