Onderzoekers van Deepseek hebben maandag een nieuw experimenteel model uitgebracht, v3.2-EXP, dat is ontworpen om dramatisch lagere inferentiekosten te hebben bij gebruik bij lang-contextactiviteiten. Deepseek kondigde het model aan in een bericht over knuffelgezicht en publiceerde ook een gekoppelde academische paper over GitHub die details over zijn architectuur en prestaties biedt. Het belangrijkste kenmerk van het model wordt Deepseek schaarse aandacht genoemd. Dit systeem gebruikt een module die een “Lightning Indexer” wordt genoemd om prioriteit te geven aan specifieke fragmenten uit het contextvenster. Na die stap kiest een afzonderlijk systeem, een “fijn-granulair token-selectiesysteem”, specifieke tokens vanuit die fragmenten. Deze geselecteerde tokens worden vervolgens geladen in het beperkte aandachtsvenster van de module. Met deze combinatie kan het schaarse aandachtsmodel over lange delen van context werken met relatief kleine serverbelastingen. De voordelen van het systeem zijn belangrijk voor lang-contextactiviteiten. Voorlopige tests uitgevoerd door Deepseek ontdekten dat de prijs van een eenvoudige API -oproep met maar liefst de helft in deze situaties kon worden verlaagd. Verdere testen zijn vereist om een robuustere beoordeling van de claims op te bouwen. Het model is open gewicht en vrij beschikbaar op knuffelgezicht, waardoor tests van derden de resultaten kunnen evalueren die in de paper worden gepresenteerd. Het nieuwe model van Deepseek maakt deel uit van een reeks recente doorbraken die het probleem van inferentiekosten aanpakken. Deze kosten vertegenwoordigen de serverkosten voor het bedienen van een vooraf opgeleid AI-model, die verschillen van de kosten van het trainen. De onderzoekers van DeepSeek waren op zoek naar manieren om de fundamentele transformatorarchitectuur efficiënter te laten werken, en constateerde dat er aanzienlijke verbeteringen zijn aan te brengen. Deepseek is gevestigd in China en is een ongebruikelijke figuur in de AI -sector geweest, met name voor degenen die AI -onderzoek beschouwen als een nationalistische strijd tussen de VS en China. Het bedrijf kreeg de aandacht aan het begin van het jaar met zijn R1 -model, dat werd getraind met behulp van voornamelijk versterkingsleren tegen een veel lagere kosten dan zijn Amerikaanse concurrenten. Het model heeft echter geen groothandelsrevolutie in de AI -training opgeroepen zoals sommigen voorspeld, en het bedrijf is in de schijnwerpers in de maanden daarna teruggetrokken. Het is onwaarschijnlijk dat de nieuwe “schaarse aandacht” -benadering dezelfde opschudding zal produceren als R1, maar het kan ons nog steeds providers enkele broodnodige trucs leren om de conclusie-kosten laag te houden.
Source: Deepseek brengt v3.2-exp-model met schaarse aandacht uit





