DeepSeek, een Chinese AI-startup, onthulde een nieuw model, ‘MODEL1’, in zijn FlashMLA-coderepository op GitHub, dat 28 keer verschijnt in 114 bestanden. De onthulling valt samen met de eerste verjaardag van de R1-release van DeepSeek.
MODEL1 vertegenwoordigt een andere architectuur dan DeepSeek-V3.2, intern met de codenaam “V32”. Codeanalyse door ontwikkelaars geeft veranderingen aan in de lay-out van de sleutelwaardecache, de afhandeling van sparsity en de decodering van FP8-gegevensindelingen. Deze wijzigingen suggereren een gerichte herstructurering voor geheugenoptimalisatie en rekenefficiëntie.
De onthulling vond plaats via de FlashMLA-repository van DeepSeek, die de Multi-Head Latent Attention-decoderingskernel van het bedrijf voor Nvidia Hopper GPU’s bevat. Updates van de FlashMLA-broncode voegden ondersteuning toe voor MODEL1, inclusief compatibiliteit met Nvidia’s aankomende Blackwell-architectuur (SM100), volgens berichten op Reddit’s LocalLLaMA-gemeenschap. De codewijzigingen laten zien dat MODEL1 terugkeert naar een uniforme 512-standaarddimensie en functies bevat die worden beschreven als “Value Vector Position Awareness” en mogelijke implementaties van DeepSeek’s “Engram” voorwaardelijke geheugensysteem.
DeepSeek is van plan zijn volgende generatie V4-model rond midden februari 2026 uit te brengen, samenvallend met het nieuwe maanjaar op 17 februari, volgens The Information, zoals geciteerd door Reuters. Interne tests door DeepSeek-medewerkers suggereren dat V4 beter zou kunnen presteren dan concurrerende modellen van Anthropic en OpenAI op codeerbenchmarks, vooral met lange codeprompts. Verwacht wordt dat het V4-model de Engram-architectuur van DeepSeek zal integreren, waardoor efficiënt ophalen uit contexten van meer dan een miljoen tokens mogelijk is door gebruik te maken van een opzoeksysteem voor fundamentele feiten.
De MODEL1-onthulling komt een jaar na het R1-debuut van DeepSeek in januari 2025. Deze gebeurtenis, door durfkapitalist Marc Andreessen een “AI Sputnik-moment” genoemd, resulteerde in een daling van de marktwaarde van Nvidia met $593 miljard op één dag, zo meldt ITPro. Het R1-model van DeepSeek kostte naar verluidt minder dan $ 6 miljoen om te trainen, maar evenaarde of overtrof het O1-model van OpenAI op het gebied van wiskunde en coderen. Het bedrijf bracht vervolgens V3.1 uit in augustus en V3.2 in december, waarbij van V3.2 werd beschreven dat het prestaties bood die gelijkwaardig waren aan die van OpenAI’s GPT-5.








