DeepSeek kondigde zaterdag aanzienlijke prijsverlagingen aan voor zijn API-service, kort na de release van zijn V4-grote taalmodel op 24 april 2023. De prijsverlagingen verlagen de invoercache-hitkosten tot een tiende van hun eerdere kosten en bieden een korting van 75% op het V4-Pro-model tot 5 mei 2023.
De prijs van de invoercache van de V4-Pro is gedaald tot 0,025 yuan (ongeveer $ 0,0036) per miljoen tokens. De standaardprijzen tijdens de promotieperiode zijn vastgesteld op 3 yuan voor input en 6 yuan voor output per miljoen tokens. Deze prijsstrategie ondermijnt de concurrentie aanzienlijk, waarbij modellen van Anthropic, OpenAI en Google tussen de $12 en $25 per miljoen tokens kosten, volgens gegevens van OpenRouter.
DeepSeek lanceerde V4-Pro en V4-Flash in een preview-capaciteit, wat de eerste belangrijke modellancering van het bedrijf markeert sinds de V3.2-versie in december 2022. V4-Pro heeft 1,6 biljoen parameters en 49 miljard actieve parameters per inferentiepassage, waardoor het het grootste open-weight-model is dat momenteel beschikbaar is. V4-Flash heeft een kleinere configuratie met 284 miljard parameters.
Zelfs vóór de recente bezuinigingen waren de standaardprijzen van V4-Pro $1,74 voor input en $3,48 voor output per miljoen tokens, wat ongeveer 98% lager was dan de prijs van OpenAI’s GPT-5.5 Pro. De nieuwste kortingen vergroten dit concurrentievoordeel nog verder.
Te midden van de stijgende kosten voor rekenkracht in de AI-sector sluit de strategie van DeepSeek aan bij een bredere trend van prijsverlagingen binnen de sector. Volgens een rapport van Gelonghui heeft het bedrijf het concept van ‘AI-prijsverlaging’ volledig omarmd.
Met name werkt V4 op Huawei Ascend-hardware in plaats van op Nvidia-chips, wat volgens waarnemers de binnenlandse adoptie van AI-systemen zou kunnen bevorderen. Wei Sun, hoofd AI-analist bij Counterpoint Research, gaf aan dat deze ontwikkeling de inzet van AI-systemen mogelijk maakt zonder uitsluitend op Nvidia te vertrouwen, waardoor zowel binnenlandse als mondiale AI-vooruitgang mogelijk wordt versneld.
V4-Pro demonstreert aanzienlijke efficiëntie en vereist slechts 27% van de rekenkracht van zijn voorganger, V3.2, voor een contextvenster van één miljoen tokens. Ondanks de vooruitgang erkent DeepSeek dat V4 qua prestaties ongeveer drie tot zes maanden achterblijft bij toonaangevende modellen als GPT-5.4 en Gemini 3.1 Pro, zoals vermeld in de technische paper van het bedrijf.








