Het baanbrekende grote taalmodel van DeepSeek, R1, heeft de AI-gemeenschap al lang geïntrigeerd vanwege zijn vermogen om met een opmerkelijk laag budget te concurreren met industriële reuzen. Een nieuw gepubliceerd artikel in het tijdschrift Nature door het DeepSeek AI-team werpt licht op de details: het model werd getraind voor slechts $ 294.000 met behulp van 512 Nvidia H800-chips. Deze onthulling onderstreept een kosteneffectieve aanpak die de hoge inzet van concurrenten als OpenAI uitdaagt, en benadrukt DeepSeeks innovatieve gebruik van op vallen en opstaan gebaseerd versterkend leren om indrukwekkende resultaten te bereiken.
De kerninnovatie ligt in het omzeilen van de traditionele afhankelijkheid van dure, door mensen geannoteerde gegevens en demonstraties, die arbeidsintensief zijn en slecht schaalbaar zijn voor complexe redeneringstaken. In plaats daarvan gebruikte DeepSeek versterkende leertechnieken die een beloning-strafsysteem nabootsen. Zoals uitgelegd door Carnegie Mellon University assistent-professor Daphne Ippolito en promovendus Yiming Zhang in een begeleidend artikel, lijkt deze methode op een kind dat leert via videogames: “Terwijl het kind zijn avatar door de gamewereld navigeert, leert hij met vallen en opstaan dat sommige acties (zoals het verzamelen van gouden munten) punten opleveren, terwijl andere (zoals het tegenkomen van vijanden) hun score terugzetten op nul. Op dezelfde manier kreeg DeepSeek-R1 een hoge score als het vragen correct beantwoordde en een lage score als het gaf foute antwoorden.”
Deze versterkingsstrategie bleek bijzonder effectief voor taken met verifieerbare juiste antwoorden, zoals wiskunde- en programmeerproblemen. In tegenstelling tot eerdere methoden die modellen ertoe aanzetten stapsgewijze uitleg te genereren voor verbeterde nauwkeurigheid, kende DeepSeek scores rechtstreeks toe aan de output, waardoor het model werd aangemoedigd om te herhalen totdat het zelfstandig het juiste resultaat bereikte. Het resultaat? Verbeterde precisie zonder de noodzaak van door mensen geleide redenering, waardoor DeepSeek ondanks zijn bescheiden middelen zijn concurrentievermogen kan behouden.
De aanpak is echter niet zonder beperkingen. Hoewel de uitkomsten vaak nauwkeuriger zijn, wordt het interne redeneringsproces van het model minder transparant voor menselijke waarnemers. Toen DeepSeek-R1 bijvoorbeeld werd gevraagd zijn denkproces uit te leggen, produceerde het soms lange antwoorden van meer dan 10.000 woorden, waarbij op onvoorspelbare wijze werd overgeschakeld tussen Engels en Chinees. De techniek blinkt uit in binaire goed-of-fout-scenario’s, maar hapert bij genuanceerde of subjectieve vragen, waarbij duidelijke scorestatistieken ontbreken.
De prestaties van DeepSeek komen voort uit breder onderzoek naar de banden van het bedrijf met de Chinese overheid, wat vragen oproept over mogelijke vooroordelen in de technologie. Recente demonstraties gerapporteerd door The Washington Post brachten gedrag aan het licht: het model weigerde code te genereren met aanzienlijke beveiligingsproblemen toen prompts duidden op betrokkenheid bij groepen die door de Chinese autoriteiten als gevoelig werden beschouwd. Omgekeerd produceerde het minder veilige code voor onderwerpen die verband hielden met Tibet, Taiwan, de religieuze beweging Falun Gong of zelfs de Islamitische Staat, wat duidde op ingebedde geopolitieke invloeden die van invloed zouden kunnen zijn op de mondiale inzet ervan.
Dit artikel demystificeert niet alleen het efficiënte trainingsparadigma van DeepSeek, maar leidt ook tot discussies over de toekomst van AI-ontwikkeling. Door gebruik te maken van versterkend leren kunnen kleinere spelers zoals DeepSeek mogelijk een gelijk speelveld creëren ten opzichte van gevestigde exploitanten die veel middelen nodig hebben. Toch dient de inbreng van nationale gevoeligheden als een waarschuwing, waarbij de noodzaak van transparantie en ethisch toezicht op AI-innovatie wordt benadrukt. Naarmate de sector zich verder ontwikkelt, kunnen dergelijke onthullingen wereldwijd leiden tot kostenbesparende methoden, op voorwaarde dat ze de onderliggende risico’s aanpakken.








