Nvidia heeft benchmarkgegevens vrijgegeven waaruit blijkt dat zijn GB300 NVL72-systemen met Blackwell Ultra GPU’s tot 50x hogere doorvoer per megawatt en 35x lagere kosten per token leveren vergeleken met het vorige Hopper-platform voor AI-workloads met lage latentie. De prestatieverbeteringen zijn gericht op de groeiende markt voor agentische AI-toepassingen en codeerassistenten.

Blackwell Ultra Tensor Cores bieden 1,5x meer rekenprestaties dan standaard Blackwell GPU’s. De verwerking van de aandachtslagen is verdubbeld door een versnelde softmax-uitvoering, waarbij knelpunten zijn aangepakt in de transformator-aandachtslagen die worden gebruikt door redeneermodellen met grote contextvensters. Nvidia’s TensorRT-LLM-inferentiebibliotheek is ook verbeterd, waarbij SemiAnalysis-benchmarks aantonen dat de doorvoer per GPU sinds oktober 2025 op sommige interactiviteitsniveaus is verdubbeld. De combinatie van deze hardware- en softwareverbeteringen resulteerde in een 10x toename in tokens per seconde per gebruiker en een 5x verbetering in tokens per seconde per megawatt vergeleken met Hopper, wat de gerapporteerde 50x toename in AI-fabrieksoutput opleverde.

  Alles wat u moet weten over het Lost Ark Rapport-systeem

“Naarmate inferentie het middelpunt van de AI-productie wordt, worden prestaties op lange termijn en token-efficiëntie van cruciaal belang”, zegt Chen Goldberg, senior vice-president engineering bij CoreWeave. “Grace Blackwell NVL72 pakt deze uitdaging direct aan.”

Grote cloudproviders implementeren de GB300 NVL72-infrastructuur. CoreWeave kondigde in 2025 aan dat het de eerste AI-cloudprovider was die de systemen in productie zou inzetten en deze zou integreren met zijn op Kubernetes gebaseerde cloudstack. Microsoft implementeerde wat het ‘s werelds eerste grootschalige GB300 NVL72-supercomputercluster noemde, waarbij meer dan 1,1 miljoen tokens per seconde op één rack werden behaald in tests die zijn gevalideerd door Signal65. Het OCI-platform van Oracle implementeert GB300 NVL72-systemen met plannen om zijn Superclusters op te schalen tot meer dan 100.000 Blackwell GPU’s om aan de vraag naar inferentiewerklasten te voldoen.

  De nieuwe 400 mm-teleconverter van vivo X300 Ultra overbrugt de DSLR-kloof

Kostenbesparingen veranderen de economie van de inzet van AI. Toonaangevende aanbieders van inferentie, waaronder Baseten, DeepInfra, Fireworks AI en Together AI, rapporteerden tot 10x kostenbesparingen met behulp van het standaard Blackwell-platform. Het Blackwell Ultra-platform breidt deze voordelen uit voor workloads met lage latentie, waarbij de 35x lagere kosten per miljoen tokens een economisch haalbare inzet van AI-agents en codeerassistenten op schaal mogelijk maken.

Nvidia heeft een voorproefje gegeven van zijn Rubin-platform van de volgende generatie en beweert dat het nog eens 10x prestatieverbetering zal opleveren ten opzichte van Blackwell.


Aanbevolen afbeeldingscredits