Nvidia’s nieuwe Rubin GPU’s maken gebruik van software-emulatie om de FP64-prestaties voor HPC te verbeteren, wat de recente voorsprong van AMD op dit gebied uitdaagt, ondanks AMD’s bedenkingen over de toepasbaarheid van de methode in de echte wereld.

Drijvende-kommaberekening met dubbele precisie (FP64) is essentieel voor moderne HPC- en wetenschappelijke computertoepassingen. Nvidia’s onlangs onthulde Rubin GPU’s bieden 33 teraFLOPS aan maximale FP64-prestaties zonder emulatie, wat één teraFLOP minder is dan de vier jaar oude H100. Als software-emulatie is ingeschakeld in de CUDA-bibliotheken van Nvidia, kan de chip naar verluidt tot 200 teraFLOPS aan FP64-matrixprestaties bereiken. Dit vertegenwoordigt een toename van 4,4x ten opzichte van de hardwaremogelijkheden van de uitgaande Blackwell-versnellers.

Dan Ernst, senior directeur van supercomputerproducten bij Nvidia, verklaarde: “Wat we door veel onderzoeken met partners en door onze eigen interne onderzoeken hebben ontdekt, is dat de nauwkeurigheid die we uit emulatie halen minstens zo goed is als wat we zouden krijgen uit een tensor core-stuk hardware.”

Nicholas Malaya, een AMD-fellow, merkte op: “Het is behoorlijk goed in sommige benchmarks, het is niet duidelijk dat het goed is in echte, fysiek-wetenschappelijke simulaties.” Malaya suggereerde dat FP64-emulatie verder onderzoek en experimenten vereist.

FP64 blijft de standaard voor wetenschappelijk computergebruik vanwege het dynamische bereik, dat meer dan 18,44 quintiljoen (264) unieke waarden kan uitdrukken. Moderne AI-modellen zoals DeepSeek R1 worden daarentegen vaak getraind op FP8, dat 256 unieke waarden kan uitdrukken. HPC-simulaties zijn gebaseerd op fundamentele fysische principes, waardoor ze fout-intolerant zijn, in tegenstelling tot AI-workloads. Malaya legde uit: ‘Zodra je fouten begint te maken, verspreiden deze eindige fouten zich en veroorzaken ze bijvoorbeeld uitbarstingen.’

  Beste WotLK-mijngids (2022)

Het concept van het gebruik van gegevenstypen met lagere precisie om FP64 te emuleren is niet nieuw. Ernst zei: “Emulatie is heel oud. Halverwege de jaren vijftig hadden we emulatie voordat we hardware voor drijvende-komma hadden.” Begin 2024 publiceerden onderzoekers van de technologische instituten in Tokio en Shibaura een artikel waarin dit concept werd onderzocht. Hun methode toonde aan dat FP64-matrixbewerkingen konden worden opgesplitst in meerdere INT8-bewerkingen, waardoor hogere prestaties dan de oorspronkelijke prestaties op de tensorkernen van Nvidia konden worden bereikt. Deze aanpak, bekend als het Ozaki-schema, vormt de basis voor Nvidia’s FP64-emulatiebibliotheken, die eind vorig jaar werden uitgebracht. Ernst verduidelijkte: “Het is nog steeds FP64. Het is geen gemengde precisie. Het is gewoon op een andere manier gedaan en geconstrueerd vanuit hardwareperspectief.”

Moderne GPU’s bevatten tensorkernen met lage precisie. De tensorkernen van Rubin zijn bijvoorbeeld in staat tot 35 petaFLOPS aan dichte FP4-rekenkracht. In FP64 zijn deze chips meer dan 1.000x langzamer. Ernst legde uit dat de efficiëntie van het bouwen en gebruiken van deze tensorkernen met lage precisie aanleiding gaf tot onderzoek naar het gebruik ervan voor FP64-berekeningen. “We hebben de hardware, laten we proberen die te gebruiken. Dat is de geschiedenis van supercomputing”, zei hij.

AMD uitte zijn bezorgdheid over de nauwkeurigheid van FP64-emulatie. Malaya gaf aan dat FP64-emulatie goed presteert voor goed geconditioneerde numerieke systemen, daarbij verwijzend naar de High Performance Linpack (HPL) benchmark. Maar “als je kijkt naar de materiaalkunde, verbrandingscodes, gestreepte lineaire algebra-systemen en dat soort dingen, zijn het veel minder goed geconditioneerde systemen, en plotseling begint het kapot te gaan”, zei hij. Malaya merkte op dat FP64-emulatie niet volledig IEEE-compatibel is, omdat de algoritmen van Nvidia geen rekening houden met nuances zoals positieve versus negatieve nullen, geen getalfouten of oneindige getalfouten. Kleine fouten in tussenbewerkingen voor emulatie kunnen tot onnauwkeurigheden leiden. Het verhogen van de activiteiten om dit te beperken kan de prestatievoordelen tenietdoen. Malaya meldde ook: “We hebben gegevens waaruit blijkt dat u ongeveer tweemaal de geheugencapaciteit in Ozaki gebruikt om die FP64-matrices te emuleren.” AMD richt zich daarom op gespecialiseerde hardware voor dubbele en enkele precisie, waarbij de aankomende MI430X gebruik maakt van chipletarchitectuur om de prestaties te verbeteren.

  Big data-bedrijf Palantir sluit aan bij IBM

Ernst erkende hiaten in de implementatie van Nvidia. Hij beweerde dat positieve/negatieve nullen niet cruciaal zijn voor de meeste HPC-beoefenaars. Nvidia heeft aanvullende algoritmen ontwikkeld om problemen zoals niet-getallen en oneindige getallen te detecteren en te beperken. Wat het geheugenverbruik betreft, gaf Ernst toe dat dit hoger kan zijn, maar hij stelde dat deze overhead gerelateerd is aan de operatie en niet aan de applicatie, waarbij doorgaans matrices van een paar gigabytes betrokken zijn. Hij voerde ook aan dat IEEE-complianceproblemen zich vaak niet voordoen bij matrixvermenigvuldiging. “De meeste gebruiksscenario’s waarin IEEE-compliance-ordeningsregels in het spel zijn, komen niet voor in gevallen van matrix-, matrixvermenigvuldiging. Er is sowieso geen DGEMM die de neiging heeft om die regel daadwerkelijk te volgen,” vertelde Ernst.

FP64-emulatie is vooral effectief voor een subset van HPC-toepassingen die afhankelijk zijn van DGEMM-bewerkingen (Dense General Matrix Multiply). Malaya schatte dat emulatie voor 60 tot 70 procent van de HPC-workloads minimale voordelen biedt. “In onze analyse is de overgrote meerderheid van de echte HPC-workloads afhankelijk van vector-FMA, en niet van DGEMM”, zei hij. Voor vector-zware taken, zoals computationele vloeistofdynamica, werken Rubin GPU’s op langzamere FP64-vectorversnellers binnen CUDA-kernen. Ernst benadrukte dat hogere FLOPS niet altijd gelijk staan ​​aan bruikbare FLOPS, omdat geheugenbandbreedte vaak de prestaties in de echte wereld beperkt. Hij verwees naar de vectorzware High Performance Conjugate Gradient-benchmark van de TOP500, waarbij CPU’s vaak voorop lopen vanwege hogere bits per FLOPS van hun geheugensubsystemen.

  Instagram heeft een filter "minst interactie met" toegevoegd

Met nieuwe supercomputers waarin Nvidia’s Blackwell- en Rubin-GPU’s zijn geïntegreerd, zal de haalbaarheid van FP64-emulatie worden getest. De inherente onafhankelijkheid van de algoritmen van specifieke hardware maakt potentiële verbeteringen in de loop van de tijd mogelijk. Malaya bevestigde dat AMD ook FP64-emulatie op chips zoals de MI355X onderzoekt via softwarevlaggen om geschikte applicaties te identificeren. Hij gaf aan dat IEEE-naleving de aanpak zou valideren door consistente resultaten tussen emulatie en speciaal silicium te garanderen. Malaya zei: “Als ik naar een partner kan gaan en zeggen: voer deze twee binaire bestanden uit: deze geeft je hetzelfde antwoord als de andere en is sneller, en ja, onder de motorkap zijn we met een of ander plan bezig – denk dat dat een overtuigend argument is dat klaar is voor prime time. ” Hij voegde eraan toe dat specifieke applicaties betrouwbaarder zouden kunnen zijn met emulatie, en suggereerde: “We zouden als gemeenschap een mandje met apps moeten bouwen om naar te kijken.”


Aanbevolen afbeeldingscredits