OpenAI heeft donderdag GPT-5.4 uitgebracht en introduceert een standaardversie naast de GPT-5.4 Thinking- en GPT-5.4 Pro-varianten. Het bedrijf omschreef het model als het meest capabele en efficiënte grensmodel voor professioneel werk.

De API-versie ondersteunt contextvensters tot 1 miljoen tokens, de grootste die beschikbaar is bij OpenAI. Het model demonstreert ook een verbeterde token-efficiëntie, waardoor problemen met aanzienlijk minder tokens worden opgelost dan zijn voorganger.

GPT-5.4 behaalde recordscores op de benchmarks voor computergebruik OSWorld-Verified en WebArena Verified. Het scoorde ook 83% op de GDPval-test van OpenAI voor kenniswerktaken.

Het model stond aan de basis van de APEX-Agents-benchmark van Mercor, die professionele vaardigheden op het gebied van recht en financiën test, aldus Mercor-CEO Brendan Foody. Foody verklaarde dat GPT-5.4 uitblinkt in het creëren van resultaten met een lange horizon, zoals slide decks en financiële modellen, waardoor topprestaties sneller en tegen lagere kosten worden geleverd dan concurrenten.

  Een bitcoin-jacht AR-game geïntroduceerd door Niantic

OpenAI zei dat het model 33% minder kans heeft om fouten te maken in individuele claims vergeleken met GPT 5.2. Over het geheel genomen is de kans 18% kleiner dat de antwoorden fouten bevatten.

Het bedrijf introduceerde Tool Search om het aanroepen van tools in de API te beheren. Het systeem zoekt indien nodig tooldefinities op, waardoor het tokengebruik en de kosten in systemen met veel tools worden verminderd.

OpenAI heeft een nieuwe veiligheidsevaluatie toegevoegd om de keten van gedachtemonitoring te testen. Uit de evaluatie bleek dat misleiding minder waarschijnlijk is in de GPT-5.4 Thinking-versie, wat suggereert dat het model niet in staat is zijn redeneringen te verbergen.


Aanbevolen afbeeldingscredits