OpenAI heeft een nieuwe macOS-applicatie gelanceerd voor zijn Codex-coderingstool, waarin agentische praktijken zijn geïntegreerd waarmee AI-agenten codeertaken onafhankelijk kunnen uitvoeren. Deze release volgt de trend van agentische softwareontwikkeling, die te zien is in tools als Claude Code en Cowork, waar zwermen agenten en subagenten een groot deel van het programmeerwerk uitvoeren.
Het bedrijf introduceerde Codex voor het eerst als opdrachtregelinterface in april, een maand later gevolgd door een webinterface. De macOS-app, die maandag werd onthuld, ondersteunt het parallel draaien van meerdere agenten. Het integreert vaardigheden van agenten en geavanceerde workflows die het afgelopen jaar aan populariteit hebben gewonnen.
De lancering komt minder dan twee maanden nadat OpenAI GPT-5.2-Codex heeft uitgebracht, beschreven als het krachtigste codeermodel. OpenAI streeft ernaar dat deze combinatie gebruikers van concurrenten als Claude Code aantrekt.
CEO Sam Altman sprak tijdens een persconferentie over de mogelijkheden van het model. “Als je echt geavanceerd werk wilt doen aan iets complexs, is 5.2 veruit het sterkste model”, zei hij. “Het was echter moeilijker te gebruiken, dus als we dat niveau van modelmogelijkheden in een flexibelere interface stoppen, denken we dat het er behoorlijk toe gaat doen.”
Coderingsbenchmarks laten een gemengd beeld zien. GPT-5.2 bekleedt de toppositie op TerminalBench, dat de AI-prestaties bij opdrachtregelprogrammeringstaken evalueert. De scores van Gemini 3 en Claude Opus zijn echter lager, maar vallen binnen de foutmarge van de benchmark. Op SWE-bench, dat het vermogen van AI test om softwarefouten in de echte wereld op te lossen, laten de resultaten geen duidelijk voordeel zien voor GPT-5.2.
Agentic use cases blijven een uitdaging om nauwkeurig te benchmarken. Gebruikerservaringen met de modernste modellen kunnen aanzienlijk variëren.
De Codex macOS-app introduceert verschillende nieuwe functies. Het maakt achtergrondautomatiseringen mogelijk die volgens een schema worden uitgevoerd, waarbij de resultaten bij terugkomst in de wachtrij worden geplaatst voor beoordeling door de gebruiker. Gebruikers kunnen persoonlijkheden van agenten selecteren, variërend van pragmatisch tot empathisch, passend bij hun werkstijl.
Altman benadrukte de ontwikkelingssnelheid van de app. “Je kunt dit gebruiken vanaf een schoon vel papier, gloednieuw, om binnen een paar uur een heel geavanceerd stukje software te maken”, aldus hij. “Zo snel als ik nieuwe ideeën kan intypen, is dat de limiet van wat gebouwd kan worden.”








