OpenAI heeft nieuwe spraakintelligentiefuncties aangekondigd voor zijn API, ontworpen om ontwikkelaars te helpen bij het creëren van interactieve applicaties die in realtime kunnen converseren, transcriberen en vertalen. Het onlangs gelanceerde GPT-Realtime-2-model, gebouwd op de klassenredenering van GPT-5, heeft tot doel complexere gebruikersverzoeken af te handelen in vergelijking met zijn voorganger, GPT-Realtime-1.5.
Daarnaast introduceerde OpenAI GPT-Realtime-Translate, dat realtime vertaaldiensten biedt voor meer dan 70 invoertalen en 13 uitvoertalen. Deze functie is ontworpen om gelijke tred te houden met gebruikers tijdens gesprekken.
Een andere belangrijke update is de GPT-Realtime-Whisper-mogelijkheid, die live spraak-naar-tekst-transcriptie biedt voor realtime interacties. “Samen verplaatsen de modellen die we lanceren realtime audio van eenvoudige call-and-response naar spraakinterfaces die daadwerkelijk kunnen werken: luisteren, redeneren, vertalen, transcriberen en actie ondernemen naarmate een gesprek zich ontvouwt”, aldus OpenAI.
Deze updates zijn volgens OpenAI gericht op verschillende sectoren, waaronder klantenservice, onderwijs, media en evenementen. Het bedrijf merkte op dat de nieuwe functies ook risico’s van misbruik met zich mee kunnen brengen, zoals het creëren van spam of fraude. Om dit te verzachten heeft OpenAI vangrails geïmplementeerd die zijn ontworpen om gesprekken te stoppen die de richtlijnen voor schadelijke inhoud schenden.
Alle nieuwe stemmodellen maken deel uit van de Realtime API van OpenAI. De factureringsstructuur varieert, waarbij GPT-Realtime-Translate en GPT-Realtime-Whisper per minuut worden gefactureerd, terwijl GPT-Realtime-2 wordt gefactureerd op basis van tokenverbruik.








