Het Franse AI-bedrijf Mistral lanceerde een open source tekst-naar-spraak-model genaamd Voxtral TTS, ontworpen voor stem-AI-assistenten en bedrijfstoepassingen zoals klantenondersteuning. Deze ontwikkeling positioneert Mistral rechtstreeks tegenover concurrenten, waaronder ElevenLabs, Deepgram en OpenAI.

Voxtral TTS ondersteunt negen talen: Engels, Frans, Duits, Spaans, Nederlands, Portugees, Italiaans, Hindi en Arabisch. Het model is bedoeld om te voldoen aan de vraag van klanten naar een flexibel spraakmodel dat geschikt is voor verschillende edge-apparaten en een kosteneffectieve oplossing biedt die hoge prestaties behoudt.

Pierre Stock, VP Science Operations bij Mistral AI, zei: “Onze klanten vroegen om een ​​spraakmodel. Daarom hebben we een klein spraakmodel gebouwd dat op een smartwatch, een smartphone, een laptop of andere edge-apparaten past.” Hij benadrukte dat het model, hoewel scherp geprijsd, state-of-the-art prestaties levert.

Het model maakt de aanpassing mogelijk van aangepaste stemmen met samples van minder dan vijf seconden. Het legt subtiele kenmerken vast, zoals accenten en spraakonregelmatigheden. Bovendien kan Voxtral TTS, gebaseerd op Ministral 3B, van taal wisselen zonder verlies van spraakkwaliteit, waardoor het geschikt is voor realtime vertaling en nasynchronisatie.

  Meta ontwikkelt een AI-kloon van CEO Mark Zuckerberg

De prestatiestatistieken van het model zijn opmerkelijk. Het heeft een time-to-first-audio (TTFA) van 90 milliseconden voor een sample van 10 seconden van 500 tekens en een real-time factor (RTF) van 6x, wat betekent dat het een clip in ongeveer 1,6 seconden kan weergeven.

Deze lancering volgt op de introductie door Mistral van twee transcriptiemodellen eerder in 2023, gericht op grote batchverwerking en realtime gebruiksscenario’s met lage latentie. Voxtral TTS maakt deel uit van de strategie van Mistral om bedrijven een uitgebreid pakket spraakproducten te bieden.

Stock schetste toekomstplannen en zei: “We zijn van plan een end-to-end platform te hebben dat multimodale invoerstromen kan verwerken, inclusief audio, tekst en beeld.” Dit platform is bedoeld om de informatie te verbeteren die wordt verwerkt door de systemen waarin het is geïntegreerd.


Aanbevolen afbeeldingscredits

  YouTube Gaming lanceert AI-gamebuilder