De Gemini AI-assistent van Google ondersteunt nu het uploaden van audiobestanden, waardoor gebruikers belangrijke informatie uit opnames kunnen transcriberen, samenvatten en extraheren. Deze nieuwe functie transformeert maximaal 10 minuten aan spraakmemo’s, vergaderingen, lezingen en interviews in doorzoekbare documenten.

De audio-uploadfunctie is zowel beschikbaar op internet als via de mobiele apps, toegankelijk via de standaard interface voor het uploaden van bestanden. Volgens Google’s VP van Gemini, Josh Woodward, was de functie voor het uploaden van audiobestanden het meest gevraagd door gebruikers.

Deze functionaliteit verschilt van Gemini Live, dat zich richt op realtime spraakopdrachten, terwijl de nieuwe functie is ontworpen om gegevens uit geüploade audiobestanden te verwerken. Tijdens het testen heeft Gemini nauwkeurig schetsen van komische albums en telefoongesprekken getranscribeerd, met slechts kleine fouten met betrekking tot naamherkenning. De AI identificeerde ook effectief de belangrijkste elementen en items die geschikt zijn voor het maken van to-do-lijsten.

De toevoeging van audioverwerking sluit aan bij recente Gemini-verbeteringen, waaronder app-integratie, een op kaarten gebaseerde visuele interface en uitgebreide personalisatieopties. Met deze functie kunnen gebruikers opgeslagen audiologboeken en memo’s omzetten in doorzoekbare inhoud, waardoor een proces wordt gestroomlijnd waarvoor voorheen externe transcriptiesoftware nodig was.

  Perplexity brengt Personal Computer AI naar alle Mac-gebruikers

Terwijl andere AI-assistenten zoals ChatGPT (met Whisper), Claude van Anthropic en Perplexity ook audioverwerkingsmogelijkheden bieden, is de implementatie van Gemini gericht op alledaagse gebruikssituaties. Gebruikers kunnen Gemini gebruiken om de taal te vereenvoudigen, sprekerspecifieke opmerkingen te isoleren, vragen te genereren en studiegidsen te maken op basis van audio-inhoud.

De audiolimiet van 10 minuten en de dagelijkse gebruikslimieten voor free-tier-gebruikers kunnen echter de gebruiksfrequentie beperken. Google heeft nog geen formele prijzen vrijgegeven voor audioverwerking van grote volumes, omdat dit momenteel onder het reguliere Gemini-quotum valt. Gebruikers die van plan zijn uitgebreide audio-inhoud te verwerken, moeten hun gebruik dienovereenkomstig beheren.

In wezen biedt de nieuwe audiofunctie van Gemini een gestroomlijnde manier om waardevolle informatie uit audiobestanden te verwerken en te extraheren, waardoor het een handig hulpmiddel is voor verschillende persoonlijke en professionele toepassingen.

  Microsoft wordt in zijn eigen termen geconfronteerd met terugslag over de Copilot-waarschuwing