Wetenschappers hebben een nieuw neuraal netwerk gecreëerd dat AI kan gebruiken om te zingen uit spraakmonsters. Het algoritme van Chinese ontwikkelaars kan een opname van iemands zang synthetiseren op basis van een opname van de gebruikelijke spraak van de persoon, of het andersom uitvoeren en spraak synthetiseren op basis van zingen. Er is een artikel over de ontwikkeling, training en het testen van een algoritme gepubliceerd op arXiv.org.
In de afgelopen jaren heeft de ontwikkeling van neurale netwerkalgoritmen voor spraaksynthese, zoals WaveNet, de ontwikkeling mogelijk gemaakt van systemen die moeilijk te onderscheiden zijn van echte mensen. In 2018 toonde Google bijvoorbeeld een stemassistent voor het boeken van stoelen die niet alleen realistisch kan spreken, maar ook menselijke geluiden invoegt die spraak verifieerbaar maken, bijvoorbeeld “um”. Als gevolg hiervan moest het bedrijf het algoritme ook leren om aan het begin van een gesprek te waarschuwen dat het geen persoon is.
Net als in het geval van andere neurale netwerkalgoritmen, is het succes van spraaksynthesesystemen grotendeels niet gerelateerd aan hun architectuur, maar vooral aan de grote hoeveelheid beschikbare gegevens voor training. Het creëren van een systeem voor het synthetiseren van zang is een schijnbaar vergelijkbare taak, maar in feite is het veel gecompliceerder vanwege de aanzienlijk kleinere hoeveelheden beschikbare gegevens.
Veel ontwikkelaars die werken aan zanggeneratiesystemen hebben onlangs de weg ingeslagen om het volume van zingende samples te verminderen om het algoritme te onderwijzen, en nu heeft een groep Chinese onderzoekers onder leiding van Dong Yu van Tencent een systeem gemaakt dat realistische zingende audio-opnames kan maken van spraak. monsters.
Het algoritme is gebaseerd op de eerdere ontwikkeling van Tencent, het DurIAN neurale netwerk, ontworpen om realistisch te synthetiseren videos met een pratende presentator op basis van tekst. Nu plaatsen ze een nieuwe spraakherkenningseenheid voor DuarIAN, die fonemen creëert op basis van het audiofragment.
De auteurs hebben het algoritme getraind op twee eigen datasets, bestaande uit anderhalf uur zingen en 28 uur spreken. Na de training testten ze het algoritme op 14 vrijwilligers die het realisme van gesynthetiseerde zang en de gelijkenis evalueerden. Als resultaat kreeg een van de tests 3,8 punten in realisme en 3,65 in gelijkenis. De auteurs gepubliceerd voorbeelden van het werk van het neurale netwerk.