TEXT-TO-SPEECH
Met software zal er dus spraak gegenereerd worden op basis van tekst. Hierbij is gekeken naar een bestaand framework dat meteen gebruikt kan worden, maar deze frameworks voldeden niet aan onze eisen. De lat ligt hoog, uiteraard. De bekendste Text to Speech systemen zijn Google Text-to-Speech, Microsoft Watson en Amazon Polly. Deze zijn hier ook online te beluisteren. De output van deze systemen klinkt redelijk natuurlijk. Maar menig stem-connaisseur hoort direct dat het hierbij om computer-gegenereerde spraak gaat. De uitdaging ligt dus bij het zo natuurlijk mogelijk uitspreken van de teksten.
Daarnaast beschikt alleen het systeem van Google over ook een Nederlandse variant, die meteen een stuk minder natuurlijk klinkt. De Nederlandse taal en daarmee Nederlandse spraak is voor ons de eerste vereiste. Een tweede vereiste is het masteren van een dynamisch stemgeluid (iets waar veel andere systemen niet in slagen). Op basis van deze eisen is er onderzoek gedaan naar een machine learning systeem waarmee een Text to Speech model getraind kan worden.
TACOTRON
Bij het onderzoeken van machine learning systemen viel al heel snel de aandacht op Tacotron 2; "An end-to-end speech synthesis system by Google". Dit systeem voldoet namelijk precies aan de eisen; hij leert met machine learning natuurlijke spraak te genereren op basis van tekst en hij heeft de mogelijkheid stemgeluid over te nemen van de trainingsdata. Trainingsdata zijn gesproken audioboeken. De audio samples waren veelbelovend;
https://google.github.io/tacot...
Uiteindelijk is gekozen voor Tacotron 2, een systeem dat met machine learning modellen genereert, die vervolgens gebruikt worden om tekst om te zetten naar natuurlijke spraak. Hierbij worden zowel de intonatie als het stemgeluid overgenomen van de trainingsdata. Met Tacotron 2 is uiteindelijk een Nederlands en een Engels model getraind. Deze modellen zijn een stap in de goede richting en worden nog verder getraind om een nieuw stemgeluid aan te nemen.
Een obstakel was echter dat Google de gedachten achter de techniek heeft gedeeld, maar niet de letterlijke techniek zoals zij deze geïmplementeerd hebben. Verschillende instanties en personen hebben vervolgens hun eigen implementatie van Tacotron 2 gemaakt en deze beschikbaar gemaakt (d.m.v open source). Na het bekijken van deze verschillende implementaties, de bijgevoegde audio samples en de community kwamen er twee implementaties als beste uit de bus: Van NVidia (NVIDIA, z.d.) en van Rayhane Mamah (Mamah, 2018).
Beide systemen zijn vervolgens uitgebreid bekeken en voor beide systemen is eenzelfde training gestart. Hoewel de implementatie van NVidia er in eerste instantie netter en daarmee betere uitzag, was de output van Rayhane Mamah aanzienlijk beter. Op basis van dit resultaat is dan ook de keuze gemaakt om Tacotron 2 te implementeren met de implementatie van Rayhane Mamah als basis.