L’azienda di Mountain View ha dato vita a Google WaveNet, la nuova tecnologia Voice che sarebbe in grado di riprodurre, tramite computer, una voce virtuale molto simile a quella umana e non più metallica e robotica. Gli sviluppatori hanno definito la suddetta tecnologia come fully convolutional neural network, ovvero capace di modificare l’onda grezza un sample alla volta, con dei risultati strabilianti. Il campione mondiale di Go è stato battuto e il futuro dei PC si avvia verso funzionalità sempre più realistiche e “umane”.
Nel colosso statunitense, lo sviluppo delle intelligenze artificiali è affidato al reparto DeepMind che è stato in grado di realizzare le voci artificiali più realistiche in assoluto. Tutto ciò, detto in termini semplici, è stato possibile modellando i suoni su campioni di voci umane.
La nuova tecnologia è stata testata attraverso il sistema di text-to-speech, ovvero il computer che legge, e i risultati ottenuti sono davvero convincenti e i migliori al mondo.
Di base, lo sviluppo è molto simile a quanto avvenuto per gli assistenti vocali più famosi, che sono Siri e Cortana. La tecnologia delle due funzionalità è, però, quella della concatenative text to speech, che offre sicuramente ottimi risultati, ma con un limite.
Di base, viene registrata una reale voce umana poi ricombinata isolando i suoni. Tuttavia, ne esce fuori comunque una voce con dei connotati innaturali. L’alternativa proposta da Google non prevede, invece, alcun tipo di campionamento. In pratica, grazie al sistema machine learning, l’intelligenza artificiale è in grado di apprendere da sola come modulare il suono, proponendo un risultato molto più naturale.
Scendendo nei dettagli di ciò che Google WaveNet può fare e non fare, è interessante segnalare alcuni aspetti. Il primo, che è piuttosto una curiosità, è che la nuova tecnologia si basa sul suono della voce senza però (ovviamente) comprenderne il significato. Ciò significa che può generare frasi completamente senza senso, ma con una modulazione e pause quasi perfette.
L’altra curiosità da segnalare è che il sistema elaborato da DeepMind è in grado anche di suonare il piano, producendo note musicali con lo stesso meccanismo con cui viene riprodotta la voce, ovvero completamente automatizzato nella modulazione.
Il test vocale è stato eseguito in inglese e in cinese mandarino, con risultati che, su una scala da 1 a 5, si avvicinano al massimo, più di ogni altro sistema. Presto, quindi, i computer avranno una voce!
Quando giunge il momento di acquistare un nuovo telefono il dubbio che sorge è sempre…
Nell'era digitale, la gestione delle date rappresenta una sfida complessa per i sistemi informatici, specialmente…
Se c'è una cosa che accomuna tutti i lavoratori d'ufficio è l'utilizzo del programma Microsoft…
L'era digitale ha trasformato il modo in cui comunichiamo, specialmente con l'avvento della pandemia da…
Gestire lo spazio sul disco del PC può sembrare un'impresa ardua, specialmente in un'era dove…
I Chrome Flags rappresentano una caratteristica poco conosciuta ma estremamente potente del popolare browser Google…