Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Scritto da Roberto Valente

L’autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l’amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali. 

Interactive Media ha una lunga storia nello sviluppo di applicazioni vocali sempre più all’avanguardia, con oltre 25 anni di esperienza nella gestione della sintesi vocale. Ma personalmente ho iniziato a lavorare in questo campo prima ancora di fondare l’azienda e posso dire di essermi occupato di CTI (computer telephony integration) sin dal suo inizio. In questo articolo voglio dare una breve prospettiva della mia esperienza con la sintesi vocale. 

Nel 1993 e negli anni a seguire ho avuto il privilegio di collaborare con lo CSELT di Torino, che stava lavorando da decenni sulle tecnologie di Text-to-Speech (TTS).

Negli anni ’70 lo CSELT era, insieme ad AT&T, l’unica società a sviluppare sistemi industriali di TTS. Il primo sistema sviluppato si chiamava MUSA (https://www.youtube.com/watch?v=TvKChDE-Lnk)

Nel 1993 è stata la volta di Eloquens, anch’esso realizzato con la concatenazioni di difoni (i suoni prodotti dalla metà di un fonema in una parola alla metà di quello successivo). La qualità di Eloquens era decisamente migliore di MUSA ed ancora oggi può essere considerato un prodotto di buona qualità (https://www.youtube.com/watch?v=sZuV1L7cqro).

Altri articoli

Disco contenente la canzone Fra Martino campanaro cantata da MUSA nel 1978.

Il Software di Eloquens era stato sviluppato per essere utilizzato con un PC stand alone. L’obiettivo di CSELT, che apparteneva alla compagnia telefonica nazionale, era naturalmente di poterlo utilizzare in ambito telefonico. Io, d’altro canto, lavoravo come consulente per una impresa italiana che era rivenditore esclusivo delle schede per PC Natural MicroSystems, che permettevano di interfacciare un PC alla linea telefonica. Il mio compito era di portare il software di Eloquens nei DSP della scheda per poterlo utilizzare in applicazioni di tipo IVR. Ricordo quei giorni come un periodo straordinario. Torino era all’epoca una città prettamente industriale e alle 20h30 i ristoranti erano vuoti e non c’era più nessuno in strada. Il giorno dopo le sirene delle fabbriche avrebbero suonato prima dell’alba. Lavorai con Marcello Balestri del gruppo di Luciano Nebbia, persone in gamba, come moltissime nello staff di CSELT. Insieme riuscimmo quindi a produrre la prima versione italiana, e una delle prime al mondo, di TTS industriale utilizzabile nei sistemi IVR. Sono passati 30 anni ma ancora oggi quel software viene utilizzato da alcune aziende. Infatti, solamente negli ultimi anni c’è stato un salto tecnologico nell’area, grazie all’utilizzo delle reti neurali e nello specifico del Deep Learning. Con l’addestramento delle reti neurali si va oltre alla concatenazione di difoni, dove l’audio generato appare comunque un poco ‘pixellato’. Con il Deep Learning si ottiene una prosodia praticamente perfetta con il risultato di non riuscire quasi a distinguere la voce sintetica da quella dello speaker originale.

Ciò che è particolarmente interessante con la tecnologia di Neural TTS è la possibilità di creare la propria voce sintetica registrando alcune decine di ore di audio, per esempio leggendo alcuni testi. Tra le applicazioni più suggestive è l’uso della nostra voce sintetica, dopo che la nostra voce naturale avrà terminato la sua funzione su questa terra, fornendo un mattone per la creazione dell’identità digitale di un individuo al di là della morte.

Ma parlando di avvenimenti non legati all’Aldilà, recentemente Interactive Media ha ricevuto l’appalto per produrre tutti gli audio di tutti i sistemi di risposta automatica di TIM Brasile utilizzando il Neural TTS di Microsoft. La qualità è straordinaria, si direbbe veramente che a parlare sia una persona, gentile, coinvolta e premurosa oltre che professionale. Siamo pronti a riversare questa esperienza, con il know-how che ne deriva, su tutti gli altri mercati: contattateci se la voce con cui interagite con i vostri clienti è importante per voi.

Altri articoli

Come aumentare l’affidabilità dei chatbot basati su LLM

Come aumentare l’affidabilità dei chatbot basati su LLM

ChatGPT e i suoi fratelli vengono usati per sempre più servizi per il pubblico. È affascinante e terrificante nello stesso tempo. Come possiamo eliminare il terrore?Nel Corso dell’ultimo anno, dopo il primo rilascio di ChatGPT, c’è stata un’esplosione di chatbot...

leggi tutto
Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it