
Scritto da Roberto Valente
Dicembre 12, 2022

L’autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l’amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.
Interactive Media ha una lunga storia nello sviluppo di applicazioni vocali sempre più all’avanguardia, con oltre 25 anni di esperienza nella gestione della sintesi vocale. Ma personalmente ho iniziato a lavorare in questo campo prima ancora di fondare l’azienda e posso dire di essermi occupato di CTI (computer telephony integration) sin dal suo inizio. In questo articolo voglio dare una breve prospettiva della mia esperienza con la sintesi vocale.
Nel 1993 e negli anni a seguire ho avuto il privilegio di collaborare con lo CSELT di Torino, che stava lavorando da decenni sulle tecnologie di Text-to-Speech (TTS).
Negli anni ’70 lo CSELT era, insieme ad AT&T, l’unica società a sviluppare sistemi industriali di TTS. Il primo sistema sviluppato si chiamava MUSA (https://www.youtube.com/watch?v=TvKChDE-Lnk)
Nel 1993 è stata la volta di Eloquens, anch’esso realizzato con la concatenazioni di difoni (i suoni prodotti dalla metà di un fonema in una parola alla metà di quello successivo). La qualità di Eloquens era decisamente migliore di MUSA ed ancora oggi può essere considerato un prodotto di buona qualità (https://www.youtube.com/watch?v=sZuV1L7cqro).
Altri articoli
PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce
PhoneMyBot di Interactive Media è un servizio che trasforma i chatbot, che funzionano solo su...
I messaggi vocali di WhatsApp e come possono essere utilizzati dai chatbot
WhatsApp consente alle persone di registrare e inviare messaggi vocali. Cosa vuol dire per...

Disco contenente la canzone Fra Martino campanaro cantata da MUSA nel 1978.
Il Software di Eloquens era stato sviluppato per essere utilizzato con un PC stand alone. L’obiettivo di CSELT, che apparteneva alla compagnia telefonica nazionale, era naturalmente di poterlo utilizzare in ambito telefonico. Io, d’altro canto, lavoravo come consulente per una impresa italiana che era rivenditore esclusivo delle schede per PC Natural MicroSystems, che permettevano di interfacciare un PC alla linea telefonica. Il mio compito era di portare il software di Eloquens nei DSP della scheda per poterlo utilizzare in applicazioni di tipo IVR. Ricordo quei giorni come un periodo straordinario. Torino era all’epoca una città prettamente industriale e alle 20h30 i ristoranti erano vuoti e non c’era più nessuno in strada. Il giorno dopo le sirene delle fabbriche avrebbero suonato prima dell’alba. Lavorai con Marcello Balestri del gruppo di Luciano Nebbia, persone in gamba, come moltissime nello staff di CSELT. Insieme riuscimmo quindi a produrre la prima versione italiana, e una delle prime al mondo, di TTS industriale utilizzabile nei sistemi IVR. Sono passati 30 anni ma ancora oggi quel software viene utilizzato da alcune aziende. Infatti, solamente negli ultimi anni c’è stato un salto tecnologico nell’area, grazie all’utilizzo delle reti neurali e nello specifico del Deep Learning. Con l’addestramento delle reti neurali si va oltre alla concatenazione di difoni, dove l’audio generato appare comunque un poco ‘pixellato’. Con il Deep Learning si ottiene una prosodia praticamente perfetta con il risultato di non riuscire quasi a distinguere la voce sintetica da quella dello speaker originale.
Ciò che è particolarmente interessante con la tecnologia di Neural TTS è la possibilità di creare la propria voce sintetica registrando alcune decine di ore di audio, per esempio leggendo alcuni testi. Tra le applicazioni più suggestive è l’uso della nostra voce sintetica, dopo che la nostra voce naturale avrà terminato la sua funzione su questa terra, fornendo un mattone per la creazione dell’identità digitale di un individuo al di là della morte.
Ma parlando di avvenimenti non legati all’Aldilà, recentemente Interactive Media ha ricevuto l’appalto per produrre tutti gli audio di tutti i sistemi di risposta automatica di TIM Brasile utilizzando il Neural TTS di Microsoft. La qualità è straordinaria, si direbbe veramente che a parlare sia una persona, gentile, coinvolta e premurosa oltre che professionale. Siamo pronti a riversare questa esperienza, con il know-how che ne deriva, su tutti gli altri mercati: contattateci se la voce con cui interagite con i vostri clienti è importante per voi.
Altri articoli
I messaggi vocali di WhatsApp e come possono essere utilizzati dai chatbot
WhatsApp consente alle persone di registrare e inviare messaggi vocali. Cosa vuol dire per l’esperienza del cliente?Come la maggior parte degli europei – beh, dovrei dire la maggior parte delle persone nel mondo - uso WhatsApp. WhatsApp ha più di 2 miliardi di utenti...
Ottimizzazione dei risultati riconoscimento vocale con le soluzioni di Interactive Media
Una prospettiva storicaInteractive Media offre da molti anni soluzioni di AI conversazionale, focalizzandosi sugli Agenti Virtuali abilitati alla voce. Abbiamo implementato i nostri primi Agenti Virtuali conversazionali molto prima che l'Intelligenza Artificiale...
Servizio outbound di PhoneMyBot
Quando le persone pensano ai chatbot, per lo più vengono alla loro mente quelle piccole finestrelle di aiuto che spuntano nella parte inferiore destra delle pagine web. A volte risultano un po' fastidiose, soprattutto quando non si cerca nulla in particolare, ma sono...

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515 • PEC interactivemedia@pec.it