Come aumentare l’affidabilità dei chatbot basati su LLM

Come aumentare l’affidabilità dei chatbot basati su LLM

Come aumentare l’affidabilità dei chatbot basati su LLM

Scritto da

ChatGPT e i suoi fratelli vengono usati per sempre più servizi per il pubblico. È affascinante e terrificante nello stesso tempo. Come possiamo eliminare il terrore?

Nel Corso dell’ultimo anno, dopo il primo rilascio di ChatGPT, c’è stata un’esplosione di chatbot basati su Large Language Models (LLM). L’adozione della tecnologia LLM nell’intelligenza artificiale conversazionale sta davvero rivoluzionando il settore, con un’esperienza dell’utente molto migliore di quella che era prima. Questi chatbot promettono meraviglie per applicazioni molto diverse, dal servizio al cliente alla traduzione simultanea alla sanità, insomma per qualunque servizio per fornire informazioni al pubblico in linguaggio naturale, sia a voce che per scritto.

Ma non tutto è perfetto nel campo dell’IA per il servizio ai clienti: rimangono difetti piuttosto gravi. In quest’articolo cerco di spiegare alcuni dei problemi principali e suggerire possibili soluzioni per mitigarli, se non risolverli.

La predicibilità dei “Large Language Models”

Gli LLM sono collezioni enormi di frammenti di informazione, che l’algoritmo di intelligenza artificiale collega in maniera statistica. Per fornire le risposte, l’algoritmo prende il cammino più probabile per andare da un frammento ad un altro, a seconda della domanda e considerando il suo contesto. Questo processo non porta sempre a un risultato predicibile, come capita di solito quando si gioca sulla statistica.

Per certi casi d’uso, non è un problema insormontabile se le risposte da un chatbot basato su LLM cambiano da una all’altra. Per esempio, il riassunto di una conversazione può essere reso in vari modi, senza mancare di accuratezza. Oppure un prodotto può essere raccomandato da un algoritmo basato su LLM con frasi e parole diverse.

Ma ci sono altre applicazioni, più collegate all’assistenza al cliente, dove la precisione delle risposte è fondamentale e un errore può avere un costo alto: ogni volta che ci possono essere conseguenze legali, per esempio, o quando il chatbot viene usato come il primo livello di interazione quando l’utente cerca di avere un prestito. In questi casi, mentre la promessa degli algoritmi basati su LLM è chiara, bisogna ridurre il rischio.

Sensibilità dei chatbot LLM al loro input

La lingua che usiamo è fluida, e ci sono normalmente molti modi di dire la stessa cosa. Come nelle altre lingue, in italiano ci sono modi di dire, metafore e sinonimi che tutti usano, magari senza rendersene conto. Quindi persone diverse useranno parole diverse in diversi momenti per fare una domanda a un chatbot, anche secondo il livello di istruzione del parlante, il suo stato d’animo, la sua età, dove abita, eccetera.

Naturalmente questo complica le cose assai quando si parla con un chatbot basato su LLM, che dipende dalla frase in ingresso per trovare la risposta: la stessa domanda può assumere significati completamente diversi a seconda delle parole usate. Il risultato è che, almeno per ora, quando la precisione è importante non ci si può fidare un granché di un chatbot basato su LLM per il servizio clienti.

Una soluzione: standardizzare l’input

Mandare a un chatbot basato su LLM sempre le stesse parole per la stessa domanda sarebbe un bel passo avanti nel risolvere il problema della precisione delle risposte. Questo non è ovviamente possibile quando il chatbot risponde a domande qualsiasi, con un argomento libero. Ma è possibile, ed anche relativamente facile, se le domande e le risposte si riferiscono a un dominio preciso, come quello del servizio ai clienti. In questo caso, proponiamo di piazzare un sistema di call steering, che usa il linguaggio naturale per determinare l’intento degli utenti, davanti al chatbot basato su LLM. Quando il sistema di call steering determina l’intento del chiamante, anche attraverso un dialogo abbastanza complesso, manda al chatbot una domanda standardizzata per quell’intento, che sarà stata ottimizzata per produrre la risposta più utile.

Interactive Media ha molta esperienza di applicazioni conversazionali, e ha una struttura e un processo standard per l’implementazione di applicazioni di call steering. Quindi, abbiamo messo a punto una piattaforma completa per aiutare gli utenti ad interagire con un chatbot LLM in applicazioni di servizio al cliente. Abbiamo integrato PhoneMyBot con la nostra piattaforma di call steering MIND e con il chatbot LLM, che svolge la parte di servizio al cliente vera e propria. Quando un utente chiama il numero del servizio, risponde  MIND, che fa delle domande per individuare con precisione l’intento della chiamata. Una volta fatto questo, MIND manda a PhoneMyBot il testo della domanda da fare al chatbot. PhoneMyBot poi riceve la risposta dal chatbot e la passa all’utente.

Questa tecnica aumenta la qualità e la precisione delle risposte dei chatbot LLM, rendendoli piu’ adatti a lavorare in un ambiente di servizio al cliente.

Ci farebbe molto piacere parlarvi di questa soluzione e darvi maggiori dettagli: se interessati, contattate Interactive Media a info@imnet.com o cliccate sul pulsante qui sotto.

Altri articoli

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

Scritto da

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la concorrenza, vedere cos’hanno e come lo presentano ai loro possibili clienti.

La prima e principale dimostrazione che hanno fatto era una soluzione che sincronizza una telefonata fatta con uno smartphone con una componente visuale su web. In sostanza, quando l’utente chiama, gli si offre la possibilità di ricevere un SMS con un link a una applicazione su web personalizzata. Le pagine web contengono informazioni pertinenti al motivo della chiamata e l’utente può navigare normalmente toccando lo schermo del telefono, o a voce conversando con il sistema.

Guardando la dimostrazione, l’esperienza è ottima: tutte le informazioni riguardo la telefonata sono presenti, ed è molto facile aggiungere nuovi elementi. Per esempio, pensate a quanto è difficile dettare un indirizzo di email a un operatore (per non parlare di un agente virtuale vocale!). Con questo tipo di applicazione, basta scriverlo in un campo sullo schermo, in maniera molto più efficiente e con meno possibilità di errore.

Dal punto di vista tecnico, questa soluzione è assai complessa. Bisogna usare un qualche tipo di intelligenza artificiale conversazionale per capire quel che dice l’utente, identificare la ragione della chiamata e navigare con precisione via voce; costruire dinamicamente le pagine web per adattarle allo scopo della chiamata; generare e mandare il link come SMS; e, forse la cosa più difficile, sincronizzare le parti vocali e web della sessione. Devo dire, ha funzionato molto bene!

Ma vedendo questa demo sono anche rimasto esterrefatto. Infatti, era esattamente identica a una demo che facevo io, usando la piattaforma di Interactive Media, già cinque anni fa! (e ho un video per dimostrarlo). Riflettendoci, mi sono reso conto di due cose. Una è che la tecnologia (e la squadra) di Interactive Media sono ottime, molto in avanti rispetto alla concorrenza. Ma l’altra, considerato che non abbiamo trovato clienti interessati a quella soluzione, è che a volte concentrarsi su servizi sempre più sofisticati e volti a rendere le cose il più facili possibili per alcuni utenti, non porta al successo commerciale.

La demo è fantastica, ma quanto spesso pensate che usereste davvero un servizio del genere? Personalmente, non molto spesso. In sostanza, mi pare che il settore della tecnologia per il servizio ai clienti, in cui lavoro, sta producendo soluzioni software sempre più complesse, che vanno a caccia di un numero di utenti sempre più piccolo.

La gran maggioranze degli utenti spera fortemente di non dover mai contattare l’assistenza. Ma quando qualcuno lo fa, spesso è per una ragione semplice, che spesso non ha bisogno di questo tipo di applicazioni. I clienti che hanno bisogno di aiuto in generale possono visitare il sito web della società che gli fornisce il servizio, scambiare messaggi con un operatore o un chatbot, o telefonare. Sicuramente se un cliente decide di chiamare è perché preferisce la voce ad altri canali, sia perché gli altri canali non sono disponibili (per esempio, dalla macchina) o perché non è abituato ad usarli. Non tutti navigano su Internet o scambiano messaggi con un chatbot normalmente.

Ma per gli utenti che chiamano col telefono, c’è PhoneMyBot, il servizio di Interactive Media che aggiunge i canali vocali ai chatbot senza bisogno di cambiare il loro software. Le aziende che hanno un chatbot per gestire l’assistenza su canali di testo ma non quelli vocali possono usare PhoneMyBot per abilitare conversazioni a voce con il loro sistema di self-service. E fornitori di chatbot che supportano solo canali testuali o sul web possono integrare PhoneMyBot nella loro offerta ed offrire anche la voce ai loro clienti. PhoneMyBot abilita soluzioni di self-service vocale più semplici per la maggior parte degli utenti.

Ma se invece avete davvero bisogno di una applicazione che sincronizza la voce e il web in una sola sessione, per i vostri clienti più esigenti, perché non contattate anche Interactive Media? Dopotutto, siamo avanti di cinque anni.

Se volete provare PhoneMyBot, gratis e senza impegno, contattate Interactive Media a info@imnet.com o cliccate sul pulsante qui sotto:

Altri articoli

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

PhoneMyBot e ChatGPT: diamo la voce all’intelligenza artificiale

PhoneMyBot e ChatGPT: diamo la voce all’intelligenza artificiale

PhoneMyBot e ChatGPT: diamo la voce all’intelligenza artificiale

Scritto da

Parlare al telefono con ChatGPT è un’esperienze unica. E può anche essere utile.

Tra gli addetti ai lavori del software non si è parlato d’altro da mesi: ChatGPT. È il primo chatbot basato su un “large language model” ad avere un grosso impatto, e che impatto! È arrivato con l’energia dell’asteroide Chicxulub, quello che ha ucciso i dinosauri 65 milioni di anni fa colpendo al largo dello Yucatan. Oltre a causare un inverno globale per molti anni, quell’asteroide aveva creato un maremoto con onde alte un chilometro, appena più piccole di quelle che ChatGPT ha generato adesso. Ma forse non è il caso di insistere con questa metafora: è possibile che ChatGPT e i suoi emuli uccideranno… noi, i loro creatori? Sono un ottimista e penso di no, ma a leggere i giornali e secondo molti esperti di intelligenza artificiale, compreso il CEO di Open AI, in creatore di ChatGPT, non si è tanto sicuri…

Ma si sa che, quando uno strumento del genere diviene disponibile, la gente lo usa nonostante possa causare la fine del mondo. All’inizio tutti hanno chiesto cose strane a ChatGPT, come scrivere un sonetto sul Padel o un articolo sulla letteratura tibetana, ma adesso finalmente ci si chiede che cosa può fare di utile per la vita normale.

Noi di Interactive Media abbiamo integrato con ChatGPT il nostro servizio per fornire il canale vocale ai chatbot senza dover modificare il loro codice, PhoneMyBot. Usando PhoneMyBot è quindi possibile fare una telefonata a ChatGPT, fare delle domande, e ascoltare le risposte. Questa è solo una demo per ora, ma sviluppandola abbiamo imparato molto e ci siamo fatti un’idea precisa su come ChatGPT potrebbe aiutare in quello che facciamo normalmente, che è di dare servizi alle aziende per assistere i loro clienti.

Diciamolo subito: senza personalizzazioni, ChatGPT non riesce a fornire un voice bot per l’assistenza al cliente. La sua base di conoscenza è troppo grande, letteralmente tutta l’Internet. Il che vuol dire che ChatGPT non può usare solo il suo modello di linguaggio normale per rispondere a domande che riguardano cose che non sono su Internet, come per esempio quanto c’è sul vostro conto in banca.

Tuttavia, nell’assistenza ai clienti qualche volta c’è bisogno di rispondere a domande generali. A quanto abbiamo visto gli utenti a volte chiedono cose assolutamente non connesse alla ragione della chiamata, come per esempio: “dove abiti?” “Quanti anni hai?” “Posso vederti?” “Quanto guadagni?” ChatGPT ha ottime risposte a queste domande (probabilmente mai la stessa risposta due volte di fila), e sarebbe utile in questo tipo di conversazioni. ChatGPT è anche indipendente dal linguaggio usato, anzi capisce la lingua dell’utente e risponde nella stessa lingua. Questa è una caratteristica incredibile, e rende più facile usarlo.

A parte le domande generali, comunque, è possibile dare a ChatGPT una conoscenza specifica su un particolare argomento, aggiungendo al suo modello di linguaggio decine, centinaia o migliaia di esempi di specifiche coppie domanda-risposta. Questo definisce un dominio separato, con il suo nome e identificativo, che permette al chatbot di rispondere a domande precise. E funziona: a Interactive Media abbiamo fatto una serie di esperimenti e troviamo che ChatGPT effettivamente non solo risponde alle domande relative a questioni specifiche, se in possesso delle informazioni corrette, ma anche in maniera piacevole e con risposte ben formate.

Ma spesso le domande del cliente sono ambigue e non è chiaro qual è lo scopo esatto della domanda. ChatGPT non può in questo caso rispondere, o le risposte sarebbero vaghe o sbagliate. Qui entra in gioco la piattaforma di Interactive Media, che si occupa di disambiguare, aiutando il cliente a definire il problema nei termini che ChatGPT si aspetta. Piazzata davanti al motore di ChatGPT, la piattaforma MIND di Interactive Media agisce da intermediario e garantisce il successo della conversazione.

Naturalmente però, per fornire un servizio utile bisogna avere accesso ai dati dei database aziendali. ChatGPT non può raggiungerli da solo. Ma ad Interactive Media abbiamo anche sviluppato un metodo per accedere in maniera generale a dati che possono essere in un database e indurre ChatGPT a inserirli nelle sue risposte. Ovviamente il collegamento a un vero database deve essere fatto a progetto, ma noi siamo esperti in questi sviluppi, quindi contattateci se vi interessa!

Nel frattempo, ci fate piacere se provate il collegamento di PhoneMyBot con ChatGPT: contattate Interactive Media a info@imnet.com, o cliccate sul pulsante qui sotto:

Altri articoli

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Il futuro della voce intelligente

Il futuro della voce intelligente

Il futuro della voce intelligente

Scritto da

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)?

Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l’anno in cui Amazon ha rilasciato il suo primo prodotto Echo. Poco dopo, Google e Apple hanno fatto altrettanto con le loro tecnologie Google Assistant e Siri.

Siri è integrata come funzionalità software nell’hardware di Apple, mentre Amazon e Google hanno prodotto e iniziato a vendere l’hardware per supportare il loro software vocale: una linea di smart speaker con microfoni sensibili che ascoltano aspettando le parole chiave per entrare in azione. L’ascesa di questi dispositivi è stata molto rapida. Sono economici e facili da usare, e hanno ampiamente soppiantato sia la radio che gli stereo domestici, trasmettendo contenuti tramite comando vocale. Ne sono state venduti decine di milioni, sia negli Stati Uniti che nel resto del mondo: secondo un report di Comscore, nel 2021 quasi la metà degli utenti internet statunitensi ne possedeva almeno uno.

Alexa è probabilmente il più noto di questi dispositivi. Alexa ascolta i suoni intorno a lei e quando sente il suo nome entra in azione. Ciò significa registrare la frase che segue la parola chiave e inviare l’audio al cloud di Amazon per il riconoscimento, ricevere la risposta e riprodurla. (Presumibilmente, nient’altro viene registrato al di fuori della transazione avviata dalla parola chiave). Lo stesso vale per la versione di Google; hey Google è più lungo da pronunciare e meno personale.

A proposito, conosco una persona che si chiama Alexa, ed era il suo nome ben prima che Amazon rilasciasse il primo Echo: Mi chiedo come si senta quando il suo nome viene invocato così tanta gente…

Il problema con lo status quo: mancanza di entrate

Come spesso accade nel settore tecnologico, la tecnologia ha superato di molto i casi d’uso redditizi per gli smart speaker. Certamente, le persone usavano e usano spesso i loro smart speaker, ma soprattutto per fare domande generiche, controllare il meteo e chiedere musica in streaming. I fornitori speravano che, con il tempo e con una maggiore adozione, avrebbero potuto elaborare un modello di entrate che avrebbe supportato il business, ma finora nessuno ci è riuscito.

Gli annunci pubblicitari sono presenti durante la musica in streaming solo se le persone non si abbonano ad una piattaforma musicale; tuttavia, non sono molti e devono essere poco frequenti per non rovinare l’esperienza dell’utente: altrimenti ben pochi si collegherebbero. Comunque sia, un abbonamento musicale da 10 euro al mese non basta per supportare la fornitura e la manutenzione dell’infrastruttura del servizio.

Il caso d’uso più redditizio che si prefigurava all’inizio è lo shopping vocale, ma non è mai decollato: i consumatori sono comprensibilmente stanchi di fornire informazioni personali, numeri di carte di credito, etc. al Cloud, e questo è un canale in più che ne ha bisogno. Per di più, qualsiasi acquisto effettuato tramite uno smart speaker è ovviamente da considerare “a scatola chiusa”.

Quindi, negli ultimi mesi con il cambiamento dell’economia e la consapevolezza di quanto sia difficile monetizzare gli smart speaker, c’è stato un netto ridimensionamento sia da parte di Amazon che di Google.  Amazon ha licenziato gran parte del team di sviluppo di Alexa, mentre Google avrebbe ridotto molto i fondi per la tecnologia Assistant e – questa è una notizia molto recente – Alphabet ha licenziato 12.000 dipendenti nel Gennaio 2023. Le aree con i risultati peggiori sono state ovviamente le più colpite. Gli smart speaker sono quindi in difficoltà.

App vocali sugli smart speaker

La situazione è però complicata dal fatto che molte aziende e organizzazioni hanno sviluppato app che funzionano con Alexa e Google Assistant, attraverso le rispettive API. In questo caso, gli smart speaker fungono semplicemente da interfaccia vocale: una volta che l’app è attiva, trascrivono ciò che l’utente dice e inviano il testo al servizio esterno, prendono il testo che il servizio invia e lo trasformano in voce per l’utente.

Amazon chiama queste app “Skills”; Google le chiama “Actions”. Ad ogni modo, ce ne sono centinaia di migliaia. Possono essere lanciati con un prompt specifico: “Alexa, apri [nome della skill]” o “Hey Google, parla con [nome dell’action]”. Mentre molte app non hanno avuto successo e hanno un uso minimo, altre sono importanti o addirittura essenziali.

Cosa succede a queste app se i fornitori di smart speaker limitano e poi terminano la loro offerta?  Alcune attivano solo un canale aggiuntivo per un servizio più ampio e presumibilmente non subirebbero un impatto troppo rilevante. Ma altre app sono state sviluppate appositamente per sfruttare il canale vocale gratuito offerto dagli smart speaker. Ad esempio, di recente ho parlato con lo sviluppatore di una Skill per i non vedenti, in cui la voce viene utilizzata per accedere alle informazioni che altre persone invece ottengono visivamente dagli schermi. Per questo e altri motivi, gli sviluppatori di skills e actions sono seriamente preoccupati.

D’altra parte, quali altri canali ci sono oggi in casa per app vocali intelligenti bidirezionali? Beh, quello che abbiamo sempre avuto: il telefono (non importa se fisso o mobile). Certo, chiamare un’app tramite telefono è un po’ meno immediato che dire semplicemente “Hey Google”, ma tutti sanno come usare un telefono e la tecnologia non potrebbe essere più collaudata. Il problema quindi è connettere le app intelligenti esistenti alla rete telefonica.

PhoneMyBot come canale per le app vocali

Interactive Media fornisce PhoneMyBot, un servizio progettato per aggiungere i canali vocali ai chatbot. PhoneMyBot svolge le stesse funzioni che gli smart speaker svolgono per le app, trascrivendo il discorso dell’utente e inviandolo all’app connessa. Quindi trasforma il testo che arriva dai chatbot in parlato, inviandolo al canale vocale. PhoneMyBot è integrato nativamente nella rete telefonica ed espone alle applicazioni un’API equivalente ad Alexa e Google Assistant. Inoltre, PhoneMyBot si integra con vari software di contact center per trasferire la chiamata a un agente umano, se necessario.

Per quale motivo PhoneMyBot dovrebbe interessare molto a chi produce app conversazionali se gli smart speaker continuano a declinare? PhoneMyBot è estremamente facile da implementare: offre un periodo di prova iniziale gratuito e il traffico viene addebitato a una (bassa) tariffa al “minuto”, indipendentemente dal volume di traffico. Questo lo rende ideale per i servizi prepagati a basso costo. La gestione è semplice ed efficace: un unico portale fornisce l’accesso a tutti i dati e alle statistiche di traffico. Inoltre è solido, con un’infrastruttura software che è in uso su grandi reti di telecomunicazioni e gestisce milioni di chiamate al mese.

Quindi provalo, fai clic sul pulsante qui sotto!

Altri articoli

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Scritto da

L’autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l’amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali. 

Interactive Media ha una lunga storia nello sviluppo di applicazioni vocali sempre più all’avanguardia, con oltre 25 anni di esperienza nella gestione della sintesi vocale. Ma personalmente ho iniziato a lavorare in questo campo prima ancora di fondare l’azienda e posso dire di essermi occupato di CTI (computer telephony integration) sin dal suo inizio. In questo articolo voglio dare una breve prospettiva della mia esperienza con la sintesi vocale. 

Nel 1993 e negli anni a seguire ho avuto il privilegio di collaborare con lo CSELT di Torino, che stava lavorando da decenni sulle tecnologie di Text-to-Speech (TTS).

Negli anni ’70 lo CSELT era, insieme ad AT&T, l’unica società a sviluppare sistemi industriali di TTS. Il primo sistema sviluppato si chiamava MUSA (https://www.youtube.com/watch?v=TvKChDE-Lnk)

Nel 1993 è stata la volta di Eloquens, anch’esso realizzato con la concatenazioni di difoni (i suoni prodotti dalla metà di un fonema in una parola alla metà di quello successivo). La qualità di Eloquens era decisamente migliore di MUSA ed ancora oggi può essere considerato un prodotto di buona qualità (https://www.youtube.com/watch?v=sZuV1L7cqro).

Altri articoli

Disco contenente la canzone Fra Martino campanaro cantata da MUSA nel 1978.

Il Software di Eloquens era stato sviluppato per essere utilizzato con un PC stand alone. L’obiettivo di CSELT, che apparteneva alla compagnia telefonica nazionale, era naturalmente di poterlo utilizzare in ambito telefonico. Io, d’altro canto, lavoravo come consulente per una impresa italiana che era rivenditore esclusivo delle schede per PC Natural MicroSystems, che permettevano di interfacciare un PC alla linea telefonica. Il mio compito era di portare il software di Eloquens nei DSP della scheda per poterlo utilizzare in applicazioni di tipo IVR. Ricordo quei giorni come un periodo straordinario. Torino era all’epoca una città prettamente industriale e alle 20h30 i ristoranti erano vuoti e non c’era più nessuno in strada. Il giorno dopo le sirene delle fabbriche avrebbero suonato prima dell’alba. Lavorai con Marcello Balestri del gruppo di Luciano Nebbia, persone in gamba, come moltissime nello staff di CSELT. Insieme riuscimmo quindi a produrre la prima versione italiana, e una delle prime al mondo, di TTS industriale utilizzabile nei sistemi IVR. Sono passati 30 anni ma ancora oggi quel software viene utilizzato da alcune aziende. Infatti, solamente negli ultimi anni c’è stato un salto tecnologico nell’area, grazie all’utilizzo delle reti neurali e nello specifico del Deep Learning. Con l’addestramento delle reti neurali si va oltre alla concatenazione di difoni, dove l’audio generato appare comunque un poco ‘pixellato’. Con il Deep Learning si ottiene una prosodia praticamente perfetta con il risultato di non riuscire quasi a distinguere la voce sintetica da quella dello speaker originale.

Ciò che è particolarmente interessante con la tecnologia di Neural TTS è la possibilità di creare la propria voce sintetica registrando alcune decine di ore di audio, per esempio leggendo alcuni testi. Tra le applicazioni più suggestive è l’uso della nostra voce sintetica, dopo che la nostra voce naturale avrà terminato la sua funzione su questa terra, fornendo un mattone per la creazione dell’identità digitale di un individuo al di là della morte.

Ma parlando di avvenimenti non legati all’Aldilà, recentemente Interactive Media ha ricevuto l’appalto per produrre tutti gli audio di tutti i sistemi di risposta automatica di TIM Brasile utilizzando il Neural TTS di Microsoft. La qualità è straordinaria, si direbbe veramente che a parlare sia una persona, gentile, coinvolta e premurosa oltre che professionale. Siamo pronti a riversare questa esperienza, con il know-how che ne deriva, su tutti gli altri mercati: contattateci se la voce con cui interagite con i vostri clienti è importante per voi.

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

Scritto da

PhoneMyBot di Interactive Media è un servizio che trasforma i chatbot, che funzionano solo su conversazioni di testo, in assistenti virtuali abilitati alla voce. Per fare ciò, PhoneMyBot riceve il canale vocale – che si tratti di una linea telefonica, di un messaggio vocale registrato o di altri canali vocali in streaming, trasforma la voce in testo tramite un servizio di riconoscimento vocale e invia il testo al chatbot.

Quando PhoneMyBot riceve la risposta come messaggio di testo dal chatbot, la trasforma in voce e la rimanda all’utente. Puoi avere più informazioni su PhoneMyBot qui.

La descrizione di sopra manca di molte sfumature e dettagli (alcuni di essi sono in attesa di brevetto), ma una chiave del successo di PhoneMyBot è la capacità di integrarsi con molte piattaforme di chatbot. PhoneMyBot offre un’API cloud standard che i chatbot possono utilizzare, ma include anche adattatori che utilizzano l’API nativa delle piattaforme chatbot, simulando un semplice client web. In questo modo, PhoneMyBot può comunicare con le implementazioni di chatbot esistenti senza la necessità di nuovi sviluppi nel codice del chatbot. Al momento, PhoneMyBot distribuisce adattatori per circa 10 piattaforme di chatbot, tuttavia ne escono continuamente di nuovi, a seconda delle esigenze dei nostri clienti. Se non vedi un adattatore per la tua piattaforma, faccelo sapere e possiamo aggiungerlo.

PhoneMyBot è stato progettato per rendere economica ed immediata l’aggiunta della voce ad un chatbot esistente, ma come effetto secondario riduce il costo dei nuovi sviluppi di voicebot, accelerando allo stesso tempo i tempi di implementazione.

Per quale motivo? Dipende tutto dalle dinamiche del mercato dell’AI conversazionale per i clienti aziendali.

Altri articoli

Un progetto di intelligenza artificiale conversazionale di successo ha bisogno di più del software di intelligenza artificiale conversazionale e delle comunicazioni per raggiungerlo. Deve essere adattato al flusso di lavoro, ai prodotti, ai servizi e al gergo dell’azienda. Spesso, il tipo di linguaggio che deve essere utilizzato non è lo stesso di una conversazione generica e ciò richiede che le applicazioni conversazionali siano addestrate per supportarlo al meglio. Naturalmente, questo è un bisogno comune in questo tipo di progetto e le piattaforme di AI conversazionale supportano la personalizzazione del linguaggio. Tuttavia, ciò significa che lo sviluppo, il test, il perfezionamento e l’implementazione del progetto richiedono ancora un tempo ed un impegno considerevoli.

Però, non ci sono molti fornitori di AI conversazionale che offrono integrazione vocale e integratori di sistemi addestrati sulla loro piattaforma per implementare progetti. Oltre alla parte di AI conversazionale, un progetto abilitato alla voce ha bisogno dell’integrazione con la rete telefonica o il PBX aziendale, l’inserimento nel flusso IVR e l’integrazione con il percorso vocale nel contact center, sia per inoltrare chiamate se l’assistente virtuale non può servirli completamente e per fornire i dati associati alle chiamate agli agenti umani, per semplificare il loro lavoro e fornire un servizio migliore.

Tutto ciò richiede competenze specializzate, che pochi fornitori hanno. Queste aziende e persone sono molto richieste, quindi i ritardi possono essere lunghi e i costi elevati.

Invece PhoneMyBot fornisce un’alternativa immediata, con i suoi canali vocali preintegrati. Fornisce immediatamente la connettività con la rete telefonica e WhatsApp, e le API per trasferire le chiamate ad altri endpoint vocali (ad esempio, una coda del contact center). Interactive Media ha una grande esperienza nell’integrazione con le suite di contact center più comuni, sia per inserire l’assistente virtuale nel flusso IVR sia per inviare i dati allegati alla chiamata all’agente umano che la sta per ricevere.

Ciò significa che il pool di fornitori che possono fare offerte per un progetto di intelligenza artificiale conversazionale abilitato alla voce è improvvisamente molto più grande. Anche le aziende con poca o nessuna esperienza vocale possono ora fornire un assistente virtuale omnicanale di alta qualità: devono solo testare la loro integrazione PhoneMyBot e appianare qualsiasi piccolo intralcio che il canale aggiuntivo potrebbe creare nella loro strategia applicativa.

Ci sono molte più offerte di AI conversazionale di solo testo rispetto a quelle abilitate alla voce. PhoneMyBot apre loro il mercato omnicanale, a vantaggio dei fornitori, dei loro clienti e, in definitiva, dell’esperienza del cliente che noi tutti riceviamo quando chiamiamo una linea di assistenza clienti.

Altri articoli

Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it