Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

Scritto da

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la concorrenza, vedere cos’hanno e come lo presentano ai loro possibili clienti.

La prima e principale dimostrazione che hanno fatto era una soluzione che sincronizza una telefonata fatta con uno smartphone con una componente visuale su web. In sostanza, quando l’utente chiama, gli si offre la possibilità di ricevere un SMS con un link a una applicazione su web personalizzata. Le pagine web contengono informazioni pertinenti al motivo della chiamata e l’utente può navigare normalmente toccando lo schermo del telefono, o a voce conversando con il sistema.

Guardando la dimostrazione, l’esperienza è ottima: tutte le informazioni riguardo la telefonata sono presenti, ed è molto facile aggiungere nuovi elementi. Per esempio, pensate a quanto è difficile dettare un indirizzo di email a un operatore (per non parlare di un agente virtuale vocale!). Con questo tipo di applicazione, basta scriverlo in un campo sullo schermo, in maniera molto più efficiente e con meno possibilità di errore.

Dal punto di vista tecnico, questa soluzione è assai complessa. Bisogna usare un qualche tipo di intelligenza artificiale conversazionale per capire quel che dice l’utente, identificare la ragione della chiamata e navigare con precisione via voce; costruire dinamicamente le pagine web per adattarle allo scopo della chiamata; generare e mandare il link come SMS; e, forse la cosa più difficile, sincronizzare le parti vocali e web della sessione. Devo dire, ha funzionato molto bene!

Ma vedendo questa demo sono anche rimasto esterrefatto. Infatti, era esattamente identica a una demo che facevo io, usando la piattaforma di Interactive Media, già cinque anni fa! (e ho un video per dimostrarlo). Riflettendoci, mi sono reso conto di due cose. Una è che la tecnologia (e la squadra) di Interactive Media sono ottime, molto in avanti rispetto alla concorrenza. Ma l’altra, considerato che non abbiamo trovato clienti interessati a quella soluzione, è che a volte concentrarsi su servizi sempre più sofisticati e volti a rendere le cose il più facili possibili per alcuni utenti, non porta al successo commerciale.

La demo è fantastica, ma quanto spesso pensate che usereste davvero un servizio del genere? Personalmente, non molto spesso. In sostanza, mi pare che il settore della tecnologia per il servizio ai clienti, in cui lavoro, sta producendo soluzioni software sempre più complesse, che vanno a caccia di un numero di utenti sempre più piccolo.

La gran maggioranze degli utenti spera fortemente di non dover mai contattare l’assistenza. Ma quando qualcuno lo fa, spesso è per una ragione semplice, che spesso non ha bisogno di questo tipo di applicazioni. I clienti che hanno bisogno di aiuto in generale possono visitare il sito web della società che gli fornisce il servizio, scambiare messaggi con un operatore o un chatbot, o telefonare. Sicuramente se un cliente decide di chiamare è perché preferisce la voce ad altri canali, sia perché gli altri canali non sono disponibili (per esempio, dalla macchina) o perché non è abituato ad usarli. Non tutti navigano su Internet o scambiano messaggi con un chatbot normalmente.

Ma per gli utenti che chiamano col telefono, c’è PhoneMyBot, il servizio di Interactive Media che aggiunge i canali vocali ai chatbot senza bisogno di cambiare il loro software. Le aziende che hanno un chatbot per gestire l’assistenza su canali di testo ma non quelli vocali possono usare PhoneMyBot per abilitare conversazioni a voce con il loro sistema di self-service. E fornitori di chatbot che supportano solo canali testuali o sul web possono integrare PhoneMyBot nella loro offerta ed offrire anche la voce ai loro clienti. PhoneMyBot abilita soluzioni di self-service vocale più semplici per la maggior parte degli utenti.

Ma se invece avete davvero bisogno di una applicazione che sincronizza la voce e il web in una sola sessione, per i vostri clienti più esigenti, perché non contattate anche Interactive Media? Dopotutto, siamo avanti di cinque anni.

Se volete provare PhoneMyBot, gratis e senza impegno, contattate Interactive Media a info@imnet.com o cliccate sul pulsante qui sotto:

Altri articoli

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Il futuro della voce intelligente

Il futuro della voce intelligente

Il futuro della voce intelligente

Scritto da

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)?

Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l’anno in cui Amazon ha rilasciato il suo primo prodotto Echo. Poco dopo, Google e Apple hanno fatto altrettanto con le loro tecnologie Google Assistant e Siri.

Siri è integrata come funzionalità software nell’hardware di Apple, mentre Amazon e Google hanno prodotto e iniziato a vendere l’hardware per supportare il loro software vocale: una linea di smart speaker con microfoni sensibili che ascoltano aspettando le parole chiave per entrare in azione. L’ascesa di questi dispositivi è stata molto rapida. Sono economici e facili da usare, e hanno ampiamente soppiantato sia la radio che gli stereo domestici, trasmettendo contenuti tramite comando vocale. Ne sono state venduti decine di milioni, sia negli Stati Uniti che nel resto del mondo: secondo un report di Comscore, nel 2021 quasi la metà degli utenti internet statunitensi ne possedeva almeno uno.

Alexa è probabilmente il più noto di questi dispositivi. Alexa ascolta i suoni intorno a lei e quando sente il suo nome entra in azione. Ciò significa registrare la frase che segue la parola chiave e inviare l’audio al cloud di Amazon per il riconoscimento, ricevere la risposta e riprodurla. (Presumibilmente, nient’altro viene registrato al di fuori della transazione avviata dalla parola chiave). Lo stesso vale per la versione di Google; hey Google è più lungo da pronunciare e meno personale.

A proposito, conosco una persona che si chiama Alexa, ed era il suo nome ben prima che Amazon rilasciasse il primo Echo: Mi chiedo come si senta quando il suo nome viene invocato così tanta gente…

Il problema con lo status quo: mancanza di entrate

Come spesso accade nel settore tecnologico, la tecnologia ha superato di molto i casi d’uso redditizi per gli smart speaker. Certamente, le persone usavano e usano spesso i loro smart speaker, ma soprattutto per fare domande generiche, controllare il meteo e chiedere musica in streaming. I fornitori speravano che, con il tempo e con una maggiore adozione, avrebbero potuto elaborare un modello di entrate che avrebbe supportato il business, ma finora nessuno ci è riuscito.

Gli annunci pubblicitari sono presenti durante la musica in streaming solo se le persone non si abbonano ad una piattaforma musicale; tuttavia, non sono molti e devono essere poco frequenti per non rovinare l’esperienza dell’utente: altrimenti ben pochi si collegherebbero. Comunque sia, un abbonamento musicale da 10 euro al mese non basta per supportare la fornitura e la manutenzione dell’infrastruttura del servizio.

Il caso d’uso più redditizio che si prefigurava all’inizio è lo shopping vocale, ma non è mai decollato: i consumatori sono comprensibilmente stanchi di fornire informazioni personali, numeri di carte di credito, etc. al Cloud, e questo è un canale in più che ne ha bisogno. Per di più, qualsiasi acquisto effettuato tramite uno smart speaker è ovviamente da considerare “a scatola chiusa”.

Quindi, negli ultimi mesi con il cambiamento dell’economia e la consapevolezza di quanto sia difficile monetizzare gli smart speaker, c’è stato un netto ridimensionamento sia da parte di Amazon che di Google.  Amazon ha licenziato gran parte del team di sviluppo di Alexa, mentre Google avrebbe ridotto molto i fondi per la tecnologia Assistant e – questa è una notizia molto recente – Alphabet ha licenziato 12.000 dipendenti nel Gennaio 2023. Le aree con i risultati peggiori sono state ovviamente le più colpite. Gli smart speaker sono quindi in difficoltà.

App vocali sugli smart speaker

La situazione è però complicata dal fatto che molte aziende e organizzazioni hanno sviluppato app che funzionano con Alexa e Google Assistant, attraverso le rispettive API. In questo caso, gli smart speaker fungono semplicemente da interfaccia vocale: una volta che l’app è attiva, trascrivono ciò che l’utente dice e inviano il testo al servizio esterno, prendono il testo che il servizio invia e lo trasformano in voce per l’utente.

Amazon chiama queste app “Skills”; Google le chiama “Actions”. Ad ogni modo, ce ne sono centinaia di migliaia. Possono essere lanciati con un prompt specifico: “Alexa, apri [nome della skill]” o “Hey Google, parla con [nome dell’action]”. Mentre molte app non hanno avuto successo e hanno un uso minimo, altre sono importanti o addirittura essenziali.

Cosa succede a queste app se i fornitori di smart speaker limitano e poi terminano la loro offerta?  Alcune attivano solo un canale aggiuntivo per un servizio più ampio e presumibilmente non subirebbero un impatto troppo rilevante. Ma altre app sono state sviluppate appositamente per sfruttare il canale vocale gratuito offerto dagli smart speaker. Ad esempio, di recente ho parlato con lo sviluppatore di una Skill per i non vedenti, in cui la voce viene utilizzata per accedere alle informazioni che altre persone invece ottengono visivamente dagli schermi. Per questo e altri motivi, gli sviluppatori di skills e actions sono seriamente preoccupati.

D’altra parte, quali altri canali ci sono oggi in casa per app vocali intelligenti bidirezionali? Beh, quello che abbiamo sempre avuto: il telefono (non importa se fisso o mobile). Certo, chiamare un’app tramite telefono è un po’ meno immediato che dire semplicemente “Hey Google”, ma tutti sanno come usare un telefono e la tecnologia non potrebbe essere più collaudata. Il problema quindi è connettere le app intelligenti esistenti alla rete telefonica.

PhoneMyBot come canale per le app vocali

Interactive Media fornisce PhoneMyBot, un servizio progettato per aggiungere i canali vocali ai chatbot. PhoneMyBot svolge le stesse funzioni che gli smart speaker svolgono per le app, trascrivendo il discorso dell’utente e inviandolo all’app connessa. Quindi trasforma il testo che arriva dai chatbot in parlato, inviandolo al canale vocale. PhoneMyBot è integrato nativamente nella rete telefonica ed espone alle applicazioni un’API equivalente ad Alexa e Google Assistant. Inoltre, PhoneMyBot si integra con vari software di contact center per trasferire la chiamata a un agente umano, se necessario.

Per quale motivo PhoneMyBot dovrebbe interessare molto a chi produce app conversazionali se gli smart speaker continuano a declinare? PhoneMyBot è estremamente facile da implementare: offre un periodo di prova iniziale gratuito e il traffico viene addebitato a una (bassa) tariffa al “minuto”, indipendentemente dal volume di traffico. Questo lo rende ideale per i servizi prepagati a basso costo. La gestione è semplice ed efficace: un unico portale fornisce l’accesso a tutti i dati e alle statistiche di traffico. Inoltre è solido, con un’infrastruttura software che è in uso su grandi reti di telecomunicazioni e gestisce milioni di chiamate al mese.

Quindi provalo, fai clic sul pulsante qui sotto!

Altri articoli

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

Scritto da

L’autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l’amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali. 

Interactive Media ha una lunga storia nello sviluppo di applicazioni vocali sempre più all’avanguardia, con oltre 25 anni di esperienza nella gestione della sintesi vocale. Ma personalmente ho iniziato a lavorare in questo campo prima ancora di fondare l’azienda e posso dire di essermi occupato di CTI (computer telephony integration) sin dal suo inizio. In questo articolo voglio dare una breve prospettiva della mia esperienza con la sintesi vocale. 

Nel 1993 e negli anni a seguire ho avuto il privilegio di collaborare con lo CSELT di Torino, che stava lavorando da decenni sulle tecnologie di Text-to-Speech (TTS).

Negli anni ’70 lo CSELT era, insieme ad AT&T, l’unica società a sviluppare sistemi industriali di TTS. Il primo sistema sviluppato si chiamava MUSA (https://www.youtube.com/watch?v=TvKChDE-Lnk)

Nel 1993 è stata la volta di Eloquens, anch’esso realizzato con la concatenazioni di difoni (i suoni prodotti dalla metà di un fonema in una parola alla metà di quello successivo). La qualità di Eloquens era decisamente migliore di MUSA ed ancora oggi può essere considerato un prodotto di buona qualità (https://www.youtube.com/watch?v=sZuV1L7cqro).

Altri articoli

Disco contenente la canzone Fra Martino campanaro cantata da MUSA nel 1978.

Il Software di Eloquens era stato sviluppato per essere utilizzato con un PC stand alone. L’obiettivo di CSELT, che apparteneva alla compagnia telefonica nazionale, era naturalmente di poterlo utilizzare in ambito telefonico. Io, d’altro canto, lavoravo come consulente per una impresa italiana che era rivenditore esclusivo delle schede per PC Natural MicroSystems, che permettevano di interfacciare un PC alla linea telefonica. Il mio compito era di portare il software di Eloquens nei DSP della scheda per poterlo utilizzare in applicazioni di tipo IVR. Ricordo quei giorni come un periodo straordinario. Torino era all’epoca una città prettamente industriale e alle 20h30 i ristoranti erano vuoti e non c’era più nessuno in strada. Il giorno dopo le sirene delle fabbriche avrebbero suonato prima dell’alba. Lavorai con Marcello Balestri del gruppo di Luciano Nebbia, persone in gamba, come moltissime nello staff di CSELT. Insieme riuscimmo quindi a produrre la prima versione italiana, e una delle prime al mondo, di TTS industriale utilizzabile nei sistemi IVR. Sono passati 30 anni ma ancora oggi quel software viene utilizzato da alcune aziende. Infatti, solamente negli ultimi anni c’è stato un salto tecnologico nell’area, grazie all’utilizzo delle reti neurali e nello specifico del Deep Learning. Con l’addestramento delle reti neurali si va oltre alla concatenazione di difoni, dove l’audio generato appare comunque un poco ‘pixellato’. Con il Deep Learning si ottiene una prosodia praticamente perfetta con il risultato di non riuscire quasi a distinguere la voce sintetica da quella dello speaker originale.

Ciò che è particolarmente interessante con la tecnologia di Neural TTS è la possibilità di creare la propria voce sintetica registrando alcune decine di ore di audio, per esempio leggendo alcuni testi. Tra le applicazioni più suggestive è l’uso della nostra voce sintetica, dopo che la nostra voce naturale avrà terminato la sua funzione su questa terra, fornendo un mattone per la creazione dell’identità digitale di un individuo al di là della morte.

Ma parlando di avvenimenti non legati all’Aldilà, recentemente Interactive Media ha ricevuto l’appalto per produrre tutti gli audio di tutti i sistemi di risposta automatica di TIM Brasile utilizzando il Neural TTS di Microsoft. La qualità è straordinaria, si direbbe veramente che a parlare sia una persona, gentile, coinvolta e premurosa oltre che professionale. Siamo pronti a riversare questa esperienza, con il know-how che ne deriva, su tutti gli altri mercati: contattateci se la voce con cui interagite con i vostri clienti è importante per voi.

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

PhoneMyBot promuove lo sviluppo di assistenti virtuali abilitati alla voce

Scritto da

PhoneMyBot di Interactive Media è un servizio che trasforma i chatbot, che funzionano solo su conversazioni di testo, in assistenti virtuali abilitati alla voce. Per fare ciò, PhoneMyBot riceve il canale vocale – che si tratti di una linea telefonica, di un messaggio vocale registrato o di altri canali vocali in streaming, trasforma la voce in testo tramite un servizio di riconoscimento vocale e invia il testo al chatbot.

Quando PhoneMyBot riceve la risposta come messaggio di testo dal chatbot, la trasforma in voce e la rimanda all’utente. Puoi avere più informazioni su PhoneMyBot qui.

La descrizione di sopra manca di molte sfumature e dettagli (alcuni di essi sono in attesa di brevetto), ma una chiave del successo di PhoneMyBot è la capacità di integrarsi con molte piattaforme di chatbot. PhoneMyBot offre un’API cloud standard che i chatbot possono utilizzare, ma include anche adattatori che utilizzano l’API nativa delle piattaforme chatbot, simulando un semplice client web. In questo modo, PhoneMyBot può comunicare con le implementazioni di chatbot esistenti senza la necessità di nuovi sviluppi nel codice del chatbot. Al momento, PhoneMyBot distribuisce adattatori per circa 10 piattaforme di chatbot, tuttavia ne escono continuamente di nuovi, a seconda delle esigenze dei nostri clienti. Se non vedi un adattatore per la tua piattaforma, faccelo sapere e possiamo aggiungerlo.

PhoneMyBot è stato progettato per rendere economica ed immediata l’aggiunta della voce ad un chatbot esistente, ma come effetto secondario riduce il costo dei nuovi sviluppi di voicebot, accelerando allo stesso tempo i tempi di implementazione.

Per quale motivo? Dipende tutto dalle dinamiche del mercato dell’AI conversazionale per i clienti aziendali.

Altri articoli

Un progetto di intelligenza artificiale conversazionale di successo ha bisogno di più del software di intelligenza artificiale conversazionale e delle comunicazioni per raggiungerlo. Deve essere adattato al flusso di lavoro, ai prodotti, ai servizi e al gergo dell’azienda. Spesso, il tipo di linguaggio che deve essere utilizzato non è lo stesso di una conversazione generica e ciò richiede che le applicazioni conversazionali siano addestrate per supportarlo al meglio. Naturalmente, questo è un bisogno comune in questo tipo di progetto e le piattaforme di AI conversazionale supportano la personalizzazione del linguaggio. Tuttavia, ciò significa che lo sviluppo, il test, il perfezionamento e l’implementazione del progetto richiedono ancora un tempo ed un impegno considerevoli.

Però, non ci sono molti fornitori di AI conversazionale che offrono integrazione vocale e integratori di sistemi addestrati sulla loro piattaforma per implementare progetti. Oltre alla parte di AI conversazionale, un progetto abilitato alla voce ha bisogno dell’integrazione con la rete telefonica o il PBX aziendale, l’inserimento nel flusso IVR e l’integrazione con il percorso vocale nel contact center, sia per inoltrare chiamate se l’assistente virtuale non può servirli completamente e per fornire i dati associati alle chiamate agli agenti umani, per semplificare il loro lavoro e fornire un servizio migliore.

Tutto ciò richiede competenze specializzate, che pochi fornitori hanno. Queste aziende e persone sono molto richieste, quindi i ritardi possono essere lunghi e i costi elevati.

Invece PhoneMyBot fornisce un’alternativa immediata, con i suoi canali vocali preintegrati. Fornisce immediatamente la connettività con la rete telefonica e WhatsApp, e le API per trasferire le chiamate ad altri endpoint vocali (ad esempio, una coda del contact center). Interactive Media ha una grande esperienza nell’integrazione con le suite di contact center più comuni, sia per inserire l’assistente virtuale nel flusso IVR sia per inviare i dati allegati alla chiamata all’agente umano che la sta per ricevere.

Ciò significa che il pool di fornitori che possono fare offerte per un progetto di intelligenza artificiale conversazionale abilitato alla voce è improvvisamente molto più grande. Anche le aziende con poca o nessuna esperienza vocale possono ora fornire un assistente virtuale omnicanale di alta qualità: devono solo testare la loro integrazione PhoneMyBot e appianare qualsiasi piccolo intralcio che il canale aggiuntivo potrebbe creare nella loro strategia applicativa.

Ci sono molte più offerte di AI conversazionale di solo testo rispetto a quelle abilitate alla voce. PhoneMyBot apre loro il mercato omnicanale, a vantaggio dei fornitori, dei loro clienti e, in definitiva, dell’esperienza del cliente che noi tutti riceviamo quando chiamiamo una linea di assistenza clienti.

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

I messaggi vocali di WhatsApp e come possono essere utilizzati dai chatbot

I messaggi vocali di WhatsApp e come possono essere utilizzati dai chatbot

I messaggi vocali di WhatsApp e come possono essere utilizzati dai chatbot

Scritto da

WhatsApp consente alle persone di registrare e inviare messaggi vocali. Cosa vuol dire per l’esperienza del cliente?

Come la maggior parte degli europei – beh, dovrei dire la maggior parte delle persone nel mondo – uso WhatsApp. WhatsApp ha più di 2 miliardi di utenti in tutto il mondo, circa un quarto di tutti gli esseri umani. Sebbene la diffusione di WhatsApp negli Stati Uniti sia inferiore rispetto alla maggior parte degli altri paesi, quando sei come me, un residente negli Stati Uniti nato all’estero e che vuole rimanere in contatto con amici e familiari a casa, l’app da utilizzare è WhatsApp.

WhatsApp offre chat, chiamate vocali e videochiamate, da persona a persona oppure tramite gruppi ad hoc od organizzati. Ha anche un’offerta business, che consente alle aziende di ricevere messaggi o chiamate su WhatsApp visto che è il canale più usato dai loro clienti.

Questa funzionalità è stata introdotta nel 2018 e viene utilizzata sempre di più: la gente apprezza l’utilizzo della stessa app per comunicare con privati ​​e aziende e molti fornitori di telecomunicazioni rivendono i numeri di WhatsApp Business e i servizi che ne derivano.

Anche se faccio parte di un paio di gruppi, raramente coinvolgo più di una persona alla volta. Utilizzo l’app principalmente per inviare messaggi o chiamare i miei amici. Tuttavia, ho notato una cosa strana: alcuni dei miei amici hanno smesso di inviare messaggi di testo. Piuttosto, utilizzano un’altra funzionalità dell’app che ti consente di registrare un messaggio vocale e inviarlo durante una conversazione di testo. Personalmente preferisco digitare e lasciare che la funzione del mio smartphone completi per magia il testo del messaggio, considerando anche che ricevere un messaggio vocale è di sicuro meno immediato che leggere un breve testo. Ciò nonostante, posso immaginare diversi motivi per preferire un messaggio vocale.

Altri articoli

Ad esempio, chi lo manda potrebbe essere in viaggio senza il tempo e lo spazio per digitare. Oppure potrebbe avere problemi a vedere la tastiera del telefono, sia per le condizioni di luce sia perché non ci vede molto bene (di certo ho problemi a digitare senza occhiali da lettura, comincio ad avere una certa età…). Chi lo manda potrebbe voler essere più espressivo usando un certo tono di voce: la comunicazione orale è molto meglio del testo per trasmettere sentimenti. Oppure in generale potrebbe non sentirsi a suo agio a scrivere, o la persona dall’altra parte potrebbe avere problemi a leggere. Per tutti questi motivi, e forse altri che al momento non immagino, l’invio di messaggi vocali invece di quelli di testo è in aumento.

La cosa funziona finché comunichi con un essere umano, che parla la tua stessa lingua. Ma c’è un caso d’uso particolare che è del tutto annullato da questo modo di comunicare: la conversazione con un chatbot. Il problema è che le aziende che utilizzano WhatsApp per comunicare con i propri clienti tramite messaggi di testo spesso utilizzano i chatbot, operatori automatici di “AI conversazionale” che utilizzano funzionalità di comprensione del linguaggio naturale per conversare con le persone, capire il motivo dell’interazione e aiutarli in modo più efficiente ed economico che tramite un agente umano. Tuttavia, i chatbot capiscono la comunicazione SCRITTA, ma non le registrazioni vocali.

Invece, i chatbot che si connettono a WhatsApp ricevono sempre più messaggi vocali registrati. In questo caso ci sono due possibilità: il chatbot riconosce che non può accedere al messaggio e lascia cadere la sessione, oppure trasferisce la sessione a un agente umano che ascolta il messaggio, ricerca la risposta e risponde per scritto. Il primo caso ovviamente porta a una pessima esperienza del cliente, il secondo a un aumento sostanziale dei costi oltre che a ritardi nella comunicazione. In pratica l’agente umano sta facendo il lavoro che potrebbe fare il chatbot, dovendo ascoltare messaggi a volte lunghi e sconclusionati per estrarne un significato.

Che fare?

Interactive Media, l’azienda in cui lavoro, ha lanciato PhoneMyBot, un servizio che fornisce una soluzione del problema alternativa, più economica e molto più elegante. PhoneMyBot è nato per espandere i canali dei chatbot includendo i canali vocali. Fornisce un’interfaccia di rete telefonica, insieme ad altre integrazioni vocali. Trascrive le espressioni degli utenti e le invia al chatbot, ricevendo in cambio il testo dal chatbot. Quando il chatbot risponde, PhoneMyBot trasforma il testo in voce e lo rimanda all’utente sul canale vocale. PhoneMyBot è completamente basato nel cloud e si integra anche con una serie di suite di contact center per trasferire la chiamata a un agente umano, se necessario.

In più, PhoneMyBot si integra con WhatsApp per ricevere messaggi vocali registrati in una lingua impostata dal chatbot, trascriverli e mandarli indietro al chatbot come testo. Tutto ciò che il chatbot deve fare è comunicare con il numero WhatsApp di PhoneMyBot per impostare la lingua, inviare il file vocale e ricevere la trascrizione. PhoneMyBot dispone anche di un’API standard basata su HTTPS, che il chatbot può utilizzare apportando a quest’ultimo delle piccole modifiche.

PhoneMyBot offre anche la funzionalità inversa: converte messaggi di testo ricevuto dal chatbot in voce (con una scelta di voci) e li rispedisce al chatbot per allegarli ai messaggi di risposta su WhatsApp. In questo modo utenti che per qualche ragione preferiscono condurre la conversazione completamente in voce possono ascoltare le risposte del chatbot invece che doverle leggere.

Un motivo per cui alcune persone utilizzano la funzione dei messaggi vocali di WhatsApp è sicuramente che hanno difficoltà a leggere e scrivere. Vista la nostra esperienza comune in Europa si potrebbe pensare che questo sia un problema del passato e che adesso sia superato ovunque. Ma non è così. Se nei paesi occidentali il tasso di analfabetismo è molto basso, circa l’1%, in altri paesi la situazione è ben diversa: Cina (3%), Brasile (7%), e India (25%) se la passano molto peggio. (Vedi https://www.macrotrends.net/countries/ranking/literacy-rate per un elenco completo). Le cifre per le persone che hanno un’alfabetizzazione di base ma sono a disagio nella lettura e nella scrittura sono probabilmente molto più alte. Quindi, questa è una possibilità reale.

A volte le funzionalità, anche utili, nei prodotti e nei servizi hanno conseguenze indesiderate. Sono sicuro che quando WhatsApp ha introdotto la funzione di messaggistica vocale, stavano pensando solo alle comunicazioni da persona a persona, e per questo il messaggio vocale è un’ottima alternativa. Tuttavia, è un ostacolo ad altri casi d’uso, come le interazioni uomo-macchina. Ma per fortuna PhoneMyBot può aiutare.

Puoi provare subito la trascrizione dei messaggi WhatsApp di PhoneMyBot. Per iniziare, scansiona il codice qui sotto, avvia WhatsApp sul tuo telefono e inizia l’interazione con la parola “start” come primo messaggio. Se poi mandi “help”, PhoneMyBot risponde con istruzioni per come usare il servizio.

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it

Ottimizzazione dei risultati riconoscimento vocale con le soluzioni di Interactive Media

Ottimizzazione dei risultati riconoscimento vocale con le soluzioni di Interactive Media

Ottimizzazione dei risultati riconoscimento vocale con le soluzioni di Interactive Media

Scritto da

Una prospettiva storica

Interactive Media offre da molti anni soluzioni di AI conversazionale, focalizzandosi sugli Agenti Virtuali abilitati alla voce. Abbiamo implementato i nostri primi Agenti Virtuali conversazionali molto prima che l’Intelligenza Artificiale conversazionale diventasse comune e della conseguente esplosione di implementazioni.

Essendoci concentrati sulla voce sin dall’inizio, siamo profondamente consapevoli della difficoltà di convertire le espressioni vocali degli utenti in un testo che possa essere utilizzato dai sistemi conversazionali.

Infatti, gli Agenti Virtuali conversazionali possono sostenere una conversazione vocale, ad esempio al telefono, ma il loro sistema AI funziona sul testo. Quindi, hanno bisogno di convertire nella loro controparte testuale le frasi pronunciate dagli umani, e poi convertire nuovamente in parlato il testo usato dal sistema per rispondere.

Dieci anni fa, le opzioni disponibili sul mercato per interpretare il parlato e convertirlo in testo (ASR, Riconoscimento vocale automatico o Speech-to-Text) erano limitate. Un’azienda, Nuance, aveva prevalso sul mercato, sviluppando la propria tecnologia e acquisendo concorrenti più piccoli in diversi paesi per offrire la sintesi vocale in diverse lingue. Perciò, inizialmente Interactive Media si affidava alla tecnologia di Nuance per tutte le sue implementazioni di Agenti Virtuali abilitati alla voce.

Altri articoli

Lo scenario di oggi

Lo stato della tecnologia è molto diverso adesso. L’ampia adozione dell’AI ha cambiato in modo sostanziale il modo in cui il parlato umano viene interpretato dalle macchine, rendendo il compito di sviluppare sistemi di riconoscimento vocale molto più semplice e le prestazioni migliori, il che significa che la precisione della trascrizione è migliorata in modo significativo. Le offerte Speech-to-Text sono esplose e decine di aziende ora forniscono il servizio, direttamente dal Cloud o integrandolo completamente con le applicazioni vocali.

Tuttavia, la voce non è la stessa per tutte le persone e le applicazioni. Le variazioni sono sorprendenti. Le persone parlano in modi diversi a seconda di ciò che vogliono, di ciò che viene loro chiesto, di dove si trovano in una conversazione e, naturalmente, in dozzine di lingue diverse. Fornire un servizio di riconoscimento vocale che copra efficacemente tutte le variazioni e le parti di una conversazione è estremamente difficile. Quindi, inevitabilmente, alcuni servizi sono migliori di altri per compiti e linguaggi specifici.

L’approccio di Interactive Media al riconoscimento vocale

Poiché il riconoscimento vocale è sempre parte integrante dell’offerta di Interactive Media, ne monitoriamo costantemente i progressi e testiamo quotidianamente diversi servizi. Abbiamo sviluppato metriche e suite di test standardizzate per prendere decisioni su quale servizio utilizzare a vantaggio dei nostri clienti, a seconda del caso d’uso che determina l’attività da svolgere, le impostazioni e la lingua.

Qual è il vantaggio? Abbiamo riscontrato che i principali servizi di riconoscimento vocale generici presentano alcuni punti deboli, ad esempio quando l’attività consiste nel fornire dati personali, con numeri o stringhe alfanumeriche (per esempio un codice fiscale, una targa o un numero di conto). In questo caso il numero di risultati possibili per la comprensione del parlato è limitato: appunto cifre e lettere. Tuttavia, alcuni servizi non sembrano poter sfruttare a proprio vantaggio il minor numero di risultati possibili e mantengono la stessa percentuale di riconoscimento del parlato generale. Anche se una precisione di riconoscimento del 95% è generalmente sufficiente per scoprire un intento (ad esempio), quando consideri una serie di 10 cifre, risulterà sbagliata circa il 40% delle volte.

Ci sono però altri motori di Speech-to-text ottimizzati per il riconoscimento delle cifre o che consentono all’utente di definire grammatiche rigide e quindi possono aiutare con questa attività. Usando questi motori, puoi ottenere una precisione fino al 99% per ogni cifra, che su 10 cifre si traduce in una probabilità del 90% di ottenere l’intera stringa corretta.

Allo stesso modo, ci sono attività più comuni che richiedono l’ottimizzazione affinché l’agente virtuale sia efficace. Forse la più difficile è trascrivere un indirizzo e-mail. Anche gli agenti umani hanno difficoltà a farlo e la percentuale di errori è estremamente alta. Inoltre, alcuni servizi di Speech-to-text funzionano meglio di altri e anche con una differenza del 5% vale la pena passare a un servizio con prestazioni migliori a metà chiamata se il volume di traffico è molto elevato.

Pertanto, abbiamo progettato la nostra piattaforma per utilizzare vari servizi di riconoscimento vocale, testandoli costantemente e aggiungendone di nuovi non appena diventano disponibili. È un compito lungo e complicato, ma siamo abbastanza esperti al riguardo: modelliamo le conversazioni definendo categorie di attività che gli agenti virtuali devono svolgere e testiamo continuamente ciascuno dei servizi con cui integriamo, utilizzando piccole interazioni di esempio appartenenti a ciascuna categoria. In questo modo, deriviamo i punteggi per i vari servizi di ogni attività, in diverse lingue.

Questo sarebbe soltanto teoria senza un modo per l’applicazione dell’agente virtuale di usarlo. Quindi, abbiamo aggiunto questa funzionalità a tutti i nostri servizi, forniti dalle piattaforme PhoneMyBot e OMNIA. L’API consente di specificare la categoria prevista dell’espressione proveniente dall’utente, in base alla domanda posta. Quindi, ad esempio, se il sistema richiede all’utente di fornire un codice numerico, il servizio sa che l’espressione successiva è molto probabilmente composta da numeri e utilizzerà il motore di Speech-to-text con le migliori prestazioni per riconoscerli.

La differenza di prestazioni è sostanziale: anche se il 10% in meno di chiamate deve essere inoltrato agli agenti umani, soprattutto quando l’attività consiste semplicemente nella raccolta di dati dal cliente, l’esperienza del cliente è migliore e il ROI per i nostri clienti aumenta vertiginosamente, mantenendo la promessa degli Agenti Virtuali.

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto
Io e il Text-to-Speech: la mia esperienza storica

Io e il Text-to-Speech: la mia esperienza storica

L'autore fa parte del team che ha fondato Interactive Media nel 1996 ed è l'amministratore delegato dell’azienda. Interactive Media è uno sviluppatore e fornitore globale di applicazioni vocali.  Interactive Media ha una lunga storia nello sviluppo di applicazioni...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it