Ottimizzazione dei risultati riconoscimento vocale con le soluzioni di Interactive Media

Aprile 14, 2022

Una prospettiva storica

Interactive Media offre da molti anni soluzioni di AI conversazionale, focalizzandosi sugli Agenti Virtuali abilitati alla voce. Abbiamo implementato i nostri primi Agenti Virtuali conversazionali molto prima che l’Intelligenza Artificiale conversazionale diventasse comune e della conseguente esplosione di implementazioni.

Essendoci concentrati sulla voce sin dall’inizio, siamo profondamente consapevoli della difficoltà di convertire le espressioni vocali degli utenti in un testo che possa essere utilizzato dai sistemi conversazionali.

Infatti, gli Agenti Virtuali conversazionali possono sostenere una conversazione vocale, ad esempio al telefono, ma il loro sistema AI funziona sul testo. Quindi, hanno bisogno di convertire nella loro controparte testuale le frasi pronunciate dagli umani, e poi convertire nuovamente in parlato il testo usato dal sistema per rispondere.

Dieci anni fa, le opzioni disponibili sul mercato per interpretare il parlato e convertirlo in testo (ASR, Riconoscimento vocale automatico o Speech-to-Text) erano limitate. Un’azienda, Nuance, aveva prevalso sul mercato, sviluppando la propria tecnologia e acquisendo concorrenti più piccoli in diversi paesi per offrire la sintesi vocale in diverse lingue. Perciò, inizialmente Interactive Media si affidava alla tecnologia di Nuance per tutte le sue implementazioni di Agenti Virtuali abilitati alla voce.

Altri articoli

Lo scenario di oggi

Lo stato della tecnologia è molto diverso adesso. L’ampia adozione dell’AI ha cambiato in modo sostanziale il modo in cui il parlato umano viene interpretato dalle macchine, rendendo il compito di sviluppare sistemi di riconoscimento vocale molto più semplice e le prestazioni migliori, il che significa che la precisione della trascrizione è migliorata in modo significativo. Le offerte Speech-to-Text sono esplose e decine di aziende ora forniscono il servizio, direttamente dal Cloud o integrandolo completamente con le applicazioni vocali.

Tuttavia, la voce non è la stessa per tutte le persone e le applicazioni. Le variazioni sono sorprendenti. Le persone parlano in modi diversi a seconda di ciò che vogliono, di ciò che viene loro chiesto, di dove si trovano in una conversazione e, naturalmente, in dozzine di lingue diverse. Fornire un servizio di riconoscimento vocale che copra efficacemente tutte le variazioni e le parti di una conversazione è estremamente difficile. Quindi, inevitabilmente, alcuni servizi sono migliori di altri per compiti e linguaggi specifici.

L’approccio di Interactive Media al riconoscimento vocale

Poiché il riconoscimento vocale è sempre parte integrante dell’offerta di Interactive Media, ne monitoriamo costantemente i progressi e testiamo quotidianamente diversi servizi. Abbiamo sviluppato metriche e suite di test standardizzate per prendere decisioni su quale servizio utilizzare a vantaggio dei nostri clienti, a seconda del caso d’uso che determina l’attività da svolgere, le impostazioni e la lingua.

Qual è il vantaggio? Abbiamo riscontrato che i principali servizi di riconoscimento vocale generici presentano alcuni punti deboli, ad esempio quando l’attività consiste nel fornire dati personali, con numeri o stringhe alfanumeriche (per esempio un codice fiscale, una targa o un numero di conto). In questo caso il numero di risultati possibili per la comprensione del parlato è limitato: appunto cifre e lettere. Tuttavia, alcuni servizi non sembrano poter sfruttare a proprio vantaggio il minor numero di risultati possibili e mantengono la stessa percentuale di riconoscimento del parlato generale. Anche se una precisione di riconoscimento del 95% è generalmente sufficiente per scoprire un intento (ad esempio), quando consideri una serie di 10 cifre, risulterà sbagliata circa il 40% delle volte.

Ci sono però altri motori di Speech-to-text ottimizzati per il riconoscimento delle cifre o che consentono all’utente di definire grammatiche rigide e quindi possono aiutare con questa attività. Usando questi motori, puoi ottenere una precisione fino al 99% per ogni cifra, che su 10 cifre si traduce in una probabilità del 90% di ottenere l’intera stringa corretta.

Allo stesso modo, ci sono attività più comuni che richiedono l’ottimizzazione affinché l’agente virtuale sia efficace. Forse la più difficile è trascrivere un indirizzo e-mail. Anche gli agenti umani hanno difficoltà a farlo e la percentuale di errori è estremamente alta. Inoltre, alcuni servizi di Speech-to-text funzionano meglio di altri e anche con una differenza del 5% vale la pena passare a un servizio con prestazioni migliori a metà chiamata se il volume di traffico è molto elevato.

Pertanto, abbiamo progettato la nostra piattaforma per utilizzare vari servizi di riconoscimento vocale, testandoli costantemente e aggiungendone di nuovi non appena diventano disponibili. È un compito lungo e complicato, ma siamo abbastanza esperti al riguardo: modelliamo le conversazioni definendo categorie di attività che gli agenti virtuali devono svolgere e testiamo continuamente ciascuno dei servizi con cui integriamo, utilizzando piccole interazioni di esempio appartenenti a ciascuna categoria. In questo modo, deriviamo i punteggi per i vari servizi di ogni attività, in diverse lingue.

Questo sarebbe soltanto teoria senza un modo per l’applicazione dell’agente virtuale di usarlo. Quindi, abbiamo aggiunto questa funzionalità a tutti i nostri servizi, forniti dalle piattaforme PhoneMyBot e OMNIA. L’API consente di specificare la categoria prevista dell’espressione proveniente dall’utente, in base alla domanda posta. Quindi, ad esempio, se il sistema richiede all’utente di fornire un codice numerico, il servizio sa che l’espressione successiva è molto probabilmente composta da numeri e utilizzerà il motore di Speech-to-text con le migliori prestazioni per riconoscerli.

La differenza di prestazioni è sostanziale: anche se il 10% in meno di chiamate deve essere inoltrato agli agenti umani, soprattutto quando l’attività consiste semplicemente nella raccolta di dati dal cliente, l’esperienza del cliente è migliore e il ROI per i nostri clienti aumenta vertiginosamente, mantenendo la promessa degli Agenti Virtuali.

Altri articoli

Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto
Il futuro della voce intelligente

Il futuro della voce intelligente

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)? Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l'anno in cui Amazon ha rilasciato il suo primo...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it