Il futuro della voce intelligente

Scritto da Livio Pugliese

Febbraio 28, 2023

Ora che il mercato degli smart speaker vacilla, cosa faranno i tre protagonisti (Amazon, Apple, Google)?

Alexa, devo prendere un ombrello domani? Questa è una domanda che i possessori di smart speaker pongono dal 2013, l’anno in cui Amazon ha rilasciato il suo primo prodotto Echo. Poco dopo, Google e Apple hanno fatto altrettanto con le loro tecnologie Google Assistant e Siri.

Siri è integrata come funzionalità software nell’hardware di Apple, mentre Amazon e Google hanno prodotto e iniziato a vendere l’hardware per supportare il loro software vocale: una linea di smart speaker con microfoni sensibili che ascoltano aspettando le parole chiave per entrare in azione. L’ascesa di questi dispositivi è stata molto rapida. Sono economici e facili da usare, e hanno ampiamente soppiantato sia la radio che gli stereo domestici, trasmettendo contenuti tramite comando vocale. Ne sono state venduti decine di milioni, sia negli Stati Uniti che nel resto del mondo: secondo un report di Comscore, nel 2021 quasi la metà degli utenti internet statunitensi ne possedeva almeno uno.

Alexa è probabilmente il più noto di questi dispositivi. Alexa ascolta i suoni intorno a lei e quando sente il suo nome entra in azione. Ciò significa registrare la frase che segue la parola chiave e inviare l’audio al cloud di Amazon per il riconoscimento, ricevere la risposta e riprodurla. (Presumibilmente, nient’altro viene registrato al di fuori della transazione avviata dalla parola chiave). Lo stesso vale per la versione di Google; hey Google è più lungo da pronunciare e meno personale.

A proposito, conosco una persona che si chiama Alexa, ed era il suo nome ben prima che Amazon rilasciasse il primo Echo: Mi chiedo come si senta quando il suo nome viene invocato così tanta gente…

Il problema con lo status quo: mancanza di entrate

Come spesso accade nel settore tecnologico, la tecnologia ha superato di molto i casi d’uso redditizi per gli smart speaker. Certamente, le persone usavano e usano spesso i loro smart speaker, ma soprattutto per fare domande generiche, controllare il meteo e chiedere musica in streaming. I fornitori speravano che, con il tempo e con una maggiore adozione, avrebbero potuto elaborare un modello di entrate che avrebbe supportato il business, ma finora nessuno ci è riuscito.

Gli annunci pubblicitari sono presenti durante la musica in streaming solo se le persone non si abbonano ad una piattaforma musicale; tuttavia, non sono molti e devono essere poco frequenti per non rovinare l’esperienza dell’utente: altrimenti ben pochi si collegherebbero. Comunque sia, un abbonamento musicale da 10 euro al mese non basta per supportare la fornitura e la manutenzione dell’infrastruttura del servizio.

Il caso d’uso più redditizio che si prefigurava all’inizio è lo shopping vocale, ma non è mai decollato: i consumatori sono comprensibilmente stanchi di fornire informazioni personali, numeri di carte di credito, etc. al Cloud, e questo è un canale in più che ne ha bisogno. Per di più, qualsiasi acquisto effettuato tramite uno smart speaker è ovviamente da considerare “a scatola chiusa”.

Quindi, negli ultimi mesi con il cambiamento dell’economia e la consapevolezza di quanto sia difficile monetizzare gli smart speaker, c’è stato un netto ridimensionamento sia da parte di Amazon che di Google.  Amazon ha licenziato gran parte del team di sviluppo di Alexa, mentre Google avrebbe ridotto molto i fondi per la tecnologia Assistant e – questa è una notizia molto recente – Alphabet ha licenziato 12.000 dipendenti nel Gennaio 2023. Le aree con i risultati peggiori sono state ovviamente le più colpite. Gli smart speaker sono quindi in difficoltà.

App vocali sugli smart speaker

La situazione è però complicata dal fatto che molte aziende e organizzazioni hanno sviluppato app che funzionano con Alexa e Google Assistant, attraverso le rispettive API. In questo caso, gli smart speaker fungono semplicemente da interfaccia vocale: una volta che l’app è attiva, trascrivono ciò che l’utente dice e inviano il testo al servizio esterno, prendono il testo che il servizio invia e lo trasformano in voce per l’utente.

Amazon chiama queste app “Skills”; Google le chiama “Actions”. Ad ogni modo, ce ne sono centinaia di migliaia. Possono essere lanciati con un prompt specifico: “Alexa, apri [nome della skill]” o “Hey Google, parla con [nome dell’action]”. Mentre molte app non hanno avuto successo e hanno un uso minimo, altre sono importanti o addirittura essenziali.

Cosa succede a queste app se i fornitori di smart speaker limitano e poi terminano la loro offerta?  Alcune attivano solo un canale aggiuntivo per un servizio più ampio e presumibilmente non subirebbero un impatto troppo rilevante. Ma altre app sono state sviluppate appositamente per sfruttare il canale vocale gratuito offerto dagli smart speaker. Ad esempio, di recente ho parlato con lo sviluppatore di una Skill per i non vedenti, in cui la voce viene utilizzata per accedere alle informazioni che altre persone invece ottengono visivamente dagli schermi. Per questo e altri motivi, gli sviluppatori di skills e actions sono seriamente preoccupati.

D’altra parte, quali altri canali ci sono oggi in casa per app vocali intelligenti bidirezionali? Beh, quello che abbiamo sempre avuto: il telefono (non importa se fisso o mobile). Certo, chiamare un’app tramite telefono è un po’ meno immediato che dire semplicemente “Hey Google”, ma tutti sanno come usare un telefono e la tecnologia non potrebbe essere più collaudata. Il problema quindi è connettere le app intelligenti esistenti alla rete telefonica.

PhoneMyBot come canale per le app vocali

Interactive Media fornisce PhoneMyBot, un servizio progettato per aggiungere i canali vocali ai chatbot. PhoneMyBot svolge le stesse funzioni che gli smart speaker svolgono per le app, trascrivendo il discorso dell’utente e inviandolo all’app connessa. Quindi trasforma il testo che arriva dai chatbot in parlato, inviandolo al canale vocale. PhoneMyBot è integrato nativamente nella rete telefonica ed espone alle applicazioni un’API equivalente ad Alexa e Google Assistant. Inoltre, PhoneMyBot si integra con vari software di contact center per trasferire la chiamata a un agente umano, se necessario.

Per quale motivo PhoneMyBot dovrebbe interessare molto a chi produce app conversazionali se gli smart speaker continuano a declinare? PhoneMyBot è estremamente facile da implementare: offre un periodo di prova iniziale gratuito e il traffico viene addebitato a una (bassa) tariffa al “minuto”, indipendentemente dal volume di traffico. Questo lo rende ideale per i servizi prepagati a basso costo. La gestione è semplice ed efficace: un unico portale fornisce l’accesso a tutti i dati e alle statistiche di traffico. Inoltre è solido, con un’infrastruttura software che è in uso su grandi reti di telecomunicazioni e gestisce milioni di chiamate al mese.

Quindi provalo, fai clic sul pulsante qui sotto!

Altri articoli

Altri articoli

Come aumentare l’affidabilità dei chatbot basati su LLM

Come aumentare l’affidabilità dei chatbot basati su LLM

ChatGPT e i suoi fratelli vengono usati per sempre più servizi per il pubblico. È affascinante e terrificante nello stesso tempo. Come possiamo eliminare il terrore?Nel Corso dell’ultimo anno, dopo il primo rilascio di ChatGPT, c’è stata un’esplosione di chatbot...

leggi tutto
Interazioni multimodali: un bisogno impellente?

Interazioni multimodali: un bisogno impellente?

La settimana scorsa ho seguito un webinar con demo fatto da una ditta che produce strumenti software e soluzioni conversazionali per l’assistenza al cliente. Interactive Media, dove lavoro, è nello stesso settore e volevo dare un’occhiata a quello che fa la...

leggi tutto

Interactive Media S.p.A. • Sede Legale Viale Città d’Europa, 679 - 00144 Roma (Italy) • P.IVA 05057871005 • Cap. Sociale € 366.300,00 I.V. • Registro REA RM 834515  • PEC interactivemedia@pec.it