O futuro da voz inteligente

    Escrito por Livio Pugliese

    01 / 02 / 23

    O que é speech to text e quais suas vantagens? Confira

    À medida que o mercado de alto-falantes inteligentes enfraquece, o que os três grandes players do mercado (Amazon, Apple, Google) irão fazer?

    Alexa, devo levar um guarda-chuva amanhã? Essa é uma pergunta que os proprietários de alto-falantes inteligentes fazem desde 2013, ano em que a Amazon lançou seu primeiro produto Echo. Na sequência, Google e Apple seguiram o exemplo, com suas tecnologias Google Assistant e Siri.

    Enquanto a Siri está incorporada ao hardware da Apple como um recurso de software, a Amazon e o Google produziram e começaram a vender ativamente o hardware para apoiar seu software de fala: uma linha de alto-falantes inteligentes com microfones sensíveis que ouvem as pessoas que proferem uma frase-chave para começar a detectar o que eles dizem. A ascensão desses dispositivos foi meteórica. Eles eram baratos, convenientes e ultrapassaram em grande parte os sistemas de rádio e estéreo em casa, transmitindo conteúdo controlado por voz. Foram vendidos às dezenas de milhões, tanto nos EUA quanto em todo o mundo: de acordo com um relatório da Comscore, em 2021, quase metade dos usuários de internet dos EUA possuíam pelo menos um deles.

    A maioria das pessoas está familiarizada com a Alexa: ela ouve os sons ao seu redor e, quando ouve o seu nome, entra em ação. Isso significa gravar a frase que vem depois da palavra-chave e enviar o áudio para o Amazon Cloud para reconhecimento, recebendo a resposta e reproduzindo-a. (Supostamente, nada é registrado fora da transação iniciada pela palavra-chave, é claro). O mesmo vale para a versão do Google; hey Google é mais longo e menos pessoal.

    À propósito, eu conheço alguém cujo nome é Alexa – e era o nome dela bem antes da Amazon lançar o primeiro Echo! Eu me pergunto como ela se sente tendo seu nome chamado por inúmeras pessoas para obedecer ao comando de suas solicitações…

    O problema com o status quo: a falta de receita

    Como costuma acontecer na indústria tech, a tecnologia superou os casos de uso lucrativos para alto-falantes inteligentes. Sim, as pessoas estavam – e ainda estão! –  usando seus alto-falantes inteligentes com frequência, mas majoritariamente para fazer perguntas gerais, verificar o tempo e solicitar streaming de música. Os fornecedores perceberam que, com o tempo e com o aumento da adoção, eles poderiam criar um modelo de receita que daria suporte ao negócio, mas até agora ninguém conseguiu.

    Claro, existem anúncios no streaming de música se o proprietário não assinar um serviço de música, mas são poucos e distantes entre si para que não prejudique muito a experiência. E uma assinatura de música de US$ 10 por mês não é a solução para fornecer e manter a infraestrutura para o resto do serviço.

    Compras por voz, o caso de uso mais lucrativo que se esperava no início, nunca decolou: as pessoas estão compreensivelmente cansadas de fornecer informações pessoais e números de cartão de crédito que serão armazenados na nuvem por meio de mais um canal e, por definição, qualquer compra feita por voz através de um alto-falante inteligente é uma compra “invisível”.

    Portanto, nos últimos meses, com a economia em mudança e a percepção de como é realmente difícil monetizar os alto-falantes inteligentes, houve uma redução de custos significativa por ambas Amazon e Google. A Amazon demitiu boa parte da equipe de desenvolvimento da Alexa, o Google supostamente reduziu bastante o financiamento para a linha Assistant e – esta é uma notícia muito recente – a Alphabet estava em processo de demitir até 12.000 trabalhadores em janeiro de 2023. Era de se imaginar que as divisões com o pior desempenho seriam as mais afetadas: os alto-falantes inteligentes estão com problemas.

    Aplicativos de voz em alto-falantes inteligentes

    Nesse cenário, muitas empresas e organizações viram uma oportunidade e desenvolveram apps para integrar com a Alexa e o Google Assistant, por meio das respectivas APIs. Nesse caso, os alto-falantes inteligentes atuam simplesmente como uma interface de transcrição e renderização de fala: uma vez que o aplicativo está ativo, eles transcrevem o que o usuário diz e enviam o texto para o serviço externo, pegam o texto que o serviço envia de volta e o transforma em voz para que o usuário possa ouvir.

    A Amazon chama esses apps de “Habilidades”; O Google os chama de “Ações”. De qualquer maneira, existem centenas de milhares deles. Eles podem ser iniciados com um prompt especial: “Alexa, abra [nome da habilidade]” ou “Ei, Google, fale com [nome da ação]”. Embora muitos aplicativos não tenham sido bem-sucedidos e tenham um uso mínimo desse canal, outros são importantes ou mesmo essenciais.

    O que acontece com esses aplicativos se os fornecedores de alto-falantes inteligentes limitarem ou encerrarem sua oferta? Alguns estão apenas ativando um canal adicional para um serviço mais amplo e, presumivelmente, não seriam afetados de maneira muito severa. Mas outros aplicativos foram desenvolvidos especificamente para aproveitar o canal de voz oferecido gratuitamente pelos alto-falantes inteligentes. Por exemplo, conversei recentemente com o desenvolvedor de uma habilidade para cegos, onde a voz é utilizada para acessar informações que outras pessoas obtêm das telas. Por essa e outras razões, os desenvolvedores de habilidades e ações estão seriamente preocupados.

    Como segunda opção, que outro conduíte existe hoje, em casa, para aplicações inteligentes bidirecionais de voz? Bom, aquele que sempre tivemos: o telefone (seja ele móvel ou fixo). Embora a discagem para ligar para um app pelo telefone seja um pouquinho menos imediata do que simplesmente dizer “Olá, Google”, todo mundo sabe como usar um telefone e a tecnologia não poderia ser mais testada e comprovada. O problema, então, é conectar os aplicativos inteligentes existentes à rede telefônica.

    PhoneMyBot como canal para aplicações de voz

    A Interactive Media oferece o PhoneMyBot, um serviço nascido para expandir os canais disponíveis para chatbots para incluir canais de voz. Ele executa as mesmas funções que são realizadas pelos alto-falantes inteligentes para seus aplicativos, transcrevendo a fala do usuário e enviando para o aplicativo conectado. Em seguida, ele recebe o texto de volta e o transforma em fala, canalizando-o para a rede de voz. O PhoneMyBot é integrado nativamente à rede telefônica e expõe aos aplicativos uma API equivalente ao da Alexa e do Google Assistant. Além disso, o PhoneMyBot se integra a vários conjuntos de centrais de atendimento para transferir a chamada para um agente humano, se necessário.

    O que torna o PhoneMyBot tão atraente para pequenas organizações que podem ficar paralisadas caso os alto-falantes inteligentes diminuam muito? É extremamente fácil de implementar: um período de teste inicial gratuito está disponível e o tráfego comercial é cobrado a uma taxa (baixa) por minuto, independentemente do volume de tráfego. Isso o torna ideal para serviços pré-pagos de baixo orçamento. A administração é simples e poderosa: um único portal fornece acesso a todos os dados e estatísticas de tráfego. Além disso, é robusto, com infraestrutura construída em software para telecom, o que possibilita o gerenciando confiável de milhões de chamadas por mês.

    Para testar, clique no botão abaixo. Adoraríamos saber seu feedback!

     

    Outros artigos

    Outros artigos

    Interações multimodais: uma necessidade iminente?

    Interações multimodais: uma necessidade iminente?

    Recentemente, assisti a um webinar e demonstração de uma empresa que fornece ferramentas e soluções conversacionais para atendimento ao cliente. A Interactive Media está no mesmo setor e eu queria dar uma olhada no que a concorrência está fazendo, ver o que eles têm e...

    ler mais