Como os chatbots podem usar as mensagens de voz do WhatsApp?

Escrito por Livio Pugliese

19 / 05 / 22

Falar com o ChatGPT pelo telefone é uma ótima experiência. Mas como aumentar ainda mais o seu valor?  

Como a maioria dos europeus – bem, devo dizer a maioria das pessoas no mundo – eu sou um usuário do WhatsApp. O WhatsApp tem mais de 2 bilhões de usuários em todo o mundo, cerca de um quarto de todos os humanos. E embora a penetração do WhatsApp nos Estados Unidos seja menor do que na maioria dos lugares, se você é um residente dos EUA nascido no exterior que deseja manter contato com amigos e familiares em casa, como eu, o WhatsApp é o aplicativo a ser usado. 

O WhatsApp oferece chats, chamadas de voz, videochamadas, tanto individuais ou entre grupos. Ele também tem uma oferta comercial, permitindo que empresas recebam mensagens ou chamadas de seus clientes por meio dessa poderosa ferramenta que invadiu o celular dos brasileiros.

Esse recurso foi introduzido em 2018 e está sendo cada vez mais usado: as pessoas gostam de usar o mesmo aplicativo para se comunicar com indivíduos e empresas, e muitos fornecedores de telecomunicações revendem números comerciais do WhatsApp e os serviços que os acompanham.

Embora eu seja membro de alguns grupos organizados, uso principalmente o aplicativo para enviar mensagens para meus amigos ou ligar diretamente para eles, raramente envolvendo mais de uma pessoa por vez. Mas notei uma coisa engraçada: alguns dos meus amigos pararam de enviar mensagens de bate-papo completamente. Em vez disso, eles usam outro recurso do aplicativo, que permite gravar uma mensagem de voz e enviá-la em uma conversa. Prefiro digitar e deixar que o recurso de preenchimento automático do meu smartphone faça sua mágica, considerando também que receber uma mensagem de voz é certamente menos imediato do que ler um texto curto. Mas vejo vários motivos para preferir enviar uma gravação de voz.

Por exemplo, você pode estar em trânsito para algum local, sem tempo e lugar para digitar. Ou você pode ter problemas para ver o teclado do telefone, seja por causa das condições de luz ou porque não consegue ver muito bem (certamente tenho problemas para digitar sem meus óculos de leitura, estou nessa fase da vida). Você pode querer ser mais expressivo usando seu tom de voz: a comunicação falada é muito melhor do que o texto para transmitir sentimentos. Ou você pode não se sentir confortável escrevendo em geral – ou a pessoa do outro lado pode ter problemas para ler. Por todas essas razões, e possivelmente outras que não consigo pensar, o envio de mensagens de voz em vez de digitar está aumentando.

E tudo bem, desde que você se comunique com um humano que fale a mesma língua que você. Mas há um caso de uso especial que é completamente destruído por esse hábito: a comunicação com um chatbot. Veja bem, as empresas que usam o WhatsApp para se comunicar com seus clientes por meio de mensagens de texto costumam empregar chatbots, atendentes automáticos de “IA conversacional” que usam recursos de linguagem natural para conversar com as pessoas, entender o motivo da interação e ajudá-las de maneira mais eficiente e barata do que ter um representante humano do cliente na linha o tempo todo. Mais eficiente, exceto pelo fato de que os chatbots podem entender a comunicação ESCRITA, e não os áudios com gravações de voz.

No entanto, cada vez mais chatbots que se conectam ao WhatsApp recebem mensagens de voz gravadas. Nesse caso, existem duas possibilidades: o chatbot reconhece que não pode acessar a mensagem e descarta a sessão. Ou transfere a sessão para um agente humano que ouve a mensagem, pesquisa a resposta e escreve de volta. O primeiro caso, claro, traz uma experiência terrível para o cliente. O segundo, um aumento substancial nos custos, pois o agente humano está fazendo o trabalho que o chatbot poderia fazer, tendo que ouvir mensagens às vezes longas e desconexas para extrair significado.

Nesse caso, o que pode ser feito?

A Interactive Media, empresa onde eu trabalho, lançou o PhoneMyBot, um serviço que oferece uma solução alternativa, mais barata e muito mais elegante para o problema. O PhoneMyBot nasceu para expandir os canais disponíveis para chatbots para incluir canais de voz. Ele fornece uma interface de rede telefônica, juntamente com outras integrações de voz, transcrevendo as falas dos usuários e enviando-as para o chatbot, e recebendo o texto de retorno do chatbot, transformando-o em fala e enviando-o de volta ao usuário pela rede de voz. O PhoneMyBot é totalmente baseado em nuvem e se integra a várias suítes de contact center para transferir a chamada para um agente humano, se necessário.

Além disso, o PhoneMyBot se integra ao WhatsApp para receber uma mensagem de voz gravada em um idioma definido de um chatbot, transcrevê-la e enviá-la de volta ao chatbot como texto. Tudo o que o chatbot precisa fazer é se comunicar com o número do WhatsApp do PhoneMyBot para definir o idioma, enviar o arquivo de voz e receber a transcrição. O PhoneMyBot também expõe uma API padrão baseada em HTTPS para isso, o que o chatbot pode usar com um pequeno esforço de desenvolvimento.

Pode ser que a principal razão pela qual algumas pessoas usem o recurso de mensagens de voz gravadas do WhatsApp é que elas têm dificuldades para ler e escrever. Você pode pensar que este é um problema do passado, superado agora em todos os lugares. Mas não tão rápido. Os números mais recentes para residentes nos Estados Unidos colocam a taxa de não alfabetização em cerca de 1%. Os EUA estão no meio do grupo aqui: China (3%), Brasil (7%), Índia (25%) se saem muito pior. (Consulte https://www.macrotrends.net/countries/ranking/literacy-rate para obter uma lista completa). Os números para as pessoas que têm alfabetização básica, mas não se sentem à vontade para ler e escrever, provavelmente são muito maiores. Nesses casos, essa é uma possibilidade real.

Opcionalmente, o PhoneMyBot também converterá o texto recebido do chatbot em fala (com opções de vozes) e o enviará de volta ao chatbot para anexar à mensagem de resposta do WhatsApp.

Às vezes, recursos úteis em produtos e serviços têm consequências não intencionais. Tenho certeza de que quando o WhatsApp introduziu seu recurso de mensagens de voz, eles estavam pensando apenas em comunicações entre humanos e, para este caso de uso, é uma ótima alternativa. Mas isso quebra outros casos de uso, como interações homem-máquina. Felizmente, o PhoneMyBot está lá para superar essa barreira de comunicação.

Você pode experimentar a transcrição de mensagens do WhatsApp do PhoneMyBot agora mesmo. Para começar, escaneie o código abaixo, abra o WhatsApp no seu celular e inicie a interação com a palavra “iniciar” como primeira mensagem. 

Outros artigos

Outros artigos

Introdução aos voicebots e sua evolução

Introdução aos voicebots e sua evolução

Introdução aos voicebots e sua evolução Voicebots, ou assistentes virtuais ativados por voz, tornaram-se uma presença cada vez mais comum em nossa vida diária. Eles respondem a perguntas, facilitam tarefas, e estão revolucionando a maneira como interagimos com a...

ler mais