Otimização de resultados de Speech-to-Text com as soluções da Interactive Media

Escrito por Livio Pugliese
28 / 06 / 22

A Interactive Media oferece, há muitos anos, soluções de IA Conversacional, com foco em agentes virtuais habilitados para voz. Implantamos nossos primeiros agentes virtuais de conversação muito antes da IA conversacional se transformar em uma palavra da moda e da explosão das implantações conversacionais de autoatendimento.
Tendo focado em voz desde o início, estamos cientes dos desafios que surgem com a conversão em texto de expressões vocais dos usuários que os sistemas de conversação podem usar.
Isso ocorre porque os agentes virtuais baseados em IA Conversacionais podem manter uma conversa falada no telefone, por exemplo, mas seu cérebro de IA funciona em texto. Dessa forma, eles precisam converter as frases faladas por humanos em sua contraparte de texto, e o texto que o sistema usa para responder de volta em fala.
Há dez anos, as opções disponíveis no mercado para interpretar a fala e convertê-la em texto (ASR, Automatic Speech Recognition ou Speech-to-Text) eram limitadas. Uma empresa – a Nuance – dominou o campo, tendo desenvolvido sua própria tecnologia ou adquirido concorrentes menores em diferentes países para oferecer Speech-to-Text em diferentes idiomas. Assim, a Interactive Media contou com a tecnologia da Nuance, inicialmente, para todas as suas implantações de agentes virtuais habilitados para voz.
O cenário de hoje para speech-to-text
O estado da tecnologia é muito diferente agora. A ampla adoção da inteligência artificial mudou a maneira como a fala humana é interpretada por máquinas de maneira substancial, tornando a tarefa de desenvolver sistemas Speech-to-Text muito mais fácil e o desempenho muito melhor – o que significa que a precisão da transcrição melhorou significativamente. As ofertas de Speech-to-Text explodiram no mercado e dezenas de empresas agora fornecem o serviço, seja diretamente da nuvem pública ou integrados mais estritamente com aplicativos de fala.
No entanto, a fala não é a mesma para todas as pessoas e aplicações, sendo suas variações impressionantes. As pessoas falam de maneiras completamente distintas, dependendo do que querem, do que lhes é pedido, onde estão em uma conversa e, claro, em dezenas de idiomas diferentes. Fornecer um serviço de Speech-to-Text que cubra efetivamente todas as variações e partes de uma conversa é extremamente difícil. Por essa razão, alguns serviços são, inevitavelmente, melhores que outros para tarefas e linguagens específicas.
A abordagem da Interactive Media para Speech-to-Text
Como o Speech-to-Text é parte integrante da oferta da Interactive Media, estamos constantemente aprimorando nossas soluções, monitorando seus avanços e testando diferentes serviços no dia a dia. Desenvolvemos métricas e conjuntos de testes padronizados para direcionar a decisão de qual serviço utilizar para o benefício de nossos clientes, dependendo do caso de uso que dita a tarefa em questão, as configurações e o idioma.
Qual é o benefício? Descobrimos que os principais serviços de Speech-to-Text de uso geral têm alguns pontos fracos. Um exemplo disso é o preenchimento de um formulário com números ou strings alfanuméricos, o que limita o campo de resultado. Alguns serviços parecem não utilizar isso a seu favor e retêm a mesma porcentagem de reconhecimento correto que a fala geral. Mas enquanto uma acurácia de reconhecimento de 95% geralmente é suficiente para descobrir uma intenção (por exemplo), 40% das vezes virá com erro se usado uma sequência de 10 dígitos.
No entanto, outros mecanismos de Speech-to-Text são otimizados para reconhecer dígitos ou permitem que o usuário defina gramáticas rígidas que podem ajudar na tarefa. Usando esses mecanismos, você pode obter uma precisão de até 99%, o que resulta em uma probabilidade de acerto de 90% para 10 dígitos.
Da mesma forma, existem tarefas mais comuns que precisam de otimização para que o Agente Virtual seja eficaz. Talvez o mais desafiador seja transcrever um endereço de e-mail. Os agentes humanos têm muita dificuldade com isso, sendo a porcentagem de erros extremamente alta. Novamente, alguns serviços de Speech-to-Text se saem melhor do que outros e até mesmo uma diferença de 5% faz com que valha a pena mudar no meio da chamada para um serviço de melhor desempenho, caso o volume de tráfego seja alto o suficiente.
Assim, projetamos nossa plataforma para usar vários dos melhores serviços de Speech-to-Text, testando constantemente os serviços conectados e adicionando novos à medida que se tornam disponíveis. É uma grande tarefa, mas acreditamos que estamos conseguindo nos destacar nesse quesito: modelamos conversas definindo categorias de tarefas que os Agentes Virtuais devem realizar e testamos continuamente cada um dos serviços com os quais integramos usando exemplos de interações atômicas pertencentes a cada categoria. Desta forma, obtemos pontuações para os vários serviços para cada tarefa específica, em diversos idiomas.
Isso seria apenas teoria sem uma maneira de a aplicação do Agente Virtual usá-lo. Sendo assim, adicionamos esse recurso a todos os nossos serviços, fornecidos pelas plataformas PhoneMyBot e OMNIA. A API permite especificar a categoria esperada da expressão e pronúncia vinda do usuário, com base na pergunta que está sendo feita. Dessa forma, caso o sistema solicite que o usuário forneça um código numérico, o serviço saberá que a próxima expressão provavelmente será composta por números e usará o mecanismo de Speech-to-Text com o melhor desempenho de reconhecimento especificamente para essa tarefa.
A diferença de desempenho é substancial – se até 10% menos chamadas tiverem que ser encaminhadas para agentes humanos, especialmente quando a tarefa é simplesmente coletar dados do cliente, a experiência do cliente é muito melhor e o ROI para nossos clientes aumenta significativamente, cumprindo a promessa de agentes virtuais.
Outros artigos
Como aumentar a confiabilidade dos chatbots baseados em LLM
Como aumentar a confiabilidade dos chatbots baseados em LLM ChatGPT e seus similares estão sendo...
A Ascensão da IA Generativa e o Papel dos Modelos de Linguagem de Aprendizado de Máquina (LLM)
A Inteligência artificial (IA) generativa tem sido um dos campos mais empolgantes e promissores na...
Outros artigos
Como aumentar a confiabilidade dos chatbots baseados em LLM
Como aumentar a confiabilidade dos chatbots baseados em LLM ChatGPT e seus similares estão sendo usados cada vez mais em chatbots para atendimento ao cliente. É fascinante e assustador ao mesmo tempo. Como podemos eliminar o terror da equação? No último ano, após o...
A Ascensão da IA Generativa e o Papel dos Modelos de Linguagem de Aprendizado de Máquina (LLM)
A Inteligência artificial (IA) generativa tem sido um dos campos mais empolgantes e promissores na área de aprendizado de máquina nos últimos anos. A capacidade de criar, sintetizar e gerar novos conteúdos realistas e convincentes tem fascinado tanto pesquisadores...
Interações multimodais: uma necessidade iminente?
Recentemente, assisti a um webinar e demonstração de uma empresa que fornece ferramentas e soluções conversacionais para atendimento ao cliente. A Interactive Media está no mesmo setor e eu queria dar uma olhada no que a concorrência está fazendo, ver o que eles têm e...