Otimização de resultados de Speech-to-Text com as soluções da Interactive Media

    Escrito por Livio Pugliese

    28 / 06 / 22

    O que é speech to text e quais suas vantagens? Confira

    A Interactive Media oferece, há muitos anos, soluções de IA Conversacional, com foco em agentes virtuais habilitados para voz. Implantamos nossos primeiros agentes virtuais de conversação muito antes da IA conversacional se transformar em uma palavra da moda e da explosão das implantações conversacionais de autoatendimento.

    Tendo focado em voz desde o início, estamos cientes dos desafios que surgem com a conversão em texto de expressões vocais dos usuários que os sistemas de conversação podem usar.

    Isso ocorre porque os agentes virtuais baseados em IA Conversacionais podem manter uma conversa falada no telefone, por exemplo, mas seu cérebro de IA funciona em texto. Dessa forma, eles precisam converter as frases faladas por humanos em sua contraparte de texto, e o texto que o sistema usa para responder de volta em fala.

    Há dez anos, as opções disponíveis no mercado para interpretar a fala e convertê-la em texto (ASR, Automatic Speech Recognition ou Speech-to-Text) eram limitadas. Uma empresa – a Nuance – dominou o campo, tendo desenvolvido sua própria tecnologia ou adquirido concorrentes menores em diferentes países para oferecer Speech-to-Text em diferentes idiomas. Assim, a Interactive Media contou com a tecnologia da Nuance, inicialmente, para todas as suas implantações de agentes virtuais habilitados para voz.

    O cenário de hoje para speech-to-text

    O estado da tecnologia é muito diferente agora. A ampla adoção da inteligência artificial mudou a maneira como a fala humana é interpretada por máquinas de maneira substancial, tornando a tarefa de desenvolver sistemas Speech-to-Text muito mais fácil e o desempenho muito melhor – o que significa que a precisão da transcrição melhorou significativamente. As ofertas de Speech-to-Text explodiram no mercado e dezenas de empresas agora fornecem o serviço, seja diretamente da nuvem pública ou integrados mais estritamente com aplicativos de fala.

    No entanto, a fala não é a mesma para todas as pessoas e aplicações, sendo suas variações impressionantes. As pessoas falam de maneiras completamente distintas, dependendo do que querem, do que lhes é pedido, onde estão em uma conversa e, claro, em dezenas de idiomas diferentes. Fornecer um serviço de Speech-to-Text que cubra efetivamente todas as variações e partes de uma conversa é extremamente difícil. Por essa razão, alguns serviços são, inevitavelmente, melhores que outros para tarefas e linguagens específicas.

    A abordagem da Interactive Media para Speech-to-Text

    Como o Speech-to-Text é parte integrante da oferta da Interactive Media, estamos constantemente aprimorando nossas soluções, monitorando seus avanços e testando diferentes serviços no dia a dia. Desenvolvemos métricas e conjuntos de testes padronizados para direcionar a decisão de qual serviço utilizar para o benefício de nossos clientes, dependendo do caso de uso que dita a tarefa em questão, as configurações e o idioma.

    Qual é o benefício? Descobrimos que os principais serviços de Speech-to-Text de uso geral têm alguns pontos fracos. Um exemplo disso é o preenchimento de um formulário com números ou strings alfanuméricos, o que limita o campo de resultado. Alguns serviços parecem não utilizar isso a seu favor e retêm a mesma porcentagem de reconhecimento correto que a fala geral. Mas enquanto uma acurácia de reconhecimento de 95% geralmente é suficiente para descobrir uma intenção (por exemplo), 40% das vezes virá com erro se usado uma sequência de 10 dígitos.

    No entanto, outros mecanismos de Speech-to-Text são otimizados para reconhecer dígitos ou permitem que o usuário defina gramáticas rígidas que podem ajudar na tarefa. Usando esses mecanismos, você pode obter uma precisão de até 99%, o que resulta em uma probabilidade de acerto de 90% para 10 dígitos.

    Da mesma forma, existem tarefas mais comuns que precisam de otimização para que o Agente Virtual seja eficaz. Talvez o mais desafiador seja transcrever um endereço de e-mail. Os agentes humanos têm muita dificuldade com isso, sendo a porcentagem de erros extremamente alta. Novamente, alguns serviços de Speech-to-Text se saem melhor do que outros e até mesmo uma diferença de 5% faz com que valha a pena mudar no meio da chamada para um serviço de melhor desempenho, caso o volume de tráfego seja alto o suficiente.

    Assim, projetamos nossa plataforma para usar vários dos melhores serviços de Speech-to-Text, testando constantemente os serviços conectados e adicionando novos à medida que se tornam disponíveis. É uma grande tarefa, mas acreditamos que estamos conseguindo nos destacar nesse quesito: modelamos conversas definindo categorias de tarefas que os Agentes Virtuais devem realizar e testamos continuamente cada um dos serviços com os quais integramos usando exemplos de interações atômicas pertencentes a cada categoria. Desta forma, obtemos pontuações para os vários serviços para cada tarefa específica, em diversos idiomas.

    Isso seria apenas teoria sem uma maneira de a aplicação do Agente Virtual usá-lo. Sendo assim, adicionamos esse recurso a todos os nossos serviços, fornecidos pelas plataformas PhoneMyBot e OMNIA. A API permite especificar a categoria esperada da expressão e pronúncia vinda do usuário, com base na pergunta que está sendo feita. Dessa forma, caso o sistema solicite que o usuário forneça um código numérico, o serviço saberá que a próxima expressão provavelmente será composta por números e usará o mecanismo de Speech-to-Text com o melhor desempenho de reconhecimento especificamente para essa tarefa.

    A diferença de desempenho é substancial – se até 10% menos chamadas tiverem que ser encaminhadas para agentes humanos, especialmente quando a tarefa é simplesmente coletar dados do cliente, a experiência do cliente é muito melhor e o ROI para nossos clientes aumenta significativamente, cumprindo a promessa de agentes virtuais. 

     

    Outros artigos

    Outros artigos

    O futuro da voz inteligente

    O futuro da voz inteligente

    O futuro da voz inteligente À medida que o mercado de alto-falantes inteligentes enfraquece, o que os três grandes players do mercado (Amazon, Apple, Google) irão fazer? Alexa, devo levar um guarda-chuva amanhã? Essa é uma pergunta que os proprietários de...

    ler mais