Minha visão da evolução da tecnologia Text-to-Speech (TTS) em 3 etapas fundamentais

Escrito por Roberto Valente

13 / 12 / 22

O autor cofundou a Interactive Media em 1996 e é o CEO da empresa. A Interactive Media é uma desenvolvedora e fornecedora global de aplicativos de fala.

A Interactive Media tem uma longa história de desenvolvimento de aplicações de fala progressivamente mais sofisticados, com mais de 25 anos de experiência no gerenciamento de text-to-speech. Mas comecei a trabalhar nisso antes mesmo da fundação da empresa e posso dizer que estou envolvido com CTI (integração computador-telefonia) desde o seu início. Quero dar uma breve perspectiva da minha experiência em primeira mão aqui.

Em 1993 e nos anos seguintes tive o privilégio de colaborar com o CSELT, o preeminente laboratório italiano de telecomunicações em Torino. A CSELT já vinha trabalhando em tecnologias de conversão de text-to-speech há décadas.

Nos anos 70, a CSELT era, junto com a AT&T, a única empresa trabalhando no desenvolvimento de TTS para uso comercial. Seu primeiro sistema demonstrado publicamente foi chamado de MUSA. Você pode ouvi-lo falar neste vídeo (em italiano): https://www.youtube.com/watch?v=TvKChDE-Lnk.

Em 1993, a CSELT lançou o Eloquens, também baseado na concatenação de difonemas (difonemas são os sons que fazemos da metade de um fonema à metade do próximo fonema quando falamos uma palavra). A qualidade do Eloquens era muito superior à do MUSA, e mesmo agora pode ser considerado um produto de boa qualidade. Ele ainda está em uso para várias aplicações. Veja, por exemplo, https://www.youtube.com/watch?v=sZuV1L7cqro.

Outros artigos

Record with the nursery rhyme Fra Martino campanaro (Brother John), as sung by MUSA in 1978

O software Eloquens foi desenvolvido para ser usado em um PC autônomo. Mas a CSELT, que pertencia à companhia telefônica nacional, naturalmente tinha o objetivo de utilizá-la na rede telefônica. Foi aí que eu entrei. Naquela época, eu era consultor de uma empresa italiana que tinha os direitos exclusivos de venda para a Itália das placas de computador feitas pela Natural Microsystems e empresa americana. Estas estavam entre as primeiras placas CTI que permitiam que um PC se comunicasse com a rede telefônica.

Minha função era adaptar o software Eloquens para rodar com os DSPs da placa, para que pudesse ser utilizado em aplicações do tipo IVR. Lembro-me desses dias como um período extraordinário. Além do projeto, que era muito interessante, eu era um jovem engenheiro recém-saído da universidade e passando um longo período fora de casa pela primeira vez. Torino era naquela época uma cidade fortemente industrial e às 20h30 todos os restaurantes estavam vazios e ninguém estava nas ruas. No dia seguinte, as sirenes da fábrica soavam antes do amanhecer para marcar o início de um novo dia de trabalho. Isso era bem diferente da minha cidade natal, Roma. Eu trabalhava com o grupo do Marcello Balestri e do Luciano Nebbia: eram excelentes engenheiros, como a maioria do pessoal da CSELT. Juntos, pudemos desenvolver e lançar a primeira versão italiana – e uma das primeiras no mundo! – de um TTS comercial que pode ser usado em um sistema IVR.

Mesmo hoje, passados 30 anos, esse software ainda é implantado em algumas empresas. Isso também devido ao fato de que, somente nos últimos anos, houve um salto tecnológico substancial com desempenho visivelmente melhor, graças ao uso de redes neurais e, em particular, técnicas de deep learning. Treinando redes neurais para realizar TTS, o processo não depende da concatenação de difones e assim evita a “pixelação” que ainda está presente em sistemas mais antigos. Usando o deep learning, a prosódia é praticamente perfeita e, às vezes, as pessoas não conseguem distinguir uma voz sintética de uma fala humana original.

Uma capacidade interessante da tecnologia de Neural TTS é a possibilidade de criar a voz sintetizada de qualquer pessoa gravando, através da leitura de textos, algumas dezenas de horas de áudio. Entre as aplicações mais surpreendentes está o uso de uma voz sintética para criar a persona digital de um indivíduo, mesmo depois do seu falecimento. É possível, inclusive, manter os traços de sua personalidade.

Mas voltando aos assuntos mais terrenos, recentemente, a Interactive Media ganhou um contrato para produzir todas as respostas de áudio nos sistemas de atendimento ao cliente da TIM Brasil, usando um Neural TTS da Microsoft. A qualidade resultante é incrível, e quem liga tem a sensação de que quem está falando é uma pessoa real: educada, simpática, prestativa e, ao mesmo tempo, profissional. Nós, da Interactive Media, estamos prontos para expandir essa experiência, com o know-how que acumulamos em 25 anos, em todos os outros mercados. Entre em contato conosco se a voz que você usa para falar com seus clientes for importante para você!

Outros artigos

Conheça o serviço outbound do PhoneMyBot

Conheça o serviço outbound do PhoneMyBot

Quando as pessoas pensam em chatbots, geralmente imaginam pequenos ajudantes aparecendo no canto inferior direito das páginas da web. Algumas vezes um pouco irritante, se você não estiver procurando por nada específico. Por outro lado – e na maioria das vezes - muito...

ler mais