Microsoft desenvolve reconhecimento de voz com “nível humano”

7 anos e meio atrás • Atualizado há 2 semanas

Se você já tentou falar com a assistente do seu smartphone ou ligou para uma central telefônica automatizada, sabe que os comandos de voz funcionam bem, mas frequentemente falham. Mas isso pode mudar mais rápido do que a gente espera: a Microsoft revelou que a sua tecnologia de reconhecimento de voz já acerta nessa tarefa tanto quanto um humano.

Isso não quer dizer que a tecnologia é perfeita ou à prova de erros. No reconhecimento de palavras e expressões, ninguém entende tudo, na verdade. Se prestar atenção nas conversas do dia a dia, você se surpreenderá com a quantidade de vezes em que diz “como?”, “oi?” ou “quê?”. Há uma série de razões para isso: interferência de ruídos, tons de voz baixos, confusão entre palavras e por aí vai.

Em um experimento feito pela Microsoft, pessoas acostumadas com transcrição foram convidadas a ouvir uma conversa e então registrá-la. Em média, o índice de erros nessa tarefa ficou em 5,9%, ou seja, de cada 100 palavras ouvidas, seis não foram devidamente compreendidas. Um indivíduo não habituado a esse tipo de atividade provavelmente errará mais.

O mesmo teste foi realizado com o sistema de inteligência artificial da Microsoft que lida com reconhecimento de voz. Sabe qual foi a taxa de erro? Os mesmos 5,9%. Essa é a razão para a equipe de Xuedong Huang, líder de reconhecimento de voz na companhia, estar comemorando tanto. A tecnologia já é capaz de reconhecer uma conversa com a mesma precisão alcançada por uma pessoa.

Para atingir esse nível, a Microsoft usou um sistema de rede neurais baseado no CNTK, um kit de ferramentas específico para aprendizagem profunda (e que está disponível com licença de código aberto no GitHub, olha só).

Como você deve ter imaginado, esse avanço permitirá que a Cortana fique ainda mais poderosa. Não adianta muita coisa a assistente ser capaz de realizar uma enormidade de tarefas se a interpretação dos comandos falados for precária.

Mas não vai ficar por aí: a Microsoft também espera empregar essa tecnologia na linha Xbox, no Skype, em ferramentas de acessibilidade e assim por diante.

Já imaginou como tudo ficará mais interessante se o índice de erro diminuir ainda mais? Não é impossível. Só para você ter ideia de como a coisa toda está evoluindo rápido, nos testes feitos no mês passado, a média de erros estava em 6,3%. “Cinco anos atrás, eu não teria pensado que poderíamos ter conseguido isso”, afirma Xuedong Huang, cientista chefe da Microsoft Research.

Estamos diante de um feito impressionante, não há dúvidas. Apesar disso, os pesquisadores da Microsoft reconhecem que ainda há muito trabalho a ser feito. Nas etapas seguintes, o desafio estará em fazer a tecnologia funcionar bem mesmo em ambientes com bastante barulho de fundo, como uma festa ou uma rua movimentada. Faz sentido: quem é que passa a maior parte do tempo em lugares completamente silenciosos?

Depois, virá o que provavelmente representa o desafio mais complexo: fazer a tecnologia alcançar a excelência na interpretação de contextos. Alguém duvida que eles chegarão lá?

Relacionados