Microsoft - reconhecimento de voz

Se você já tentou falar com a assistente do seu smartphone ou ligou para uma central telefônica automatizada, sabe que os comandos de voz funcionam bem, mas frequentemente falham. Mas isso pode mudar mais rápido do que a gente espera: a Microsoft revelou que a sua tecnologia de reconhecimento de voz já acerta nessa tarefa tanto quanto um humano.

Isso não quer dizer que a tecnologia é perfeita ou à prova de erros. No reconhecimento de palavras e expressões, ninguém entende tudo, na verdade. Se prestar atenção nas conversas do dia a dia, você se surpreenderá com a quantidade de vezes em que diz “como?”, “oi?” ou “quê?”. Há uma série de razões para isso: interferência de ruídos, tons de voz baixos, confusão entre palavras e por aí vai.

Em um experimento feito pela Microsoft, pessoas acostumadas com transcrição foram convidadas a ouvir uma conversa e então registrá-la. Em média, o índice de erros nessa tarefa ficou em 5,9%, ou seja, de cada 100 palavras ouvidas, seis não foram devidamente compreendidas. Um indivíduo não habituado a esse tipo de atividade provavelmente errará mais.

Cortana

O mesmo teste foi realizado com o sistema de inteligência artificial da Microsoft que lida com reconhecimento de voz. Sabe qual foi a taxa de erro? Os mesmos 5,9%. Essa é a razão para a equipe de Xuedong Huang, líder de reconhecimento de voz na companhia, estar comemorando tanto. A tecnologia já é capaz de reconhecer uma conversa com a mesma precisão alcançada por uma pessoa.

Para atingir esse nível, a Microsoft usou um sistema de rede neurais baseado no CNTK, um kit de ferramentas específico para aprendizagem profunda (e que está disponível com licença de código aberto no GitHub, olha só).

Como você deve ter imaginado, esse avanço permitirá que a Cortana fique ainda mais poderosa. Não adianta muita coisa a assistente ser capaz de realizar uma enormidade de tarefas se a interpretação dos comandos falados for precária.

Mas não vai ficar por aí: a Microsoft também espera empregar essa tecnologia na linha Xbox, no Skype, em ferramentas de acessibilidade e assim por diante.

Equipe responsável pelo projeto

Equipe responsável pelo projeto

Já imaginou como tudo ficará mais interessante se o índice de erro diminuir ainda mais? Não é impossível. Só para você ter ideia de como a coisa toda está evoluindo rápido, nos testes feitos no mês passado, a média de erros estava em 6,3%. “Cinco anos atrás, eu não teria pensado que poderíamos ter conseguido isso”, afirma Xuedong Huang, cientista chefe da Microsoft Research.

Estamos diante de um feito impressionante, não há dúvidas. Apesar disso, os pesquisadores da Microsoft reconhecem que ainda há muito trabalho a ser feito. Nas etapas seguintes, o desafio estará em fazer a tecnologia funcionar bem mesmo em ambientes com bastante barulho de fundo, como uma festa ou uma rua movimentada. Faz sentido: quem é que passa a maior parte do tempo em lugares completamente silenciosos?

Depois, virá o que provavelmente representa o desafio mais complexo: fazer a tecnologia alcançar a excelência na interpretação de contextos. Alguém duvida que eles chegarão lá?

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Ronaldo
Viadinho. Só isso.
Adilio Costa

Vai você e a vadia da tua mãe velho babão, ela deve ter um desgosto do caralho em parido um monstro do Olhão como você bichona

Adilio Costa
Vai você e a vadia da tua mãe velho babão, ela deve ter um desgosto do caralho em parido um monstro do Olhão como você bichona
Ronaldo
Então vai tomar bem no centro do seu cuzinho liso e para de encher o saco bebe chorão do caralho.
Ronaldo
Ainn, ela ta nervosinha uiiii...
Adilio Costa

Então ruma de bosta para de falar merda na web e faz um sistema operacional idiota

Adilio Costa
Então ruma de bosta para de falar merda na web e faz um sistema operacional idiota
Ronaldo
Eu sou anterior a geração politicamente correta, e bem anterior a geração mi mi mi. Mando tomar no cu mesmo.
Ronaldo
Quem falou de Linux seu retardado ?
Adilio Costa

Vai morrer de fome com essa merda do teu Linux, uma pessoa para falar isso da Microsoft só pode ser usuário desse Lixonux,a única barreira que alguns ainda tinha da Microsoft era deixar um código fonte aberto para a comunidade de desenvolvedores trabalharem e evoluírem, mas isso acabou, então vai defender esse lixonux que daqui uns dias vai morrer de fome trabalhando esse lixo.

Adilio Costa
Vai morrer de fome com essa merda do teu Linux, uma pessoa para falar isso da Microsoft só pode ser usuário desse Lixonux,a única barreira que alguns ainda tinha da Microsoft era deixar um código fonte aberto para a comunidade de desenvolvedores trabalharem e evoluírem, mas isso acabou, então vai defender esse lixonux que daqui uns dias vai morrer de fome trabalhando esse lixo.
Luandersonn Airton

Quanto ódio nesse coração

Luandersonn Airton
Quanto ódio nesse coração
Ronaldo
Em inglês também, não adianta se iludir. Afinal, ela é Microsoft,e o que essa bosta de empresa indiana sabe fazer além do Office, por que no resto só toma cacete.
Highlander

Na dependência do contexto a taxa de erros da maioria dos seres humanos deve ser de mais de 50%...

Exibir mais comentários