Leitura labial não é fácil, mas a inteligência artificial está tornando a tarefa menos complexa. Pesquisadores da Universidade de Oxford desenvolveram um sistema que assiste a uma pessoa mexendo a boca e descobre o que estava sendo pronunciado com precisão de 93,4%. Nas mesmas condições, os humanos só acertaram em 52,3% dos casos.

lipnet-leitura-labial-ia

O sistema se chama LipNet e foi construído com a ajuda do DeepMind, do Google. Eles treinaram a rede neural com cerca de 29 mil vídeos de três segundos e falas conhecidas. Depois, compararam a precisão de leitura labial entre pessoas e LipNet com 300 vídeos aleatórios para concluir que os computadores são bem superiores aos pobres seres humanos.

Segundo a Quartz, o LipNet está melhor que um sistema antigo de leitura labial, que tinha precisão de 79,6% (o que já superior aos humanos). A tecnologia anterior tentava decifrar palavra por palavra, enquanto a desenvolvida pelos pesquisadores de Oxford aproveita a inteligência artificial para montar frases inteiras de uma vez só, aumentando a eficácia.

Mas espere: esses vídeos de três segundos são meio, ahn… fáceis, como você pode ver na demonstração acima. E você pode argumentar que a inteligência artificial estava trapaceando, porque todas as frases seguiam um padrão: elas continham um verbo, uma cor, uma preposição, uma letra, um número (de 1 a 10) e um advérbio.

Tudo bem: outro projeto de leitura labial, também da Universidade de Oxford, treinou a inteligência artificial com vídeos mais reais. Eles pegaram 5.000 horas de conteúdo de televisão da BBC, com um total de 118 mil sentenças mais complicadas, incluindo “Sabemos que haverá centenas de jornalistas aqui também” e “De acordo com os últimos dados do Office for National Statistics”.

ia-leitura-labial

Com esses vídeos, a inteligência artificial acertou apenas 46,8% das falas sem nenhum erro, um número bem menos impressionante — no entanto, os profissionais humanos só atingiram uma taxa de 12,4%, então a máquina ainda está (muito) na frente. De acordo com a New Scientist, vários erros da IA eram pequenos, como esquecer um “s” no final de uma palavra, por exemplo.

Segundo os pesquisadores, a leitura labial com inteligência artificial tem mais utilidade do que descobrir o que o Tite estava gritando no jogo da Seleção; ela pode servir para construir aparelhos auditivos mais eficientes, permitir que você utilize um assistente pessoal ditando em silêncio (afinal, quase ninguém gosta de usar a Siri em público) e desenvolver sistemas de reconhecimento de fala para ambientes barulhentos.

The Next Big Thing

No Tecnocast 044, discutimos os usos e aplicações da inteligência artificial. Será que ela consegue ir tão longe como imaginamos? Quão rápida a inteligência artificial pode evoluir, exatamente? Também explicamos como ela funciona e quais empresas têm as melhores tecnologias. Vale apertar o play!

044

Receba mais notícias do Tecnoblog na sua caixa de entrada

* ao se inscrever você aceita a nossa política de privacidade
Newsletter
Paulo Higa

Paulo Higa

Ex-editor executivo

Paulo Higa é jornalista com MBA em Gestão pela FGV e uma década de experiência na cobertura de tecnologia. No Tecnoblog, atuou como editor-executivo e head de operações entre 2012 e 2023. Viajou para mais de 10 países para acompanhar eventos da indústria e já publicou 400 reviews de celulares, TVs e computadores. Foi coapresentador do Tecnocast e usa a desculpa de ser maratonista para testar wearables que ainda nem chegaram ao Brasil.

Canal Exclusivo

Relacionados