Entenda como a Google faz com que o Android compreenda suas palavras

Imagem de: Entenda como a Google faz com que o Android compreenda suas palavras

Espectrograma da voz humana (Fonte da imagem: Reprodução/Wired)

Reconhecimento de voz já não é uma grande novidade. Obviamente, trata-se de uma tecnologia que ainda precisa ser mais bem trabalhada a fim de termos resultados melhores – e a Google parece bastante empenhada nisto.

Quando a empresa desenvolveu a última versão de seu sistema operacional móvel – o Android Jelly Bean –, ela também implementou uma série de mudanças na maneira com que o software reconhece a voz humana, baseando principalmente na chamada rede neural; um sistema de aprendizado virtual que tenta ao máximo se assemelhar ao cérebro humano.

Em entrevista à revista Wired, o pesquisador Vincent Vanhoucke comentou sobre o processo de desenvolvimento e funcionamento básico do algoritmo. De acordo com Vincent, a taxa de erros no reconhecimento de voz caiu em 25% em relação às versões anteriores do sistema operacional, o que faz com que as pessoas falem de uma forma mais “natural” com seus aparelhos celulares, em vez de ditar palavras como se estivessem conversando com um robô.

Taxa de erros no reconhecimento de voz caiu 25% na última versão do Android (Fonte da imagem: Reprodução/Gizmodo)

Celulares quase humanos

“Quando você fala algo para o sistema de reconhecimento de voz do Android, o espectograma de suas palavras é cortado em pequenos pedaços e enviado para oito computadores abrigados na vasta coleção de servidores da Google”, explica o pesquisador. Esses cortes então são processados de acordo com os modelos de redes neurais desenvolvidos por Vanhoucke e sua equipe e, ao serem “devolvidos”, são adicionados à inteligência artificial do software como se ele tivesse assimilado as palavras.

As possibilidades para o sistema de redes neurais são inúmeras. Com o software “aprendendo” como um cérebro humano, não será nenhuma surpresa caso o Android possa buscar imagens de forma mais eficaz, reconhecendo-as como representações de objetos em si e não apenas como um conjunto de pixels, por exemplo.

Jeff Dean, cientista da computação que também tem trabalhado no setor de reconhecimento de voz da Google, afirma que a empresa está estudando implantar este tipo de recurso em diversos outros produtos e acredita no potencial da tecnologia para melhorar a interação entre o homem e a máquina.

Cupons de desconto TecMundo:
Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.