Gizmodo



google

Os engenheiros do Google conseguem fazer coisas incríveis com as tecnologias de consumo que têm desenvolvido — de redes que “sonham” baseadas em visão computacional a um algoritmo que pode criar vídeo usando imagens do Street View.

Este mês vimos o Deep Dream, o robô “sonhador” do Google, uma super avançada rede neural artificial, se espalhar pela internet. Essas redes são desenvolvidas pela equipe de engenharia da companhia por diversas razões práticas, que envolvem um computador identificar o conteúdo de uma imagem — que é uma tarefa extraordinariamente complexa para uma máquina não muito inteligente. Esses incríveis “cérebros” artificias que o Google está ensinando a reconhecer, digamos, animais ou arquitetura, também podem “sonhar”, e os resultados nos impressionaram e nos chocaram.

E este é um outro ótimo exemplo da visão computacional da empresa.

Semana passada, o Technology Review da MIT avaliou um estudo de John Flynn, engenheiro do Google e autor da pesquisa chama DeepStereo: aprendendo a prever novas perspectivas de imagens do mundo. Flynn e os três coautores do estudo, todos funcionários do Google, explicam como eles desenvolveram o sistema DeepStereo, que pode olhar para uma série de imagens fixas e combiná-las em uma animação sem interrupções.

1330709296033850402

Ela pode não parecer tão diferente de projetos semelhantes, como o SIGGRAPH, que usa imagens da internet para criar timelapses. Bem, é verdade que o DeepStereo faz algo próximo a um timelapse, mas ele também cria novas imagens que preenchem as lacunas entre uma figura e outra, prevendo partes e perspectivas das figuras que não existem em nenhumas das fotos fornecidas ao sistema. Em vez dos nossos olhos preencherem essas lacunas entre uma imagem e outra, o DeepStereo “imagina” o que elas seriam e as insere no resultado final, como explica o The Register. “Diferente de trabalhos anteriores, aprendemos a sintetizar novas perspectivas usando uma nova arquitetura, que não requer treinamentos de profundidade ou divergências”, escrevem Flynn e os coautores.

Obviamente, a arquitetura da rede por trás disso é muito complexa e baseada em diversos precedentes. Mas os autores nos explicam um pouco do funcionamento dela: existem duas “torres” separadas, ou redes de arquitetura, trabalhando ali. Uma faz a previsão da profundidade dos pixels, baseada nos dados disponibilizados pela imagem em 2D, enquanto a outra faz previsões sobre as cores. Juntas, elas preveem a profundidade e as cores das formas presentes nas imagens em 2D, sintetizando o resultado em um vídeo completo.

Veja com atenção o vídeo abaixo, e você perceberá alguns engasgos do DeepStereo: momentos onde os cantos ficam borrados ou pixelados. “Regiões em que o algoritmo não está confiante o suficiente tendem a ficar borradas, em vez de serem preenchidas com pixels distorcidos”, a equipe explica. O sistema até mesmo lida com objetos em movimento nas imagens. “Objetos em movimento, algo que ocorre com frequência durante o treinamento, são resolvidos de forma graciosa por nosso modelo: eles aparecem borrados de uma maneira que remete ao efeito motion blur”.

Mas é claro, o resultado final — aos olhos de quem não sabe o trabalho que deu para criá-lo — pode não parecer tão diferente de um timelapse qualquer. Mas saber que muito do vídeo é criado do nada por um algoritmo, faz um tour banal do Street View parecer extraordinário.




VOLTAR AO TOPO