A matemática por trás da trend da Disney
Quem aqui ainda não se deparou com imagens de usuários no formato de desenho animado? As caricaturas, no estilo “Disney Pixar”, que ganharam o coração da internet, estão sendo desenvolvidas no Bing Image Creator, da Microsoft, – uma ferramenta de inteligência artificial generativa, que combina a tecnologia DALL-E e o Chat GPT. Ou seja, muita matemática.
A interface, capaz de gerar imagens inéditas a partir de textos, nada mais é que o desenvolvimento de uma rede neural, baseada na tecnologia de Modelos de Difusão, que se utiliza de aprendizado multimodal para integrar semântica e imagens. Para Luiz Velho, pesquisador líder do Visgraf (Laboratório de Computação Gráfica do IMPA), as ferramentas podem representar uma revolução para diferentes setores.
Leia mais: Alunas do ‘Meninas Olímpicas do IMPA’ vencem HackGirls
Medalhistas da Olimpíada Carioca visitam IMPA
A importância da matemática na tecnologia e inovação
“O ser humano tem diversos sentidos que permitem captar diferentes informações, então, ele observa o mundo de forma multimodal. Agora as máquinas também são capazes de fazer isso. No futuro, essas imagens poderão ser usadas tanto em uma rede social quanto na indústria do cinema, por exemplo. Vai ficar cada vez mais fácil utilizá-las e o segredo será entender como colocá-las em produtos.”
O pesquisador do IMPA, que ministra diversos cursos na área, destaca ainda a rápida evolução das tecnologias. Em janeiro de 2021, a “Open AI” lançou o DALL-E 1; em julho de 2022, o DALL-E 2; e em setembro deste ano, o DALL-E 3 – disponível no Bing Image Creator. Esta versão da ferramenta oferece imagens mais aprimoradas e detalhadas que as interfaces anteriores.
“Por trás de todos esses produtos há muito sobre machine learning. Antes, as aplicações eram para área industrial e agora já percebemos um uso mais geral. Há machine learning até no celular e as empresas estão investindo cada vez mais na área, principalmente a Google, Meta e Microsoft. Esta última investiu pesado nos últimos anos e já utiliza os produtos de Open AI. Então, é uma área que cresceu e ainda vai crescer muito com os novos investimentos”, explica o pesquisador.
O Bing Image Creator é uma interface destinada ao público geral. Entre os pesquisadores e iniciados na área de Inteligência Artificial, o modelo generativo mais usado é o Stable Diffusion – uma plataforma de código aberto que permite um controle mais completo sobre o processo de criação de imagens. Com ela, é possível por exemplo apagar objetos, sugerir cenários e produzir imagens com estilos personalizados.
Leia também: Marcelo Viana é reconduzido no cargo de diretor-geral do IMPA
Novos pesquisadores do IMPA apresentam linhas de pesquisa