Google apresenta a IA generativa Lumiere para criar imagens e vídeos mais realistas a partir de textos

O Google apresenta o Lumiere - a mais recente novidade em IA generativa que cria videoclipes realistas a partir de texto. (Fonte: Google Research)

O Google apresentou o Lumiere, o que há de mais moderno em geração realista de texto para imagem e texto para vídeo usando aprendizado de máquina. Uma inovação importante é a capacidade de criar movimentos realistas, como caminhar, com os quais as IAs generativas atuais têm dificuldade. O software faz isso criando todos os quadros de vídeo de uma só vez, em vez de usar quadros-chave e treinamento para aprender como os objetos em movimento devem aparecer.

David Chien (traduzido por Ninh Duy), Publicado 01/31/2024 🇺🇸 🇩🇪 ...

O Google apresentou o Lumiere, o que há de mais moderno em IA realista de texto para imagem e vídeo. O software aprimora bastante o movimento usando uma nova abordagem para a geração de quadros de vídeo que cria todos os quadros em uma única passagem para reduzir os erros de movimento.

A IA geradora de imagens cria imagens a partir de texto. Um fator importante que permite isso é a enorme quantidade de imagens e vídeos on-line disponíveis para treinamento. Outro é o desenvolvimento de métodos para associar todas as palavras de um idioma umas às outras por meio de vetores. Portanto, a IA pode entender como um par de palavras, ou em uma frase, "eu sou" é mais provável do que "eu unilateralmente". A IA de criação de imagens, como a Stable Diffusion, associa palavras a imagens de objetos. Essa IA entende que as palavras "residência real" estão mais associadas a uma imagem de "castelo" do que a uma imagem de "casa".

A IA de vídeo generativa amplia a IA de imagem para criar vídeos a partir de texto. Os concorrentes da Lumiere criam primeiro os quadros-chave e depois os quadros intermediários. É como se um mestre animador desenhasse as imagens do início e do fim de um arremesso de basquete e, em seguida, um assistente desenhasse as imagens intermediárias. O problema é que, muitas vezes, ocorrem erros de movimento porque as imagens intermediárias não são desenhadas corretamente, de modo que a Lumiere contorna esse problema criando todos os quadros de vídeo sem keyframes. Além disso, a Lumiere é treinada para saber como os objetos em movimento se parecem em vários tamanhos de imagem, de modo que seus vídeos têm uma aparência superior.

Tecnicamente, o Lumiere utiliza modelos probabilísticos de difusão para gerar imagens acopladas a uma U-Net espaço-temporal, uma arquitetura de U-net com escalonamento temporal para cima e para baixo, além de blocos de atenção adicionados ao escalonamento usual da resolução da imagem. O escalonamento para baixo temporalmente, simultaneamente à resolução, reduz significativamente as cargas de trabalho computacionais, enquanto o escalonamento para cima, associado a um modelo de super-resolução espacial com consciência temporal, gera o resultado de alta resolução. Ainda assim, a segmentação de quadros de imagem é necessária devido a limitações de memória, de modo que a multidifusão é usada em limites de segmentos de quadros sobrepostos para ajudar a atenuar os artefatos de movimento temporal.

O Lumiere pode ser acoplado a outras IAs para criar uma gama mais ampla de resultados. Isso inclui:

Cinemagraphs - uma seção de uma imagem é animada
Inpainting - um objeto em um vídeo é substituído por outro
Geração estilizada - a aparência é recriada em outro estilo de arte
Image-to-video (imagem para vídeo) - uma imagem desejada é animada
Vídeo para vídeo - os vídeos são recriados em outro estilo artístico

A duração do vídeo é limitada a 5 segundos, enquanto a capacidade de criar transições de vídeo e vários ângulos de câmera é inexistente. Os leitores interessados em fazer experiências com IA generativa em seus computadores desktop devem fazer upgrade para uma placa de vídeo potente(como esta da Amazon) para obter o melhor desempenho durante o treinamento.

O Lumiere pode criar imagens e vídeos a partir de texto, estilizados para combinar com outra arte, e até mesmo substituir objetos. (Fonte: Google Research)

O Lumiere pode animar uma parte de uma imagem e o resultado pode ser alimentado facilmente em outra IA. (Fonte: Google Research)

Fonte(s)

Pesquisa do Google - Lumiere, Inbar Mosseri no YouTube

Fonte(s)

Artigos Relacionados