Crie imagens com IA 30 vezes mais rápido: Dall-E 3 e Stable Diffusion ficaram para trás

30 vezes mais rápido, mas também é bom: DMD. (Imagem: github/tianweiy)

Uma equipe do MIT reduziu os processos de várias etapas dos conhecidos geradores de imagens de IA. Isso não apenas reduz o tempo necessário para produzir a imagem finalizada. A potência de computação necessária e o consumo de energia também são reduzidos na mesma proporção.

Mario Petzold (traduzido por Ninh Duy), Publicado 03/25/2024 🇺🇸 🇩🇪 ...

AI Science

A magia do Dall-E ou da Difusão Estável já deve ser familiar para o senhor. A partir de uma breve descrição da cena, do conteúdo e talvez de um ou dois comentários, surge uma imagem mais ou menos realista. Felizmente, isso geralmente pode ser reconhecido como um trabalho gerado por IA, mas também serve ao seu propósito: não preciso colocar um cachorro em uma prancha de surfe ou uma raposa em um traje de astronauta. A imagem desejada está a apenas alguns cliques de distância.

Em segundo plano, porém, é um processo intensivo em termos de computação que consiste em várias iterações, repetições constantes do algoritmo para finalmente chegar à imagem desejada. Pesquisadores do MIT, no entanto, conseguiram dispensar essas inúmeras etapas intermediárias. Em vez disso, a cena descrita é criada após exatamente uma etapa.

Isso torna possível obter um resultado comparável e, ao mesmo tempo, reduzir significativamente a potência de computação necessária ou o tempo de espera. Ao mesmo tempo, é necessária menos energia para acionar o sistema chamado "Distribution Matching Distillation (DMD)".

Em termos mais figurativos: as imagens usadas para treinamento são divididas em áreas mais grosseiras. Isso determina a composição aproximada da imagem, dependendo do assunto. Além disso, a probabilidade de vários elementos da imagem é analisada para obter uma cena coerente no final.

Por fim, as informações detalhadas e a complexidade são reduzidas, de modo que o gerador de imagens simplesmente se torna mais rápido. Em vez de 2 a 3 segundos por imagem, o mesmo hardware leva cerca de 100 milissegundos - um trigésimo.

Se o senhor observar atentamente as imagens, a redução nos detalhes é claramente visível. Os fundos ficam levemente borrados e os elementos da imagem podem se repetir. Os motivos ainda podem parecer significativamente melhores em alguns casos e ainda são mais fáceis de reconhecer como um trabalho geral de inteligência artificial, ou pelo menos artificial. Outro efeito positivo.

Além do astronauta raposa, muitos outros exemplos do modelo DMD podem ser encontrados em aqui.