Um novo sistema de IA pode criar uma variedade de imagens realistas e surreais a partir de descrições em linguagem natural. Tem o potencial de mudar o jogo, mas não sem algumas preocupações.
Algoritmos e IA continuam a fazer ondas na indústria da arte.
O mais recente avanço vem de uma equipe de pesquisa chamada OpenAI, que acaba de lançar uma nova versão de seu programa DALL-E. Este software é uma ferramenta de geração de texto para imagem que produz arte com base em uma descrição inserida pelo usuário.
Ver este post no Instagram
Apropriadamente chamada de DALL-E 2, essa nova IA não estará disponível ao público, mas os pesquisadores podem se inscrever para visualizar seus recursos. A OpenAI diz que planeja disponibilizar seu software para uso em aplicativos de terceiros eventualmente – embora nenhuma palavra sobre quando isso acontecerá.
Por enquanto, o programa será testado por parceiros aprovados.
Os usuários não têm permissão para fazer upload de imagens geradas que possam 'causar danos' e devem divulgar para que estão usando a IA.
Como funciona o DALL-E 2?
Embora eu não seja um especialista em codificação, eu pode confirme se o DALL-E 2 opera usando uma biblioteca de imagens pré-construída. O algoritmo recebe uma grande quantidade de imagens marcadas e, em seguida, cria novas obras de arte com base no que já conhece.
Digamos que você queira criar uma imagem de um tigre em uma canoa. Estranho, certo? Mas DALL-E 2 pesquisará seus arquivos para descobrir como são uma 'canoa' e um 'tigre' e criará uma única peça que combina ambos de forma convincente.
Ver este post no Instagram
DALL-E 2 baseia-se no CLIP da primeira iteração, um sistema de visão computacional. OpenAI diz que este novo software gera imagens usando 'difusão', onde uma peça começa com alguns pontos e é gradualmente preenchida com detalhes.
Esse processo acontece por meio de um modelo de dois estágios. CLIP primeiro combina seu texto com outras fotografias e imagens existentes, então um 'decodificador' gera a própria imagem.
O vídeo acima dá uma breve demonstração do que é possível, mostrando gatos gerados por IA, versões editadas de forma realista de imagens pré-existentes e um sistema complexo de rotulagem de objetos que permite ao DALL-E 2 entender seus prompts. São coisas realmente impressionantes.
Curiosamente, a OpenAI enfatiza que ainda há erros e problemas a serem resolvidos.
Ver este post no Instagram
Objetos rotulados incorretamente podem fazer com que o algoritmo produza imagens incorretas que não se alinham com a descrição de texto fornecida. Se dentro de sua codificação houver uma foto pré-existente de um carro rotulado como 'avião', por exemplo, isso pode levar o gerador completamente para fora do curso, enviando de volta um BMW em vez de um Boeing.
Além disso, prompts muito específicos não são possíveis até que a IA tenha rotulado e aprendido quais são os objetos relevantes.
Pedir uma cidade ou uma espécie rara de animal pode resultar em imagens incorretas e instáveis até que o algoritmo seja aprimorado. Tenha em mente que esta é apenas a segunda iteração do DALL-E, então sem dúvida veremos ainda mais demos alucinantes no futuro.