Menu Menu

Novo AI DALL-E 2 cria imagens a partir de prompts de texto

Um novo sistema de IA pode criar uma variedade de imagens realistas e surreais a partir de descrições em linguagem natural. Tem o potencial de mudar o jogo, mas não sem algumas preocupações.

Algoritmos e IA continuam a fazer ondas na indústria da arte.

O mais recente avanço vem de uma equipe de pesquisa chamada OpenAI, que acaba de lançar uma nova versão de seu programa DALL-E. Este software é uma ferramenta de geração de texto para imagem que produz arte com base em uma descrição inserida pelo usuário.

Apropriadamente chamada de DALL-E 2, essa nova IA não estará disponível ao público, mas os pesquisadores podem se inscrever para visualizar seus recursos. A OpenAI diz que planeja disponibilizar seu software para uso em aplicativos de terceiros eventualmente – embora nenhuma palavra sobre quando isso acontecerá.

Por enquanto, o programa será testado por parceiros aprovados.

Os usuários não têm permissão para fazer upload de imagens geradas que possam 'causar danos' e devem divulgar para que estão usando a IA.


Como funciona o DALL-E 2?

Embora eu não seja um especialista em codificação, eu pode confirme se o DALL-E 2 opera usando uma biblioteca de imagens pré-construída. O algoritmo recebe uma grande quantidade de imagens marcadas e, em seguida, cria novas obras de arte com base no que já conhece.

Digamos que você queira criar uma imagem de um tigre em uma canoa. Estranho, certo? Mas DALL-E 2 pesquisará seus arquivos para descobrir como são uma 'canoa' e um 'tigre' e criará uma única peça que combina ambos de forma convincente.

DALL-E 2 baseia-se no CLIP da primeira iteração, um sistema de visão computacional. OpenAI diz que este novo software gera imagens usando 'difusão', onde uma peça começa com alguns pontos e é gradualmente preenchida com detalhes.

Esse processo acontece por meio de um modelo de dois estágios. CLIP primeiro combina seu texto com outras fotografias e imagens existentes, então um 'decodificador' gera a própria imagem.

O vídeo acima dá uma breve demonstração do que é possível, mostrando gatos gerados por IA, versões editadas de forma realista de imagens pré-existentes e um sistema complexo de rotulagem de objetos que permite ao DALL-E 2 entender seus prompts. São coisas realmente impressionantes.

Curiosamente, a OpenAI enfatiza que ainda há erros e problemas a serem resolvidos.

Objetos rotulados incorretamente podem fazer com que o algoritmo produza imagens incorretas que não se alinham com a descrição de texto fornecida. Se dentro de sua codificação houver uma foto pré-existente de um carro rotulado como 'avião', por exemplo, isso pode levar o gerador completamente para fora do curso, enviando de volta um BMW em vez de um Boeing.

Além disso, prompts muito específicos não são possíveis até que a IA tenha rotulado e aprendido quais são os objetos relevantes.

Pedir uma cidade ou uma espécie rara de animal pode resultar em imagens incorretas e instáveis ​​até que o algoritmo seja aprimorado. Tenha em mente que esta é apenas a segunda iteração do DALL-E, então sem dúvida veremos ainda mais demos alucinantes no futuro.


Por que isso pode causar problemas para os artistas?

Depois de examinar a arte criada por DALL-E 2, é difícil não se sentir empolgado com as possibilidades da tecnologia.

Devemos estar atentos a possíveis armadilhas, no entanto. Os artistas já têm muita dificuldade em ganhar dinheiro com seu trabalho na era da internet – daí a razão inicial para os NFTs – e uma nova ferramenta de imagem baseada em algoritmos poderia tirar muitos ilustradores digitais de pequeno porte do negócio.

Também ficará muito mais difícil verificar a autenticidade de uma imagem ou pintura online e pode desvalorizar o trabalho de seres humanos genuínos. A cunhagem de imagens instantâneas pode se tornar uma possibilidade, criando um mercado de NFT ainda mais explorador.

Se todos podem fazer qualquer coisa instantaneamente, as ilustrações e pinturas perdem todo o seu valor comercial? A arte em si se torna simplesmente mais um aplicativo ou ferramenta para qualquer um usar?

Existem grandes questões existenciais sobre as implicações de um software genuinamente inovador, para muitas das quais não temos as respostas.

Para crédito da OpenAI, parece muito consciente dos perigos. Ele diz que o DALL-E 2 nunca estará totalmente disponível ao público e só será lançado lentamente para pesquisadores e parceiros confiáveis ​​com base no feedback. Os usuários precisarão dizer por que estão usando o software e não podem criar imagens obscenas ou prejudiciais.

Ele quer garantir que a desinformação ou imagens falsificadas não acabem causando mais estragos em nossos sistemas políticos e também no discurso online.

Essas intenções podem ser bastante sólidas, mas quem pode dizer que outros codificadores menos bem-intencionados não irão simplesmente copiar o trabalho do OpenAI? Já vimos um aplicativo chamado Wombo's Dream ser lançado no ano passado, claramente baseado nesse conceito.

Você pode acessá-lo agora mesmo – embora seja muito menos sofisticado que DALL-E 2.

Em última análise, não temos ideia de como essa tecnologia pode impactar o mundo da arte. O que nóso sei é que as coisas estão ficando assustadoramente impressionantes, talvez até um pequeno vale estranho. Por enquanto, a OpenAI parece estar lançando seus produtos com responsabilidade – e isso é o melhor que podemos esperar neste estágio inicial.

Acessibilidade