Meny Meny

Nya AI DALL-E 2 skapar bilder från textmeddelanden

Ett nytt AI-system kan skapa en mängd olika bilder både realistiska och surrealistiska från naturliga språkbeskrivningar. Det har potential att förändra spelet, men inte utan några bekymmer.

Algoritmer och AI fortsätter att göra vågor i konstbranschen.

Det senaste genombrottet kommer från en forskargrupp som heter OpenAI, som just har presenterat en ny version av sitt DALL-E-program. Denna programvara är ett verktyg för att skapa text-till-bild som producerar konstverk baserat på en användarinmatad beskrivning.

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Passande kallad DALL-E 2, denna nya AI kommer inte att vara tillgänglig för allmänheten, men forskare kan registrera sig för att förhandsgranska dess kapacitet. OpenAI säger att de planerar att göra sin mjukvara tillgänglig för användning i tredjepartsappar så småningom – men inget om när detta kommer att hända.

Tills vidare kommer programmet att testas av granskade partners.

Användare får inte ladda upp genererade bilder som kan "vålla skada" och måste avslöja vad de använder AI till.


Hur fungerar DALL-E 2?

Även om jag inte på något sätt är någon kodningsexpert, men jag Kan bekräfta att DALL-E 2 fungerar med ett förbyggt bildbibliotek. Algoritmen får en mängd taggade bilder och skapar sedan nya konstverk baserat på vad den redan vet.

Säg att du ville skapa en bild av en tiger på en kanot. Konstigt, eller hur? Men DALL-E 2 kommer att söka i sina filer för att hitta hur en "kanot" och en "tiger" båda ser ut, och skapar en enda del som på ett övertygande sätt kombinerar båda.

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

DALL-E 2 bygger på den första iterationens CLIP, ett datorvisionssystem. OpenAI säger att den här nya programvaran genererar bilder med hjälp av "diffusion", varvid en bit börjar som några punkter och gradvis fylls i med detaljer.

Denna process sker via en tvåstegsmodell. CLIP matchar först din text med andra befintliga fotografier och bilder, sedan genererar en "dekoder" själva bilden.

Ovanstående video ger en kort demonstration av vad som är möjligt, att visa upp AI-genererade katter, realistiskt redigerade versioner av redan existerande bilder och ett komplext system för objektmärkning som gör att DALL-E 2 kan förstå dina meddelanden. Det är verkligen imponerande grejer.

Intressant nog betonar OpenAI att det fortfarande finns fel och problem att reda ut.

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Objekt som är felmärkta kan göra att algoritmen producerar felaktiga bilder som inte stämmer överens med textbeskrivningen. Om den i sin kodning har ett redan existerande foto av en bil märkt som ett "plan", till exempel, kan detta leda till att generatorn helt ur kurs och skickar tillbaka en BMW istället för en Boeing.

Dessutom är mycket specifika uppmaningar inte möjliga förrän AI:n har märkt och lärt sig vad de relevanta objekten är.

Om du frågar efter en stad eller sällsynta djurarter kan det resultera i knasiga, felaktiga bilder tills algoritmen har förbättrats. Tänk på att detta bara är den andra iterationen av DALL-E, så vi kommer utan tvekan att se ännu fler sinnesförböjande demos i framtiden.


Varför kan detta orsaka problem för artister?

Efter att ha granskat konstverket skapat av DALL-E 2 är det svårt att inte känna sig exalterad av teknikens möjligheter.

Vi bör dock vara uppmärksamma på potentiella fallgropar. Konstnärer har redan mycket svårt att tjäna pengar för sitt arbete i internetåldern – därav den första orsaken till NFTs – och ett nytt algoritmbaserat bildverktyg kan sätta många små digitala illustratörer i konkurs.

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Det kommer också att bli mycket svårare att verifiera äktheten av en bild eller målning på nätet, och kan devalvera verkliga människors arbete. Omedelbar bildprägling kan bli en möjlighet, vilket skapar en ännu mer exploaterande NFT-marknad.

Om alla kan göra vad som helst direkt, förlorar illustrationer och målningar allt sitt kommersiella värde? Blir konsten i sig helt enkelt ytterligare ett program eller verktyg för vem som helst att använda?

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Det finns stora, existentiella frågor om konsekvenserna av en sådan genuint banbrytande programvara, av vilka många inte har svaren på.

Till OpenAIs förtjänst verkar det som mycket medveten om farorna. Den säger att DALL-E 2 aldrig kommer att vara helt tillgänglig för allmänheten, och endast långsamt kommer att rullas ut till betrodda forskare och partners baserat på feedback. Användare måste säga varför de använder programvaran och kan inte göra några bilder som är obscena eller skadliga.

Den vill säkerställa att desinformation eller djupt förfalskade bilder inte orsakar ytterligare förödelse för våra politiska system och online-diskurs också.

 

Visa det här inlägget på Instagram

 

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Dessa avsikter kan vara bra nog, men vem säger att andra, mindre välmenande kodare inte bara kopierar OpenAI:s arbete? Vi har redan sett en applikation som heter Wombo's Dream lansering förra året, helt klart baserad på detta koncept.

Du kan komma åt den just nu – även om den är mycket mindre sofistikerad än DALL-E 2.

I slutändan har vi ingen aning om hur denna teknik kan påverka konstvärlden. Vad vi do vet är att saker och ting börjar bli läskigt imponerande, kanske till och med en liten kuslig dal. För nu verkar OpenAI rulla ut sina produkter på ett ansvarsfullt sätt – och det är det bästa vi kan hoppas på i detta tidiga skede.

Tillgänglighet