Nya AI DALL-E 2 skapar bilder från textmeddelanden

kultur
Designa
Upplagt 14 april 2022

Kredit: OpenAI

By Charlie Coombs

London, Storbritannien

1 energi + Lägg till energi

0 kommentarer

Ett nytt AI-system kan skapa en mängd olika bilder både realistiska och surrealistiska från naturliga språkbeskrivningar. Det har potential att förändra spelet, men inte utan några bekymmer.

Algoritmer och AI fortsätter att göra vågor i konstbranschen.

Det senaste genombrottet kommer från en forskargrupp som heter OpenAI, som just har presenterat en ny version av sitt DALL-E-program. Denna programvara är ett verktyg för att skapa text-till-bild som producerar konstverk baserat på en användarinmatad beskrivning.

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Passande kallad DALL-E 2, denna nya AI kommer inte att vara tillgänglig för allmänheten, men forskare kan registrera sig för att förhandsgranska dess kapacitet. OpenAI säger att de planerar att göra sin mjukvara tillgänglig för användning i tredjepartsappar så småningom – men inget om när detta kommer att hända.

Tills vidare kommer programmet att testas av granskade partners.

Användare får inte ladda upp genererade bilder som kan "vålla skada" och måste avslöja vad de använder AI till.

https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship

DALL-E is coming… World-changing AI image generator (https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship)

Hur fungerar DALL-E 2?

Även om jag inte på något sätt är någon kodningsexpert, men jag Kan bekräfta att DALL-E 2 fungerar med ett förbyggt bildbibliotek. Algoritmen får en mängd taggade bilder och skapar sedan nya konstverk baserat på vad den redan vet.

Säg att du ville skapa en bild av en tiger på en kanot. Konstigt, eller hur? Men DALL-E 2 kommer att söka i sina filer för att hitta hur en "kanot" och en "tiger" båda ser ut, och skapar en enda del som på ett övertygande sätt kombinerar båda.

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

DALL-E 2 bygger på den första iterationens CLIP, ett datorvisionssystem. OpenAI säger att den här nya programvaran genererar bilder med hjälp av "diffusion", varvid en bit börjar som några punkter och gradvis fylls i med detaljer.

Denna process sker via en tvåstegsmodell. CLIP matchar först din text med andra befintliga fotografier och bilder, sedan genererar en "dekoder" själva bilden.

https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI

DALL·E 2 Explained (https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI)

Ovanstående video ger en kort demonstration av vad som är möjligt, att visa upp AI-genererade katter, realistiskt redigerade versioner av redan existerande bilder och ett komplext system för objektmärkning som gör att DALL-E 2 kan förstå dina meddelanden. Det är verkligen imponerande grejer.

Intressant nog betonar OpenAI att det fortfarande finns fel och problem att reda ut.

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Objekt som är felmärkta kan göra att algoritmen producerar felaktiga bilder som inte stämmer överens med textbeskrivningen. Om den i sin kodning har ett redan existerande foto av en bil märkt som ett "plan", till exempel, kan detta leda till att generatorn helt ur kurs och skickar tillbaka en BMW istället för en Boeing.

Dessutom är mycket specifika uppmaningar inte möjliga förrän AI:n har märkt och lärt sig vad de relevanta objekten är.

Om du frågar efter en stad eller sällsynta djurarter kan det resultera i knasiga, felaktiga bilder tills algoritmen har förbättrats. Tänk på att detta bara är den andra iterationen av DALL-E, så vi kommer utan tvekan att se ännu fler sinnesförböjande demos i framtiden.

https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI

OpenAI's new model DALL·E 2 is amazing! (https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI)

Varför kan detta orsaka problem för artister?

Efter att ha granskat konstverket skapat av DALL-E 2 är det svårt att inte känna sig exalterad av teknikens möjligheter.

Vi bör dock vara uppmärksamma på potentiella fallgropar. Konstnärer har redan mycket svårt att tjäna pengar för sitt arbete i internetåldern – därav den första orsaken till NFTs – och ett nytt algoritmbaserat bildverktyg kan sätta många små digitala illustratörer i konkurs.

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Det kommer också att bli mycket svårare att verifiera äktheten av en bild eller målning på nätet, och kan devalvera verkliga människors arbete. Omedelbar bildprägling kan bli en möjlighet, vilket skapar en ännu mer exploaterande NFT-marknad.

Om alla kan göra vad som helst direkt, förlorar illustrationer och målningar allt sitt kommersiella värde? Blir konsten i sig helt enkelt ytterligare ett program eller verktyg för vem som helst att använda?

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Det finns stora, existentiella frågor om konsekvenserna av en sådan genuint banbrytande programvara, av vilka många inte har svaren på.

Till OpenAIs förtjänst verkar det som mycket medveten om farorna. Den säger att DALL-E 2 aldrig kommer att vara helt tillgänglig för allmänheten, och endast långsamt kommer att rullas ut till betrodda forskare och partners baserat på feedback. Användare måste säga varför de använder programvaran och kan inte göra några bilder som är obscena eller skadliga.

Den vill säkerställa att desinformation eller djupt förfalskade bilder inte orsakar ytterligare förödelse för våra politiska system och online-diskurs också.

Visa det här inlägget på Instagram

Ett inlägg som delas av DALL·E av OpenAI (@openaidalle)

Dessa avsikter kan vara bra nog, men vem säger att andra, mindre välmenande kodare inte bara kopierar OpenAI:s arbete? Vi har redan sett en applikation som heter Wombo's Dream lansering förra året, helt klart baserad på detta koncept.

Du kan komma åt den just nu – även om den är mycket mindre sofistikerad än DALL-E 2.

I slutändan har vi ingen aning om hur denna teknik kan påverka konstvärlden. Vad vi do vet är att saker och ting börjar bli läskigt imponerande, kanske till och med en liten kuslig dal. För nu verkar OpenAI rulla ut sina produkter på ett ansvarsfullt sätt – och det är det bästa vi kan hoppas på i detta tidiga skede.

Charlie Coombs

Chefredaktör London, Storbritannien

Jag är Charlie (han/han), chefredaktören på Thred. Jag studerade engelska vid University of Birmingham och som musik- och spelentusiast är jag en nörd för popkultur. Du kan hitta mig som kurerar spellistor, designar artikelrubrikbilder och smuttar på cider på en torsdag. Följ mig på Twitter, LinkedIn och släpp mig några idéer / feedback via e-mail.

Mer från thred.

Vad är "vuxna mellanår" och varför ökar de?

Kredit: Unsplash

offbeat

Vad är "vuxna mellanår" och varför ökar de?

Vanligtvis är det en före-uni rite of passage för tonåringar och människor i deras tidiga 20-årsåldern, att lägga allt på is för att resa världen runt håller snabbt på att bli en trend bland äldre generationer som letar efter en paus från livets obevekliga natur som vuxen. Ett mellanår är typiskt förknippat med gränsen till vuxenlivet, en period av utveckling för dem som har tid och resurser att resa, volontärarbeta,...

By Sofia Philips London, Storbritannien

Vad är "Dead Internet Theory" och är den verklig?

Kredit: Thred

offbeat

Vad är "Dead Internet Theory" och är den verklig?

Med den ständiga tillväxten av AI sedan 2022 har konspirationer kring den så kallade "Dead Internet Theory" vuxit sig starkare. Men det första är först, vad fan är det och har det någon trovärdighet? Är detta ett online kaninhål värt att gå vilse i? Är det ren storm i en tekopp? Har en människa ens skrivit den här artikeln? Så många frågor. Om du spenderar någon betydande tid på Twitter (X)...

By Jamie Watts London, Storbritannien

Blir populärmusiken verkligen värre för varje nytt decennium?

Kredit: Thred

Media

Blir populärmusiken verkligen värre för varje nytt decennium?

Även om konst är mycket subjektivt, tyder en ny studie på att populärmusik har blivit enklare och mer repetitiv under de senaste decennierna. Ett säkert sätt att säga att någon börjar bli "gammal" är om de uttalar den alltför välbekanta meningen: "Musik nuförtiden är skräp." Även om detta kan verka som en åsiktsfråga (särskilt när du är personen som har auxen), tenderar folk verkligen att säga att musiken...

By Jessica Byrne London, Storbritannien

Russ Cook slutför uppdraget att springa längs med Afrika

Kredit: @hardestgeezer/Thred

Media

Russ Cook slutför uppdraget att springa längs med Afrika

En berättelse om nästan oöverstigliga hinder, Cooks resa är en otrolig återspegling av den mänskliga anden. Men det är redan plågat av kritik inte 24 timmar efter mållinjen. Om du springer regelbundet är du en del av bara 20 % av befolkningen (17 % för kvinnor). Om du springer ett maraton sjunker den statistiken till 0.17%. Men Russ Cook, känd som "Hardest Geezer" för sina 1 miljon Instagram-följare, har precis avslutat...