Ett nytt AI-system kan skapa en mängd olika bilder både realistiska och surrealistiska från naturliga språkbeskrivningar. Det har potential att förändra spelet, men inte utan några bekymmer.
Algoritmer och AI fortsätter att göra vågor i konstbranschen.
Det senaste genombrottet kommer från en forskargrupp som heter OpenAI, som just har presenterat en ny version av sitt DALL-E-program. Denna programvara är ett verktyg för att skapa text-till-bild som producerar konstverk baserat på en användarinmatad beskrivning.
Visa det här inlägget på Instagram
Passande kallad DALL-E 2, denna nya AI kommer inte att vara tillgänglig för allmänheten, men forskare kan registrera sig för att förhandsgranska dess kapacitet. OpenAI säger att de planerar att göra sin mjukvara tillgänglig för användning i tredjepartsappar så småningom – men inget om när detta kommer att hända.
Tills vidare kommer programmet att testas av granskade partners.
Användare får inte ladda upp genererade bilder som kan "vålla skada" och måste avslöja vad de använder AI till.
Hur fungerar DALL-E 2?
Även om jag inte på något sätt är någon kodningsexpert, men jag Kan bekräfta att DALL-E 2 fungerar med ett förbyggt bildbibliotek. Algoritmen får en mängd taggade bilder och skapar sedan nya konstverk baserat på vad den redan vet.
Säg att du ville skapa en bild av en tiger på en kanot. Konstigt, eller hur? Men DALL-E 2 kommer att söka i sina filer för att hitta hur en "kanot" och en "tiger" båda ser ut, och skapar en enda del som på ett övertygande sätt kombinerar båda.
Visa det här inlägget på Instagram
DALL-E 2 bygger på den första iterationens CLIP, ett datorvisionssystem. OpenAI säger att den här nya programvaran genererar bilder med hjälp av "diffusion", varvid en bit börjar som några punkter och gradvis fylls i med detaljer.
Denna process sker via en tvåstegsmodell. CLIP matchar först din text med andra befintliga fotografier och bilder, sedan genererar en "dekoder" själva bilden.
Ovanstående video ger en kort demonstration av vad som är möjligt, att visa upp AI-genererade katter, realistiskt redigerade versioner av redan existerande bilder och ett komplext system för objektmärkning som gör att DALL-E 2 kan förstå dina meddelanden. Det är verkligen imponerande grejer.
Intressant nog betonar OpenAI att det fortfarande finns fel och problem att reda ut.
Visa det här inlägget på Instagram
Objekt som är felmärkta kan göra att algoritmen producerar felaktiga bilder som inte stämmer överens med textbeskrivningen. Om den i sin kodning har ett redan existerande foto av en bil märkt som ett "plan", till exempel, kan detta leda till att generatorn helt ur kurs och skickar tillbaka en BMW istället för en Boeing.
Dessutom är mycket specifika uppmaningar inte möjliga förrän AI:n har märkt och lärt sig vad de relevanta objekten är.
Om du frågar efter en stad eller sällsynta djurarter kan det resultera i knasiga, felaktiga bilder tills algoritmen har förbättrats. Tänk på att detta bara är den andra iterationen av DALL-E, så vi kommer utan tvekan att se ännu fler sinnesförböjande demos i framtiden.