Ein neues KI-System kann aus Beschreibungen in natürlicher Sprache eine Vielzahl realistischer und surrealer Bilder erstellen. Es hat das Potenzial, das Spiel zu verändern, aber nicht ohne Bedenken.
Algorithmen und KI schlagen weiterhin Wellen in der Kunstindustrie.
Der neueste Durchbruch kommt von einem Forschungsteam namens OpenAI, das gerade eine neue Version seines DALL-E-Programms vorgestellt hat. Diese Software ist ein Text-zu-Bild-Generierungstool, das Kunstwerke basierend auf einer vom Benutzer eingegebenen Beschreibung erstellt.
Sieh diesen Beitrag auf Instagram
Diese neue KI mit dem treffenden Namen DALL-E 2 wird der Öffentlichkeit nicht zugänglich sein, aber Forscher können sich anmelden, um eine Vorschau ihrer Fähigkeiten zu erhalten. OpenAI plant, seine Software irgendwann für die Verwendung in Apps von Drittanbietern verfügbar zu machen – obwohl kein Wort darüber bekannt ist, wann dies geschehen wird.
Vorerst wird das Programm von geprüften Partnern getestet.
Benutzer dürfen keine generierten Bilder hochladen, die „Schäden anrichten“ könnten, und müssen offenlegen, wofür sie die KI verwenden.
Wie funktioniert DALL-E 2?
Ich bin zwar kein Programmierexperte, aber ich kann Bestätigen Sie, dass DALL-E 2 mit einer vorgefertigten Bildbibliothek arbeitet. Der Algorithmus erhält eine Fülle von markierten Bildern und erstellt dann basierend auf dem, was er bereits weiß, neue Kunstwerke.
Angenommen, Sie wollten ein Bild von einem Tiger auf einem Kanu erstellen. Verrückt oder? Aber DALL-E 2 wird seine Dateien durchsuchen, um herauszufinden, wie ein „Kanu“ und ein „Tiger“ aussehen, und ein einziges Stück schaffen, das beide überzeugend kombiniert.
Sieh diesen Beitrag auf Instagram
DALL-E 2 baut auf dem CLIP der ersten Iteration auf, einem Computer-Vision-System. OpenAI sagt, dass diese neue Software Bilder durch „Diffusion“ erzeugt, wobei ein Stück mit ein paar Punkten beginnt und allmählich mit Details gefüllt wird.
Dieser Prozess erfolgt über ein zweistufiges Modell. CLIP gleicht Ihren Text zunächst mit anderen vorhandenen Fotos und Bildern ab, dann generiert ein „Decoder“ das Bild selbst.
Das obige Video zeigt kurz, was möglich ist, und zeigt KI-generierte Katzen, realistisch bearbeitete Versionen bereits vorhandener Bilder und ein komplexes System der Objektkennzeichnung, mit dem DALL-E 2 Ihre Eingabeaufforderungen verstehen kann. Es ist wirklich beeindruckendes Zeug.
Interessanterweise betont OpenAI, dass es immer noch Fehler und Probleme gibt, die ausgebügelt werden müssen.
Sieh diesen Beitrag auf Instagram
Falsch beschriftete Objekte können dazu führen, dass der Algorithmus falsche Bilder erzeugt, die nicht mit der bereitgestellten Textbeschreibung übereinstimmen. Wenn in seiner Codierung beispielsweise ein bereits vorhandenes Foto eines Autos mit der Aufschrift „Flugzeug“ vorhanden ist, kann dies den Generator völlig vom Kurs abbringen und einen BMW statt einer Boeing zurückschicken.
Außerdem sind sehr spezifische Eingabeaufforderungen erst möglich, wenn die KI die relevanten Objekte gekennzeichnet und gelernt hat.
Die Frage nach einer Stadt oder einer seltenen Tierart kann zu wackeligen, falschen Bildern führen, bis der Algorithmus verbessert wurde. Denken Sie daran, dass dies erst die zweite Iteration von DALL-E ist, daher werden wir in Zukunft zweifellos noch mehr umwerfende Demos sehen.