MENÜ MENÜ

Googles Lumiere generiert aus Textansagen realistische KI-Videos

KI-Video entwickelt sich schnell von einem unheimlichen Tal zu einem wirklich realistischen Video, und Googles Lumiere ist der fortschrittlichste Text-zu-Video-Generator, den wir bisher gesehen haben.

Mit einem Gefühl der Ehrfurcht – und einer großen Portion Unbehagen – hat Google kürzlich gezeigt, wie ausgefeilt KI-Videos in nur wenigen Jahren der Entwicklung geworden sind.

Auf die gleiche Weise, wie Text-zu-Bild-Generatoren wie Bing Image Creator, DALL-E und Midjourney Originalbilder aus einer einzeiligen Eingabeaufforderung erstellen können, bietet Googles „LumiereDie Anwendung kann unsere wildesten Ideen in vollständig gerenderte Fünf-Sekunden-Videos umwandeln.

Andere Beispiele für Text-zu-Video-Generatoren sind zwar bereits verfügbar, aber Googles Versuch ist der erste, eine wirklich genaue Bewegungsdarstellung nahezu auf CGI-Standard zu bringen.

Dies wird erreicht, indem ein Grundrahmen erstellt und dessen vielgepriesenes verwendet wird STUNet (Space-Time-U-Net)-Technologie zur autonomen Festlegung, wohin sich Elemente im Bild bewegen sollen. Nach der Auswahl bestehen Objekte innerhalb dieses anfänglichen Rahmens aus mehreren eigenen Ebenen, die nahtlos ineinander übergehen.

https://youtu.be/wxLr02Dz2Sc

Lumiere ist in der Lage, 80 Bilder pro Bild zu erzeugen, verglichen mit dem vorherigen Maximum von 25, das sein nächster Konkurrent Stable Video Diffusion erreichte. Obwohl mehrere frühe von Google veröffentlichte Ergebnisse einen Hauch von Künstlichkeit an sich haben, ist der Sprung in der Gesamtqualität seitdem so weit 2022-Demo ist umwerfend.

Über die Text-zu-Video-Generierung hinaus gibt es auch die Bild-zu-Video-Generierung, die ein Standbild zum Leben erweckt, die stilisierte Generierung, mit der Videos in einem bestimmten visuellen Stil erstellt werden können, und eine Kinemografen-Einstellung, mit der ein bestimmter Teil eines Bildes animiert werden kann vorhandenes Bild – zum Beispiel fließendes Wasser, ein flackerndes Feuer oder der Rauch einer Lokomotive.

Was die Marktstrategie betrifft, steht die späte Ankunft von Lumiere im Einklang mit Googles modischer Spätpolitik. Seit der frühen Iteration seines generativen Sprachtools Bard floppte Letztes Jahr hat der Technologieriese im Hintergrund seine multimodale Vision für generative KI entwickelt.

Seine jüngste Ankündigung folgt eng auf eine Präsentation des Gemini-Sprachmodells von Google, das voraussichtlich eine späte Herausforderung für ChatGPTs Krone als Benchmark für die Branche darstellen wird.

Abgesehen von der kommerziellen Begeisterung für Video-KI wäre es nachlässig, das Missbrauchspotenzial der Technologie zu ignorieren, da es immer schwieriger wird, fiktive Werke von realen Inhalten zu unterscheiden.

Das anhaltende Debakel um sexuell eindeutige Darstellungen von Taylor Swift und ihre Ähnlichkeit mit Text-zu-Bild-Apps könnte nur die Spitze des Eisbergs sein, wenn Text-zu-Video in ähnlichem Ausmaß durchstartet.

Google versichert, Sicherheitsvorkehrungen zu treffen, um eine faire Nutzung von Lumiere zu gewährleisten, die Autoren des Papiers haben jedoch nicht genau festgelegt, wie Vorfälle verhindert werden sollen. Wir sind sehr daran interessiert, die Technologie in die Hände zu bekommen, aber nicht, wenn sie ein größeres Büchse voller Würmer öffnet.

Zugänglichkeit