KI-Video entwickelt sich schnell von einem unheimlichen Tal zu einem wirklich realistischen Video, und Googles Lumiere ist der fortschrittlichste Text-zu-Video-Generator, den wir bisher gesehen haben.
Mit einem Gefühl der Ehrfurcht – und einer großen Portion Unbehagen – hat Google kürzlich gezeigt, wie ausgefeilt KI-Videos in nur wenigen Jahren der Entwicklung geworden sind.
Auf die gleiche Weise, wie Text-zu-Bild-Generatoren wie Bing Image Creator, DALL-E und Midjourney Originalbilder aus einer einzeiligen Eingabeaufforderung erstellen können, bietet Googles „LumiereDie Anwendung kann unsere wildesten Ideen in vollständig gerenderte Fünf-Sekunden-Videos umwandeln.
Andere Beispiele für Text-zu-Video-Generatoren sind zwar bereits verfügbar, aber Googles Versuch ist der erste, eine wirklich genaue Bewegungsdarstellung nahezu auf CGI-Standard zu bringen.
Dies wird erreicht, indem ein Grundrahmen erstellt und dessen vielgepriesenes verwendet wird STUNet (Space-Time-U-Net)-Technologie zur autonomen Festlegung, wohin sich Elemente im Bild bewegen sollen. Nach der Auswahl bestehen Objekte innerhalb dieses anfänglichen Rahmens aus mehreren eigenen Ebenen, die nahtlos ineinander übergehen.
Lumiere ist in der Lage, 80 Bilder pro Bild zu erzeugen, verglichen mit dem vorherigen Maximum von 25, das sein nächster Konkurrent Stable Video Diffusion erreichte. Obwohl mehrere frühe von Google veröffentlichte Ergebnisse einen Hauch von Künstlichkeit an sich haben, ist der Sprung in der Gesamtqualität seitdem so weit 2022-Demo ist umwerfend.
Über die Text-zu-Video-Generierung hinaus gibt es auch die Bild-zu-Video-Generierung, die ein Standbild zum Leben erweckt, die stilisierte Generierung, mit der Videos in einem bestimmten visuellen Stil erstellt werden können, und eine Kinemografen-Einstellung, mit der ein bestimmter Teil eines Bildes animiert werden kann vorhandenes Bild – zum Beispiel fließendes Wasser, ein flackerndes Feuer oder der Rauch einer Lokomotive.
Was die Marktstrategie betrifft, steht die späte Ankunft von Lumiere im Einklang mit Googles modischer Spätpolitik. Seit der frühen Iteration seines generativen Sprachtools Bard floppte Letztes Jahr hat der Technologieriese im Hintergrund seine multimodale Vision für generative KI entwickelt.