Video AI dengan cepat berubah dari lembah yang luar biasa menjadi benar-benar realistis, dan Lumiere dari Google adalah generator teks-ke-video paling canggih yang pernah kami lihat hingga saat ini.
Membangkitkan rasa kagum – dan banyak kegelisahan – Google baru-baru ini menunjukkan betapa canggihnya video AI hanya dalam beberapa tahun pengembangan.
Dengan cara yang sama seperti generator teks-ke-gambar seperti Bing Image Creator, DALL-E, dan Midjourney dapat membuat gambar asli dari perintah satu baris, 'lumiereAplikasi ' dapat mengubah ide terliar kita menjadi video berdurasi lima detik yang dirender sepenuhnya.
Contoh lain dari generator teks-ke-video sudah tersedia, tetapi upaya Google adalah yang pertama untuk benar-benar memberikan gambaran akurat tentang pergerakan hingga mendekati standar CGI.
Hal ini dicapai dengan membangun kerangka dasar dan menggunakan kerangka yang sangat digembar-gemborkan STUNet Teknologi (Space-Time-U-Net) yang secara mandiri menentukan di mana objek dalam gambar harus bergerak. Setelah dipilih, objek dalam bingkai awal tersebut kemudian terdiri dari beberapa lapisannya sendiri yang mengalir satu sama lain dengan mulus.
Lumiere mampu menghasilkan 80 frame per gambar dibandingkan dengan maksimum sebelumnya yaitu 25 frame yang dicapai oleh pesaing terdekatnya, Stable Video Diffusion. Meskipun beberapa hasil awal yang dirilis oleh Google memiliki sentuhan kepalsuan, terjadi lompatan dalam kualitas secara keseluruhan sejak hasil tersebut BUKAN demo mengejutkan.
Selain teks-ke-video, ada juga generasi gambar-ke-video yang akan menghidupkan gambar diam, generasi bergaya, yang dapat membuat video dengan gaya visual tertentu, dan pengaturan sinematografi yang dapat menganimasikan bagian tertentu dari sebuah video. gambaran yang ada – seperti air yang mengalir, kerlap-kerlip api, atau asap dari mesin kereta api, misalnya.
Dalam hal strategi pasar, keterlambatan kedatangan Lumiere sejalan dengan kebijakan Google yang sangat terlambat. Sejak iterasi awal alat bahasa generatifnya Bard terjatuh tahun lalu, raksasa teknologi ini diam-diam mengembangkan visi multimodalnya untuk AI generatif.