Yapay zeka videosu, esrarengiz vadiden gerçek anlamda gerçekçiliğe hızla dönüşüyor ve Google'ın Lumiere'si bugüne kadar gördüğümüz en gelişmiş metinden videoya dönüştürme aracıdır.
Bir huşu duygusu ve yüksek dozda bir rahatsızlık uyandıran Google, geçtiğimiz günlerde yapay zeka videolarının yalnızca birkaç yıllık geliştirme sürecinde ne kadar karmaşık hale geldiğini gösterdi.
Bing Image Creator, DALL-E ve Midjourney gibi metinden görüntüye dönüştürme araçlarının tek satırlık bir bilgi isteminden orijinal görüntüler oluşturabildiği gibi, Google'ın 'lumiere' uygulaması en çılgın fikirlerimizi tamamen oluşturulmuş beş saniyelik videolara dönüştürebilir.
Metinden videoya dönüştürme araçlarının diğer örnekleri zaten mevcuttur, ancak Google'ın girişimi, hareketin doğru bir tasvirini neredeyse CGI standardına gerçekten çivileyen ilk girişimdir.
Bunu bir taban çerçevesi kurarak ve çokça lanse edilen özelliğini kullanarak başarır. STUNet (Space-Time-U-Net) teknolojisi, görüntüdeki öğelerin nereye nasıl hareket etmesi gerektiğini otonom olarak belirlemeyi sağlar. Bir kez seçildikten sonra, bu başlangıç çerçevesi içindeki nesneler, birbirine kusursuz bir şekilde akan, kendilerine ait birkaç katmandan oluşur.
Lumiere, en yakın rakibi Stable Video Diffusion'ın elde ettiği önceki maksimum 80 kareye kıyasla görüntü başına 25 kare üretebiliyor. Google tarafından yayınlanan bazı ilk sonuçlarda bir miktar yapaylık bulunsa da, piyasaya sürülmesinden bu yana genel kalitedeki sıçrama Demo değil şaşırtıcı.
Metinden videoya aktarmanın ötesinde, durağan bir resme hayat verecek görüntüden videoya oluşturma, belirli bir görsel tarzda videolar oluşturabilen stilize oluşturma ve bir görüntünün belirli bir bölümünü canlandırabilen bir sinemagraf ortamı da bulunmaktadır. mevcut görüntü – örneğin akan su, titreşen bir ateş veya bir tren motorundan çıkan duman gibi.
Pazar stratejisi açısından Lumiere'in geç gelişi, Google'ın modaya uygun geç politikasıyla örtüşüyor. Üretken dil aracının ilk yinelemesinden bu yana Bard başarısız oldu Geçtiğimiz yıl teknoloji devi, arka planda üretken yapay zekaya yönelik multimodal vizyonunu sessizce geliştirdi.