Meny Meny

Googles Lumiere genererar realistiska AI-videor från textmeddelanden

AI-video förvandlas snabbt från kuslig dal till genuint realistisk, och Googles Lumiere är den mest sofistikerade text-till-video-generator vi har sett hittills.

Google framkallade en känsla av vördnad – och en rejäl dos oro – Google visade nyligen hur sofistikerad AI-video har blivit på bara några år av utveckling.

På samma sätt som text-till-bild-generatorer som Bing Image Creator, DALL-E och Midjourney kan skapa originalbilder från en enradsuppmaning, Googles 'lumiere' applikation kan förvandla våra vildaste idéer till fullständigt renderade fem sekunders videor.

Andra exempel på text-till-video-generatorer finns redan tillgängliga, men Googles försök är det första som verkligen spikar en korrekt bild av rörelse till en nära CGI-standard.

Den uppnår detta genom att skapa en basram och använda dess mycket framstående STUNet (Space-Time-U-Net) teknologi för att självständigt fastställa var är hur objekt i bilden ska flyttas. När de väl har valts består objekt inom den initiala ramen av flera egna lager som flyter in i varandra sömlöst.

https://youtu.be/wxLr02Dz2Sc

Lumiere kan generera 80 bildrutor per bild jämfört med det tidigare maximum på 25 som uppnåddes av sin närmaste konkurrent Stable Video Diffusion. Även om flera tidiga resultat som släppts av Google har en touch av konstgjordhet, är språnget i övergripande kvalitet sedan dess INTE en demo är häpnadsväckande.

Utöver text-till-video, finns det också bild-till-video-generering som kommer att ge liv till en stillbild, stiliserad generering, som kan skapa videor i en specifik visuell stil, och en filminställning som kan animera en specifik del av en befintlig bild – som rinnande vatten, en fladdrande eld eller rök från en tågmotor, till exempel.

När det gäller marknadsstrategi faller den sena ankomsten av Lumiere i linje med Googles trendmässigt sena policy. Sedan den tidiga iterationen av dess generativa språkverktyg Bard floppade förra året har teknikjätten i tysthet utvecklat sin multimodala vision för generativ AI i bakgrunden.

Dess senaste tillkännagivande följer noga ett uppvisningsfönster för Googles Gemini-språkmodell, som är tippad att göra en sen utmaning för ChatGPTs krona som riktmärke för sektorn.

Om man ser bortom det kommersiella buzzet för video-AI, skulle det vara försumligt att ignorera teknikens potential för missbruk eftersom det blir svårare att skilja fiktiva verk från verkligt innehåll.

Det pågående debaclet som involverar sexuellt explicita skildringar av Taylor Swift och hennes likhet med text-till-bild-appar kan vara bara toppen av isberget om text-till-video tar fart i en liknande skala.

Google försäkrar att det skapar skyddsåtgärder för att säkerställa rättvis användning av Lumiere, men tidningens författare har inte ratificerat exakt hur incidenter kommer att förhindras. Vi är angelägna om att lägga vantarna på tekniken, men inte om den kommer att öppna en större burk med maskar.

Tillgänglighet