Meny Meny

Googles Lumiere genererer realistiske AI-videoer fra tekstmeldinger

AI-video går raskt fra uhyggelig dal til virkelig realistisk, og Googles Lumiere er den mest sofistikerte tekst-til-video-generatoren vi har sett til dags dato.

Google fremkalte en følelse av ærefrykt – og en stor dose uro – og viste nylig hvor sofistikert AI-video har blitt på bare noen få år med utvikling.

På samme måte som tekst-til-bilde-generatorer som Bing Image Creator, DALL-E og Midjourney kan lage originale bilder fra en enkeltlinjes melding, Googles 'Lumiere'-applikasjonen kan gjøre våre villeste ideer til fullstendig gjengitte videoer på fem sekunder.

Andre eksempler på tekst-til-video-generatorer er allerede tilgjengelige, gitt, men Googles forsøk er det første som virkelig fanger en nøyaktig fremstilling av bevegelse til en nesten CGI-standard.

Den oppnår dette ved å etablere en bunnramme og bruke den svært utpekte STUNet (Space-Time-U-Net) teknologi for autonomt å fastslå hvor er hvordan elementer i bildet skal bevege seg. Når de er valgt, består objekter innenfor den innledende rammen av flere egne lag som flyter sømløst inn i hverandre.

https://youtu.be/wxLr02Dz2Sc

Lumiere er i stand til å generere 80 bilder per bilde sammenlignet med forrige maksimum på 25 oppnådd av sin nærmeste konkurrent Stable Video Diffusion. Selv om flere tidlige resultater utgitt av Google har et snev av kunstighet over seg, er spranget i generell kvalitet siden det IKKE en demo er svimlende.

Utover tekst-til-video, er det også bilde-til-video-generering som vil bringe et stillbilde til live, stilisert generasjon, som kan lage videoer i en bestemt visuell stil, og en kinografinnstilling som kan animere en bestemt del av en eksisterende bilde – som rennende vann, en flimrende brann eller røyk fra en togmotor, for eksempel.

Når det gjelder markedsstrategi, faller den sene ankomsten av Lumiere i tråd med Googles moteriktige sene policy. Siden den tidlige iterasjonen av det generative språkverktøyet Bard floppet i fjor har teknologigiganten i det stille utviklet sin multimodale visjon for generativ AI i bakgrunnen.

Den siste kunngjøringen følger tett et utstillingsvindu for Googles Gemini-språkmodell, som er tippet til å gjøre en sen utfordring for ChatGPTs krone som målestokk for sektoren.

Ser man utover den kommersielle buzzen for video-AI, ville det være upassende å ignorere teknologiens potensiale for misbruk ettersom det blir vanskeligere å skille fiktive verk fra virkelighetsinnhold.

Den pågående debakelen som involverer seksuelt eksplisitte skildringer av Taylor Swift og hennes likhet med tekst-til-bilde-apper kan være bare toppen av isfjellet hvis tekst-til-video tar av på en lignende skala.

Google forsikrer at det skaper sikkerhetstiltak for å sikre rettferdig bruk av Lumiere, men avisens forfattere har ikke ratifisert nøyaktig hvordan hendelser skal forhindres. Vi er opptatt av å få tak i teknologien, men ikke om den vil åpne en større boks med ormer.

tilgjengelighet