Menu Menu

Lumiere di Google genera video AI realistici da istruzioni di testo

I video AI si stanno rapidamente trasformando da Uncanny Valley a genuinamente realistici, e Lumiere di Google è il generatore di testo in video più sofisticato che abbiamo visto fino ad oggi.

Evocando un senso di stupore – e una forte dose di disagio – Google ha recentemente dimostrato quanto siano diventati sofisticati i video basati sull’intelligenza artificiale in pochi anni di sviluppo.

Allo stesso modo in cui i generatori di testo in immagine come Bing Image Creator, DALL-E e Midjourney possono creare immagini originali da un prompt di una sola riga, il "Lumiere' può trasformare le nostre idee più sfrenate in video di cinque secondi completamente renderizzati.

Altri esempi di generatori di testo in video sono già disponibili, è scontato, ma il tentativo di Google è il primo a inchiodare una rappresentazione accurata del movimento a uno standard vicino al CGI.

Raggiunge questo obiettivo stabilendo un telaio di base e utilizzando il suo tanto pubblicizzato STUNet (Space-Time-U-Net) per stabilire autonomamente dove dovrebbero muoversi gli elementi nell'immagine. Una volta selezionati, gli oggetti all'interno di quella cornice iniziale comprendono diversi livelli che confluiscono l'uno nell'altro senza soluzione di continuità.

Lumiere è in grado di generare 80 fotogrammi per immagine rispetto al precedente massimo di 25 raggiunto dal suo concorrente più vicino Stable Video Diffusion. Sebbene molti dei primi risultati rilasciati da Google abbiano un tocco di artificiosità, il salto di qualità generale è avvenuto da allora NON una demo è sbalorditivo.

Oltre al testo in video, c'è anche la generazione di immagini in video che darà vita a un'immagine fissa, la generazione stilizzata, che può creare video in uno stile visivo specifico, e un'impostazione cinematografica in grado di animare una parte specifica di un'immagine. immagine esistente, come ad esempio l'acqua che scorre, un fuoco tremolante o il fumo di una locomotiva ferroviaria.

In termini di strategia di mercato, l'arrivo tardivo di Lumiere è in linea con la politica tardiva di Google. Fin dalla prima iterazione del suo strumento di linguaggio generativo Bard ha floppato l’anno scorso, il colosso della tecnologia ha sviluppato silenziosamente la sua visione multimodale per l’intelligenza artificiale generativa in background.

Il suo ultimo annuncio segue da vicino una vetrina per il modello linguistico Gemini di Google, che è destinato a sfidare tardivamente la corona di ChatGPT come punto di riferimento per il settore.

Guardando oltre il clamore commerciale per l’intelligenza artificiale video, sarebbe negligente ignorare il potenziale di abuso della tecnologia poiché diventa più difficile distinguere le opere di fantasia dai contenuti della vita reale.

La debacle in corso che coinvolge rappresentazioni sessualmente esplicite di Taylor Swift e la sua somiglianza con le app di conversione del testo in immagine potrebbe essere solo la punta dell'iceberg se il conversione del testo in video decolla su una scala simile.

Google assicura che sta creando tutele per garantire un uso corretto di Lumiere, ma gli autori del documento non hanno ratificato esattamente come verranno prevenuti gli incidenti. Siamo ansiosi di mettere le mani sulla tecnologia, ma non se aprirà un vaso di vetro più grande.

Accessibilità