メニュー メニュー

Google の Lumiere はテキスト プロンプトからリアルな AI ビデオを生成します

AI ビデオは不気味の谷から真にリアルなものへと急速に変化しており、Google の Lumiere はこれまでに見た中で最も洗練されたテキストからビデオへのジェネレーターです。

畏怖の念とかなりの不安を呼び起こしながら、Google は最近、わずか数年の開発で AI ビデオがいかに洗練されたかを展示しました。

Bing Image Creator、DALL-E、Midjourney などのテキストから画像へのジェネレーターが 1 行のプロンプトからオリジナルの画像を作成できるのと同じ方法で、Google の 'リュミエール' アプリケーションは、私たちの最も突飛なアイデアを完全にレンダリングされた 5 秒のビデオに変えることができます。

もちろん、テキストをビデオに変換するジェネレーターの他の例はすでに利用可能ですが、Google の試みは、CGI 標準に近い動きの正確な描写を実際に実現する最初の試みです。

これは、ベースフレームを確立し、高く評価されているフレームを使用することでこれを実現します。 STUNet 画像内のアイテムがどこにどのように移動するかを自律的に確立する (Space-Time-U-Net) テクノロジー。選択すると、最初のフレーム内のオブジェクトは、互いにシームレスに流れ込む独自のいくつかのレイヤーで構成されます。

https://youtu.be/wxLr02Dz2Sc

Lumiere は、最も近い競合他社である Stable Video Diffusion が達成していた以前の最大 80 フレームと比較して、画像あたり 25 フレームを生成できます。 Google が発表したいくつかの初期の結果には人工的な部分がありますが、 2022デモ 驚異的です。

テキストからビデオへの変換の他に、静止画に命を吹き込む画像からビデオへの生成、特定の視覚スタイルでビデオを作成できる様式化された生成、および映画の特定の部分をアニメーション化できるシネマグラフ設定もあります。既存のイメージ – たとえば、流れる水、ちらつく火、電車のエンジンからの煙など。

市場戦略の観点から見ると、Lumiere の登場が遅れたことは、Google の流行に遅れた方針と一致しています。生成言語ツールの初期の反復以来 吟遊詩人は失敗しました 昨年、ハイテク巨人はバックグラウンドで生成 AI のマルチモーダル ビジョンを静かに開発しました。

その最新の発表は、GoogleのGemini言語モデルのショーケースに密接に続いており、この分野のベンチマークとしてのChatGPTの王冠に遅れて挑戦する可能性がある。

ビデオ AI の商業的な話題を超えて目を向けると、架空の作品と現実のコンテンツを区別することがますます難しくなっているため、このテクノロジーが悪用される可能性を無視するのは怠慢です。

露骨な性的描写を含む現在進行中の大失敗。 Taylor Swift そして、テキストからビデオへの変換が同様の規模で普及した場合、テキストから画像へのアプリを使用する彼女の肖像は氷山の一角にすぎない可能性があります。

Googleは、Lumiereの公正な使用を保証するための安全策を講じていると保証しているが、論文の著者らはインシデントがどのように防止されるかを正確に承認していない。私たちはこの技術を手に入れたいと思っていますが、それがより大きな虫の缶を開けるかどうかは知りません。

ユーザー補助