メニュー メニュー

新しいAIDALL-E2は、テキストプロンプトから画像を作成します

新しいAIシステムは、自然言語の記述からリアルとシュールの両方のさまざまな画像を作成できます。 それはゲームを変える可能性がありますが、いくつかの懸念がないわけではありません。

アルゴリズムとAIは、アート業界全体に波を起こし続けています。

最新のブレークスルーは、OpenAIと呼ばれる研究チームからのものです。OpenAIは、DALL-Eプログラムの新しいバージョンを発表したばかりです。 このソフトウェアは、ユーザーが入力した説明に基づいてアートワークを生成するテキストから画像への生成ツールです。

適切にDALL-E2と呼ばれるこの新しいAIは一般に公開されませんが、研究者はその機能をプレビューするためにサインアップできます。 OpenAIは、ソフトウェアを最終的にサードパーティのアプリで使用できるようにする予定であると述べていますが、これがいつ行われるかについては何も発表されていません。

今のところ、プログラムは精査されたパートナーによってテストされます。

ユーザーは、「害を及ぼす」可能性のある生成された画像をアップロードすることは許可されておらず、AIの使用目的を開示する必要があります。


DALL-E 2はどのように機能しますか?

私は決してコーディングの専門家ではありませんが、 できる DALL-E2がビルド済みのイメージライブラリを使用して動作することを確認します。 アルゴリズムにはタグ付けされた豊富な画像が与えられ、それがすでに知っていることに基づいて新しいアートワークを作成します。

カヌーに乗った虎の画像を作成したいとします。 変だよね? しかし、DALL-E 2はファイルを検索して、「カヌー」と「トラ」の両方がどのように見えるかを見つけ、両方を納得のいくように組み合わせた単一のピースを作成します。

DALL-E 2は、コンピュータービジョンシステムである最初のイテレーションのCLIPに基づいて構築されています。 OpenAIによると、この新しいソフトウェアは「拡散」を使用して画像を生成します。これにより、ピースは数ドットで始まり、徐々に詳細が入力されます。

このプロセスは、XNUMX段階のモデルを介して行われます。 CLIPは最初にテキストを他の既存の写真や画像と照合し、次に「デコーダー」が画像自体を生成します。

上記のビデオでは、AIで生成された猫、既存の画像のリアルに編集されたバージョン、DALL-E 2がプロンプトを理解できるようにするオブジェクトラベリングの複雑なシステムを紹介し、可能なことを簡単に説明しています。 それは本当に印象的なものです。

興味深いことに、OpenAIは、解決すべきエラーや問題がまだあることを強調しています。

誤ったラベルが付けられたオブジェクトは、アルゴリズムが提供されたテキストの説明と一致しない誤った画像を生成する原因となる可能性があります。 たとえば、コーディング内に「飛行機」というラベルの付いた車の既存の写真がある場合、これにより発電機が完全にコースから外れ、ボーイングの代わりにBMWが返送される可能性があります。

さらに、AIがラベルを付けて、関連するオブジェクトが何であるかを学習するまで、非常に具体的なプロンプトを表示することはできません。

町や希少種の動物を求めると、アルゴリズムが改善されるまで、画像が不安定で不正確になる可能性があります。 これはDALL-EのXNUMX回目の反復にすぎないことを覚えておいてください。したがって、今後さらに多くの心を曲げるデモが見られることは間違いありません。


なぜこれがアーティストに問題を引き起こす可能性がありますか?

DALL-E 2で作成されたアートワークを熟読した後、テクノロジーの可能性に興奮するのは難しいことです。

ただし、潜在的な落とし穴に注意する必要があります。 アーティストは、インターネット時代の仕事でお金を稼ぐのにすでに非常に苦労しています。したがって、NFTの最初の理由です。新しいアルゴリズムベースの画像ツールは、多くの短時間のデジタルイラストレーターを廃業させる可能性があります。

また、オンラインで画像や絵画の信憑性を確認することは非常に困難になり、本物の人間の仕事を切り下げる可能性があります。 インスタント画像ミンティングが可能になり、さらに搾取的なNFT市場が生まれる可能性があります。

誰もがすぐに何かを作れるとしたら、イラストや絵画は商業的価値をすべて失ってしまうのでしょうか? アート自体は、誰もが使用できる単なる別のアプリケーションまたはツールになりますか?

そのような真に画期的なソフトウェアの意味については、実存的な大きな疑問がありますが、その多くには答えがありません。

OpenAIの功績によると、 危険をよく知っている。 DALL-E 2が完全に一般に公開されることはなく、フィードバックに基づいて信頼できる研究者やパートナーにゆっくりと展開されるだけであると書かれています。 ユーザーは、ソフトウェアを使用している理由を説明する必要があり、わいせつまたは有害な画像を作成することはできません。

誤った情報や偽造された画像が、私たちの政治システムやオンラインの言説にさらなる混乱を引き起こさないようにしたいのです。

これらの意図は十分に聞こえるかもしれませんが、他のあまり意味のないコーダーがOpenAIの作業を単純にコピーしないと誰が言うのでしょうか。 明らかにこの概念に基づいた、昨年のWombo'sDreamのリリースと呼ばれるXNUMXつのアプリケーションをすでに見ました。

あなたはそれにアクセスすることができます たった今 –ただし、DALL-E2よりもはるかに洗練されていません。

最終的に、このテクノロジーがアートの世界にどのような影響を与えるかはわかりません。 私たちが何をしたかo 物事が恐ろしく印象的になっていることを知っています、おそらく少し不気味の谷ですら。 今のところ、OpenAIは責任を持って製品を展開しているようです。これは、この初期段階で期待できる最善の方法です。

ユーザー補助