【Midjourney超え?】OpenAIの画像生成AI「DALL-E」の最新バージョン「DALL-E3」が年内リリースか?

【Midjourney超え?】OpenAIの画像生成AI「DALL-E」の最新バージョン「DALL-E3」が年内リリースか?

OpenAIの画像生成AI「DALL-E」の次世代バージョン「DALL-E3」がリリース準備中で、現在一部のユーザー限定のアルファテストを実施中との情報が公開されました。

「DALL-E3」は、画像生成AI大手の「Midjourney」や「Stable Diffusion」よりも高性能との見方もあり世界的に注目されています。

この記事では、「DALL-E」の次世代バージョン「DALL-E3」の最新情報について詳しく解説します。

OpenAIの最新モデル「DALL-E3」をリリースか?

YouTuberのMattVidPro AIが昨日「We’ve NEVER seen Image Generation This Good!」というタイトルの動画を投稿し、OpenAIの画像生成AI「DALL-E」の次世代バージョン「DALL-E3」がリリース準備中で、現在一部のユーザー限定のアルファテストを実施中との情報を公開しました。

動画の中でMAttは、OpenAIの画像生成AI「DALL-E3」に関する情報はDiscordのチャンネルにいる匿名ユーザーから提供されたもので、そのユーザーは世界で400人しかいないDALL-Eの最新バージョン(DALL-E3)のクローズドなアルファテストに参加するユーザーだということです。

「DALL-E3」のアルファテストに参加する同匿名ユーザーによると、メールで招待され5月からアルファテストに参加している。5月のアルファ版と7月のアルファ版を比較したところ、7月のアルファ版では性能が大幅に向上しているとのことです。

同匿名ユーザーは、同じプロンプト(テキスト)で生成される画像を「DALL-E」の5月アルファ版、7月アルファ版、Midjourneyの3つのAIで比較しました。
プロンプトは、「ピンクの道化師がパンダと自転車レースをしていてハイタッチする絵。自転車はチーズでできており、地面はとても泥だらけだ。それらは霧の森の中を進んでいる。パンダは怒っている。」といった内容です。

「DALL-E」の5月アルファ版は、プロンプトのほとんどのポイントを捉えた一般的な場面を生成します。手がつながる部分に少し歪みがあり、自転車のタイヤはチーズではなく黄色と不完全です。

しかし、7月アルファ版になると、はるかに詳細でピンクの道化師とパンダがはっきりとハイタッチしており、複数の生成でチーズの自転車のタイヤが確認できるまで改善しました。

一方Midjourneyでは、道化師が場面から消え、パンダはオートバイに乗っており、泥ではなく道路があり、パンダの表情は怒っておらず、「DALL-E」7月アルファ版に比べて不完全なクオリティだったといいます。

▼以下の画像はOpenAIの「DALL-E3」7月アルファ版で生成されたパンダと道化師の画像

OpenAIの「DALL-E3」7月アルファ版で生成されたパンダと道化師の画像

Mattは、動画の中で次のように語っています。

これはAIによる画像生成の未来の片鱗を窺い知ることができる。これほどのクオリティのAI画像生成はこれまでに例がありません。Midjourneyはこのレベルには及ばない、と断言できる。

典:Youtuber MattVidPro AIの動画「We’ve NEVER seen Image Generation This Good!」

「DALL-E 2」は1年以上前の技術で、MidjourneyやStable Diffusionに比べて見劣りするというのが一般的な評価です。

しかし、Mattは「OpenAIはDALL-Eの開発を止めておらず、市場にあるどのモデルより優れた画像合成モデル「DALL-E3」を近々公開する可能性がある」と主張しています。

他社が苦手なテキスト生成能力が大幅に向上

「DALL-E3」は、Stable DiffusionやMidjourneyなどのライバルモデルでも課題となっている高品質なテキスト生成能力を示しました。

レンガの壁に文字がメルトされた画像、ネオンサインの文字、街の広告看板、ケーキのデコレーション、山に刻まれた名前などの例が紹介されました。

▼「DALL-E3」によって生成された、完璧に近い文字とスペルの商品パッケージの画像

「DALL-E3」によって生成された、完璧に近い文字とスペルの商品パッケージの画像

▼「DALL-E3」によって生成された「グランド・セフト・オートV」のPS4ディスクケースの商品写真

「DALL-E3」によって生成された「グランド・セフト・オートV」のPS4ディスクケースの商品写真

Mattは「現在の(Stable DiffusionやMidjourneyなどの)AI画像生成モデルのほとんどは、このように整合性のあるテキストを生成することはできない」と指摘しています。

安全性や著作権などの対策が必要

Mattによると、この最新のDALL-Eモデルはまだ最終版ではなく、すべての安全機能が削除されているため、「暴力、ヌードなどの画像や、キャラクターや企業ロゴなどの著作権物」も画像も生成可能だとのことです。

「著作権のあるアートや資料の完全なコピーが可能です。キャラクターやロゴ、セレブの正確な描写、極端な暴力の完全な描写ができます」
「明らかに微調整と安全対策が必要です」

出典:Youtuber MattVidPro AIの動画「We’ve NEVER seen Image Generation This Good!」

▼プロンプトで「土の中で発見されるシュレック」と指示して生成された画像

プロンプトで「土の中で発見されるシュレック」と指示して生成された画像

「DALL-E3」の正式リリースは?

Mattは、「DALL-E3」のリリースについて次のように言及しています。

「DALL-E 3」は年内にリリースされ、市場に出回っている他のモデルを「打ちのめす」可能性があると予測しています。

出典:Youtuber MattVidPro AIの動画「We’ve NEVER seen Image Generation This Good!」

ただ、現時点「DALL-E3」のリリース予定について、OpenAIはまだ公式な情報を出していないため具体的なリリース予定はまだ不明です。

Stable DiffusionやMidjourneyなどの画像生成AIを超える新たな画像生成AIが誕生するのか注目されます。