マルチモーダル生成AI「Gemini」とは?性能や種類、どこで使えるかを解説!

📁
マルチモーダル生成AI「Gemini」とは?性能や種類、どこで使えるかを解説!

2023年12月、Googleは最新のマルチモーダル生成AIモデル「Gemini」を公開して大きな話題を呼びました。

ただ、「Gemini」って聞いたことあるけど、

  • Google Geminiってなに?」
  • Google Geminiの性能はどれくらい高いの?
  • Google Geminiはどこで使えるの?」

という疑問をお持ちの方も多いのではないでしょうか?

この記事は、Googleの「Gemini」とはなにか?、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説します。

この記事を最後まで読んで、「Gemini」を試してみましょう。

Googleの最新マルチモーダルAI「Gemini」とは?

「Gemini」は、Googleの最新のマルチモーダル生成AIモデルで、テキストだけでなく音声、画像、動画、コードを理解し、それらを組み合わせて操作することができます。

「Gemini」の読み方は、「ジェミニ」と読まれることが多いですが、より英語に近い読み方として「ジェミナイ」よ読むこともあり、どちらも正しいです。

マルチモーダル生成AIとは
マルチモーダルAIは、テキスト、音声、画像、動画など、2つ以上の異なるデータの種類を理解して、組み合わせて操作できる生成AIモデルです。
マルチモーダル生成AIによって、例えば画像を認識してテキストを生成したり、テキストから音声を生成したりすることが可能になります。
OpenAIの「ChatGPT Plus」のAll Toolsもマルチモーダル生成AIの一つです。

Googleが発表したGeminiの公式動画は以下です。

「Gemini」でどんなことができるのか?をイメージするには以下の動画が役に立つでしょう
(※)ただし、デモ動画用に盛られた演出になっています。


「Gemini」の3つのモデル

Geminiは、「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルが用意されています。

モデルの性能的には、Gemini NanoGemini ProGemini Ultra(最高性能)、です。

  • Gemini Nano: デバイス上のタスクに最も効率的なモデルです。Google Pixel 8 Proに搭載
  • Gemini Pro:幅広いタスクに対応する最良のモデルです。Gemini(旧Google Bard)に搭載
  • Gemini Ultra:非常に複雑なタスクに対応する高性能かつ最大のモデルです。24年2月公開のGemini Advancedに搭載。


Gemini Ultra」の性能はどれくらい高いのか?

Gemini最高性能モデル「Gemini Ultra」は、LLM(大規模言語モデル)のパフォーマンス評価の32 のベンチマークのうち 30 で、既存の最高水準の結果を上回ったといいます。

「Gemini Ultra」 は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルとのことです。

下表は、「Gemini Ultra」とOpenAIのGPT-4とのパフォーマンス比較です。
複数の項目で、GPT-4を上回るパフォーマンスを出したことが見て取れます。

出典:Google Japan Blog


「Gemini」はどこで利用できるのか?

「Gemini」は、

  • Gemini NanoGoogle Pixel 8 Pro
  • Gemini Pro GeminiGoogle Bard
  • Gemini UltraGemini Advanced

で、利用できます。

特段の設定等は必要なく標準モデルとして搭載されているので、Gemini(Google Bard)やGemini Advancedのアカウントを作成したら、そのまま使用できます。

ここで、Geminiがたくさん出てきて、少しややこしく感じる方もいあるかもしれませんので、整理します。

Gemini Nano、Genmi Pro、Gemini Ultraの3つはマルチモーダル生成AIモデルの名称です。

一方、Gemini(Google Bard)とGemini Advancedは、Geminiのマルチモーダル生成AIモデルが搭載されたAIサービスです。

似たような例では、GPT-4、GPT-3.5などは大規模言語モデル、ChatGPTやChatGPT Plusはそれらの大規模言語モデルが搭載されたAIサービス、というのと同じような関係です。

今後、Gemini はGoogle 検索、広告、Chrome、Duet AI などの Google の主要な製品やサービスで利用できる予定です。

また、開発者と企業は、12 月 13 日よりGoogle AI Studio または Vertex AI の Gemini API を介して 「Gemini Pro」 にアクセスできるようになっています。


【あわせて読みたい】Gemini(旧Google Bard)とは?日本語版の使い方を徹底解説!

「Gemini Pro」が搭載されたAIサービスGemini(旧Google Bard )の使い方や何ができるのか、アカウント作成方法については、以下の記事で解説しているので参考にしてみてください。


まとめ

この記事は、Googleの「Gemini」とはなにか?、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説しました。

「Gemini」についてまとめると、以下の通りです。

まとめ
・「Gemini」は、Googleの最新のマルチモーダル生成AIモデル
・「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルがある
・最高性能モデル「Gemini Ultra」は、32項目中 30項目 で既存の最高水準の結果を上回った
・MMLUで 90.00% をスコアし、GPT-4を上回るパフォーマンスを出した
「Gemini Nano」は、 Google Pixel 8 Proで利用できる
・「Gemini Pro」は、Gemini(旧Google Bard)で利用できる
・「Gemini Pro」は、Gemini Advancedで利用できる

この記事を参考に、「Gemini」を試してみましょう。


「ChatGPTマガジン」を運営するゴートマン合同会社は、クライアント様ごとの課題やニーズに応じたChatGPTの導入・活用のコンサルティングやChatGPTカスタマイズ開発などをご提供しています。

ご興味のある企業様はお問い合わせフォームよりお気軽にご相談ください。