マルチモーダル生成AI「Gemini」とは？性能や種類、どこで使えるかを解説！

2023年12月、Googleは最新のマルチモーダル生成AIモデル「Gemini」を公開して大きな話題を呼びました。

ただ、「Gemini」って聞いたことあるけど、

「Google Geminiってなに？」
「Google Geminiの性能はどれくらい高いの？」
「Google Geminiはどこで使えるの？」

という疑問をお持ちの方も多いのではないでしょうか？

この記事は、Googleの「Gemini」とはなにか？、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説します。

この記事を最後まで読んで、「Gemini」を試してみましょう。

Googleの最新マルチモーダルAI「Gemini」とは？

「Gemini」は、Googleの最新のマルチモーダル生成AIモデルで、テキストだけでなく音声、画像、動画、コードを理解し、それらを組み合わせて操作することができます。

「Gemini」の読み方は、「ジェミニ」と読まれることが多いですが、より英語に近い読み方として「ジェミナイ」よ読むこともあり、どちらも正しいです。

マルチモーダル生成AIとは
マルチモーダルAIは、テキスト、音声、画像、動画など、2つ以上の異なるデータの種類を理解して、組み合わせて操作できる生成AIモデルです。
マルチモーダル生成AIによって、例えば画像を認識してテキストを生成したり、テキストから音声を生成したりすることが可能になります。
OpenAIの「ChatGPT Plus」のAll Toolsもマルチモーダル生成AIの一つです。

Googleが発表したGeminiの公式動画は以下です。

「Gemini」でどんなことができるのか？をイメージするには以下の動画が役に立つでしょう
（※）ただし、デモ動画用に盛られた演出になっています。

「Gemini」の3つのモデル

Geminiは、「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルが用意されています。

モデルの性能的には、Gemini Nano ＜ Gemini Pro ＜ Gemini Ultra（最高性能）、です。

Gemini Nano： デバイス上のタスクに最も効率的なモデルです。Google Pixel 8 Proに搭載。
Gemini Pro：幅広いタスクに対応する最良のモデルです。Gemini（旧Google Bard）に搭載。
Gemini Ultra：非常に複雑なタスクに対応する高性能かつ最大のモデルです。24年2月公開のGemini Advancedに搭載。

「Gemini Ultra」の性能はどれくらい高いのか？

Gemini最高性能モデル「Gemini Ultra」は、LLM（大規模言語モデル）のパフォーマンス評価の32 のベンチマークのうち 30 で、既存の最高水準の結果を上回ったといいます。

「Gemini Ultra」は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルとのことです。

下表は、「Gemini Ultra」とOpenAIのGPT-4とのパフォーマンス比較です。
複数の項目で、GPT-4を上回るパフォーマンスを出したことが見て取れます。

「Gemini」はどこで利用できるのか？

「Gemini」は、

Gemini Nano → Google Pixel 8 Pro
Gemini Pro → Gemini（Google Bard）
Gemini Ultra → Gemini Advanced

で、利用できます。

特段の設定等は必要なく標準モデルとして搭載されているので、Gemini（Google Bard）やGemini Advancedのアカウントを作成したら、そのまま使用できます。

ここで、Geminiがたくさん出てきて、少しややこしく感じる方もいあるかもしれませんので、整理します。

Gemini Nano、Genmi Pro、Gemini Ultraの3つはマルチモーダル生成AIモデルの名称です。

一方、Gemini（Google Bard）とGemini Advancedは、Geminiのマルチモーダル生成AIモデルが搭載されたAIサービスです。

似たような例では、GPT-4、GPT-3.5などは大規模言語モデル、ChatGPTやChatGPT Plusはそれらの大規模言語モデルが搭載されたAIサービス、というのと同じような関係です。

今後、Gemini はGoogle 検索、広告、Chrome、Duet AI などの Google の主要な製品やサービスで利用できる予定です。

また、開発者と企業は、12 月 13 日よりGoogle AI Studio または Vertex AI の Gemini API を介して「Gemini Pro」にアクセスできるようになっています。

【あわせて読みたい】Gemini（旧Google Bard）とは？日本語版の使い方を徹底解説！

「Gemini Pro」が搭載されたAIサービスGemini（旧Google Bard ）の使い方や何ができるのか、アカウント作成方法については、以下の記事で解説しているので参考にしてみてください。

無料版Gemini（旧Google Bard）とは？日本語版の使い方を徹底解説！

まとめ

この記事は、Googleの「Gemini」とはなにか？、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説しました。

「Gemini」についてまとめると、以下の通りです。

まとめ
・「Gemini」は、Googleの最新のマルチモーダル生成AIモデル
・「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルがある
・最高性能モデル「Gemini Ultra」は、32項目中 30項目で既存の最高水準の結果を上回った
・MMLUで 90.00% をスコアし、GPT-4を上回るパフォーマンスを出した
・「Gemini Nano」は、 Google Pixel 8 Proで利用できる
・「Gemini Pro」は、Gemini（旧Google Bard）で利用できる
・「Gemini Pro」は、Gemini Advancedで利用できる

この記事を参考に、「Gemini」を試してみましょう。

「ChatGPTマガジン」を運営するゴートマン合同会社は、
・最適な社内ChatGPTサービスの選定から導入支援
・社内ガイドライン策定支援
・企業ごとにカスタマイズしたプロンプト作成代行
・ChatGPT活用研修
など大企業から中小企業まで幅広くご支援しています。

ご興味のある企業様は、まずはお気軽に無料相談ください。

📁 media

🔖 Bard, Gemini, Google, 生成AI