マルチモーダル生成AI「Gemini」とは?性能や種類、どこで使えるかを解説!
2023年12月、Googleは最新のマルチモーダル生成AIモデル「Gemini」を公開して大きな話題を呼びました。
ただ、「Gemini」って聞いたことあるけど、
- 「Google Geminiってなに?」
- 「Google Geminiの性能はどれくらい高いの?」
- 「Google Geminiはどこで使えるの?」
という疑問をお持ちの方も多いのではないでしょうか?
この記事は、Googleの「Gemini」とはなにか?、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説します。
この記事を最後まで読んで、「Gemini」を試してみましょう。
目次
Googleの最新マルチモーダルAI「Gemini」とは?
「Gemini」は、Googleの最新のマルチモーダル生成AIモデルで、テキストだけでなく音声、画像、動画、コードを理解し、それらを組み合わせて操作することができます。
「Gemini」の読み方は、「ジェミニ」と読まれることが多いですが、より英語に近い読み方として「ジェミナイ」よ読むこともあり、どちらも正しいです。
マルチモーダル生成AIとは
マルチモーダルAIは、テキスト、音声、画像、動画など、2つ以上の異なるデータの種類を理解して、組み合わせて操作できる生成AIモデルです。
マルチモーダル生成AIによって、例えば画像を認識してテキストを生成したり、テキストから音声を生成したりすることが可能になります。
OpenAIの「ChatGPT Plus」のAll Toolsもマルチモーダル生成AIの一つです。
Googleが発表したGeminiの公式動画は以下です。
「Gemini」でどんなことができるのか?をイメージするには以下の動画が役に立つでしょう
(※)ただし、デモ動画用に盛られた演出になっています。
「Gemini」の3つのモデル
Geminiは、「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルが用意されています。
モデルの性能的には、Gemini Nano < Gemini Pro < Gemini Ultra(最高性能)、です。
- Gemini Nano: デバイス上のタスクに最も効率的なモデルです。Google Pixel 8 Proに搭載。
- Gemini Pro:幅広いタスクに対応する最良のモデルです。Gemini(旧Google Bard)に搭載。
- Gemini Ultra:非常に複雑なタスクに対応する高性能かつ最大のモデルです。24年2月公開のGemini Advancedに搭載。
「Gemini Ultra」の性能はどれくらい高いのか?
Gemini最高性能モデル「Gemini Ultra」は、LLM(大規模言語モデル)のパフォーマンス評価の32 のベンチマークのうち 30 で、既存の最高水準の結果を上回ったといいます。
「Gemini Ultra」 は、数学、物理学、歴史、法律、医学、倫理など 57 の科目の組み合わせて知識と問題解決能力をテストする MMLU (大規模マルチタスク言語理解) で 90.00% をスコアし、人間の専門家を上回るパフォーマンスを示した初のモデルとのことです。
下表は、「Gemini Ultra」とOpenAIのGPT-4とのパフォーマンス比較です。
複数の項目で、GPT-4を上回るパフォーマンスを出したことが見て取れます。
「Gemini」はどこで利用できるのか?
「Gemini」は、
- Gemini Nano → Google Pixel 8 Pro
- Gemini Pro → Gemini(Google Bard)
- Gemini Ultra → Gemini Advanced
で、利用できます。
特段の設定等は必要なく標準モデルとして搭載されているので、Gemini(Google Bard)やGemini Advancedのアカウントを作成したら、そのまま使用できます。
ここで、Geminiがたくさん出てきて、少しややこしく感じる方もいあるかもしれませんので、整理します。
Gemini Nano、Genmi Pro、Gemini Ultraの3つはマルチモーダル生成AIモデルの名称です。
一方、Gemini(Google Bard)とGemini Advancedは、Geminiのマルチモーダル生成AIモデルが搭載されたAIサービスです。
似たような例では、GPT-4、GPT-3.5などは大規模言語モデル、ChatGPTやChatGPT Plusはそれらの大規模言語モデルが搭載されたAIサービス、というのと同じような関係です。
今後、Gemini はGoogle 検索、広告、Chrome、Duet AI などの Google の主要な製品やサービスで利用できる予定です。
また、開発者と企業は、12 月 13 日よりGoogle AI Studio または Vertex AI の Gemini API を介して 「Gemini Pro」 にアクセスできるようになっています。
【あわせて読みたい】Gemini(旧Google Bard)とは?日本語版の使い方を徹底解説!
「Gemini Pro」が搭載されたAIサービスGemini(旧Google Bard )の使い方や何ができるのか、アカウント作成方法については、以下の記事で解説しているので参考にしてみてください。
まとめ
この記事は、Googleの「Gemini」とはなにか?、どれくらいの性能なのか、どこで利用できるのかわかりやすく解説しました。
「Gemini」についてまとめると、以下の通りです。
まとめ
・「Gemini」は、Googleの最新のマルチモーダル生成AIモデル
・「Gemini Nano」「Gemini Pro」「Gemini Ultra」の3種類のモデルがある
・最高性能モデル「Gemini Ultra」は、32項目中 30項目 で既存の最高水準の結果を上回った
・MMLUで 90.00% をスコアし、GPT-4を上回るパフォーマンスを出した
・「Gemini Nano」は、 Google Pixel 8 Proで利用できる
・「Gemini Pro」は、Gemini(旧Google Bard)で利用できる
・「Gemini Pro」は、Gemini Advancedで利用できる
この記事を参考に、「Gemini」を試してみましょう。
「ChatGPTマガジン」を運営するゴートマン合同会社は、
・最適な社内ChatGPTサービスの選定から導入支援
・社内ガイドライン策定支援
・企業ごとにカスタマイズしたプロンプト作成代行
・ChatGPT活用研修
など大企業から中小企業まで幅広くご支援しています。
ご興味のある企業様は、まずはお気軽に無料相談ください。