最新GoogeAI「Gemini」とは？ChatGPTの対抗馬、何がすごい？

Googleは2023年12月6日（米国時間）、次世代AIモデル「Gemini」を発表しました。ChatGPTへの反撃であるとも噂されるGeminiとはどのようなツールなのでしょうか。

最新のものってすごくワクワクするね！Geminiでどんなことができるのかな？

Geminiは文章だけでなく、画像や音声なども理解できるAIモデルです。今回は、Geminiについて詳しく解説していきます。

Gemini（ジェミニ）とは

最大の特徴は、テキスト以外の情報も正確に認識し、倫理的に判断できるところです。従来のAIは、｢テキスト｣｢画像｣｢音声｣などの要素をバラバラに学習して組み合わせていました。

一方、Geminiは「テキスト」「画像」「音声」など様々な要素を一度に認識することができます。また、Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することも可能です。

Geminiには3つのバージョンがあります。

Gemini Ultra...専門的・複雑な処理に向いている。2024年に開発者や企業向けに公開予定。
Gemini Pro...汎用的なタスクの処理に向いている。GoogleのAIボット「Bard」の英語版に搭載。
Gemini Nano...スマホなど小型デバイス用。Androidスマートフォン「Pixel 8 Pro」に搭載。

GoogleによるとGemini は「Ultra」、「Pro」、「Nano」の3つで展開されているため、データセンターからモバイルデバイスまであらゆる環境で動作するとしています。

Geminiで実現されるマルチモーダル

マルチモーダルとは、「画像だけ」「テキストだけ」などと各要素をバラバラに認識、処理するのではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力のことを指します。Geminiはゼロから、マルチモーダルであることを前提に設計されていることが特長です。

実は、このマルチモーダルタスクの処理はChatGPT でも行うことができます。

じゃあ、ChatGPTとGeminiは何が違うの？

GeminiとChatGPTの違い

Geminiの一番の特徴はなんといってもマルチモーダル機能です。テキスト、画像、オーディオ、ビデオなどの混合データを処理して理解することができます。さまざまなデータタイプから得た情報を同時に処理することで、視覚的な手がかりとテキストデータの両方から引き出した応答を生成するなど、複雑なタスクの処理が可能になります。

対するChatGPT はテキストベースの処理を得意としていますが、2023 年 9 月に発表されたGPT-4V では、マルチモーダルタスクを扱うことが可能です。ただし、内部的な実装がどうなっているかについては公表はされていません。既存技術を組み合わせることでマルチモーダルを実現していることも考えられます。

それに対し、 Gemini はマルチモーダルな情報を扱うことを前提に根本から設計されており、トレーニング段階からマルチモーダルのデータセットを使って学習させることで、入力と出力でネイティブにマルチモーダルな情報を取り扱えるモデルになっています。

Google DeepMind |Gemini: A Family of Highly Capable Multimodal Models

ここからは、Googleが公開したGeminiのデモビデオを例にご紹介します。

Youtube上のGeminiのデモビデオの概要

デモビデオに登場するGeminiを紹介する例の一つに、認識した絵から音楽を流す機能があります。たとえば、ギターの絵を描くと、Geminiはそれをアコースティックギターと認識します。

そこに、アンプの絵を追加で描くと、今度はエレキギターと認識し、エレキギターの音を鳴らしてくれます。

さらに、ヤシの木を追加すると、南国風の音楽が流れます。

他にも、手書きの回答を見て、採点や間違えた箇所の指摘をする、などマルチモーダル性をアピールしたデモンストレーションが動画内で複数紹介されています。気になる方は、Googleが公開しているYoutube動画をご覧ください。

GeminiはどんなGoogleのサービス・製品に使われている？

Google Pixel

Google Pixel シリーズの最新モデル「Pixel 8 Pro」では、Geminiが搭載されたことで、録音機能が大きくアップデートされました。Pixelシリーズの録音アプリと言えば、書き起こし機能が搭載されていることが特徴の1つでしたが、さらにGeminiが搭載されたことで要約機能が追加されました。現段階で対応言語は英語のみですが、10分程度の録音データを10秒ほどで要約することができます。

Google Bard

BardとGeminiの統合により、より高度な会話型AIを利用できるようになりました。現在は英語のみの対応ですが、今後数か月以内にさまざまなマルチモーダルデータへの拡大、新しい地域や言語も追加対応される予定です。現在Bardに搭載されているのはGemini　Proですが、2024 年には、最先端の AI 体験を提供する「Bard Advanced」もリリース予定とされています。

Vertex AI

従来、機械学習モデルの構築・開発をするとなると、各目的ごとに細分化されたツールを組み合わせて行う必要がありました。そこでGoogleが開発したAI開発のプラットフォー「Vertex AI」を活用することで、同じプラットフォーム上でデータの取り込みから、分析・実装までのフローを一貫して行えるようになりました。これにより、開発者は短時間で、より簡単にモデルを構築することが可能になりました。そんな便利なVertex AIにも、Geminiが使用されています。

Gemini For Google Cloud を発表

「Gemini for Google Cloud」は、「Gemini」を用いた複数のサービスの統合的なブランドです。生成AIを用いて、より効率的な作業やコーディング、より深いデータインサイトの獲得、セキュリティ上の課題への対応をサポートしてくれます。

「Gemini for Google Cloud」に含まれる各機能を説明していきます。

Gemini Code Assist

コードベース全体に渡る大規模な機能追加やコードの変更などにも対応するコーディング支援AIです。

書きかけのコードの補完やチャットによるコードの生成、コードの説明、単体テストの生成などの機能が備わっています。C、C++、Go、Java、JavaScript、Pythonなど 20 以上のプログラミング言語のサポートが可能です。

Gemini Cloud Assist

アプリケーションのライフサイクルを設計、運用、最適化するのに役立つAIガイダンスです。

AIとのチャットを通じて、ニーズに合わせたアーキテクチャ構成の生成や解説、インシデント発生時の問題の診断と原因究明や解決のサポートをしてくれます。また、コスト削減や性能の最適化、可用性（アベイラビリティ）の強化などに関するアドバイスなども提案します。

Gemini in Security

生成AIとのチャットを通じて、インシデントやアラートを迅速に調査してくれます。

セキュリティ上の構成ミスと脆弱性に関する重大で優先度の高いアラートを要約し、推奨される対策の提供が可能なため、セキュリティー関連の調査がよりしやすくなります。例えば、認証に失敗したログを3日分出力させる、などの使い方ができます。

Gemini in Threat Intelligence

サイバーセキュリティに関する対策のサポートをしてくれるツールです。

チャットを通じて、アメリカのサイバーセキュリティ会社であるMandiantが提供する脅威インテリジェンスを活用し、知見を得ることができます。また、関連するオープンソースインテリジェンス（OSINT）記事のWebクローリングを自動で実行し、アナリストを支援するための要約を提供するなど、サイバー脅威調査の効率化をサポートしてくれます。

Gemini in BigQuery

データの分析にAIを活用できるツールです。

Googleが提供するクラウドデータベースのBigQueryから機械学習（ML）プラットフォームのVertex AIへ、といったように、クラウド側のデータをから機械学習（ML）プラットフォームへの円滑にな接続することもサポートしてくれます。

また、チャットを通じてSQLやPythonコードの生成を含むデータ分析のプロセス全体を支援するほか、自然言語に対応したビジュアライゼーション機能を含むデータキャンバス機能もあります。

Gemini in Looker、Gemini in Databases

その他、ビジネスデータに対してチャット形式で質問できる「Gemini in Looker」、データベースの管理や移行、アプリケーションの構築をスピードアップしてくれる「Gemini in Databases」などのツールもあります。

おわりに

今回はGeminiについてご紹介しました。優れたマルチモーダルが搭載されているGeminiには多くの可能性が秘められており、様々な分野での活躍が期待されています。

ChatGPTの登場から、AIツールは著しく進歩しています。最先端のAI技術を知っておくことで、業務効率をあげたり日常の生産性を各段に上げることにも繋がります。

インターネット・アカデミーのITリテラシー講座では、ITの基礎知識から、AI、IoTといった最新トレンドの知識を正しく身につけることができます。専門用語も丁寧に解説するので、IT技術に馴染みのない方でも、ニュースで話題になっているIT技術やサービスの魅力を正しく理解し、ビジネスに活用することができるようになります。

まずはお気軽に無料カウンセリングにご参加ください。専門知識を持ったキャリアプロデューサーがお客様にぴったりあった講座や学習プランをご提案いたします。