最新GoogeAI「Gemini」とは?ChatGPTの対抗馬、何がすごい?
- ツイート
-
- 2024/01/27
Googleは2023年12月6日(米国時間)、次世代AIモデル「Gemini」を発表しました。ChatGPTへの反撃であるとも噂されるGeminiとはどのようなツールなのでしょうか。
Geminiは文章だけでなく、画像や音声なども理解できるAIモデルです。今回は、Geminiについて詳しく解説していきます。
目次
Gemini(ジェミニ)とは
最大の特徴は、テキスト以外の情報も正確に認識し、倫理的に判断できるところです。 従来のAIは、「テキスト」「画像」「音声」などの要素をバラバラに学習して組み合わせていました。
一方、Geminiは「テキスト」「画像」「音声」など様々な要素を一度に認識することができます。また、Python、Java、C++、Goなどのプログラミング言語でコードの説明や理解、生成することも可能です。
Geminiには3つのバージョンがあります。
- Gemini Ultra...専門的・複雑な処理に向いている。2024年に開発者や企業向けに公開予定。
- Gemini Pro...汎用的なタスクの処理に向いている。GoogleのAIボット「Bard」の英語版に搭載。
- Gemini Nano...スマホなど小型デバイス用。Androidスマートフォン「Pixel 8 Pro」に搭載。
GoogleによるとGemini は「Ultra」、「Pro」、「Nano」 の3つで展開されているため、データセンターからモバイル デバイスまであらゆる環境で動作するとしています。
Geminiで実現されるマルチモーダル
マルチモーダルとは、「画像だけ」「テキストだけ」などと各要素をバラバラに認識、処理するのではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力のことを指します。Geminiはゼロから、マルチモーダルであることを前提に設計されていることが特長です。
実は、このマルチモーダルタスクの処理はChatGPT でも行うことができます。
じゃあ、ChatGPTとGeminiは何が違うの?
GeminiとChatGPTの違い
Geminiの一番の特徴はなんといってもマルチモーダル機能です。テキスト、画像、オーディオ、ビデオなどの混合データを処理して理解することができます。さまざまなデータタイプから得た情報を同時に処理することで、視覚的な手がかりとテキストデータの両方から引き出した応答を生成するなど、複雑なタスクの処理が可能になります。
対するChatGPT はテキストベースの処理を得意としていますが、2023 年 9 月に発表されたGPT-4V では、マルチモーダルタスクを扱うことが可能です。ただし、内部的な実装がどうなっているかについては公表はされていません。既存技術を組み合わせることでマルチモーダルを実現していることも考えられます。
それに対し、 Gemini はマルチモーダルな情報を扱うことを前提に根本から設計されており、トレーニング段階からマルチモーダルのデータセットを使って学習させることで、入力と出力でネイティブにマルチモーダルな情報を取り扱えるモデルになっています。
ここからは、Googleが公開したGeminiのデモビデオを例にご紹介します。
Youtube上のGeminiのデモビデオの概要
デモビデオに登場するGeminiを紹介する例の一つに、認識した絵から音楽を流す機能があります。 たとえば、ギターの絵を描くと、Geminiはそれをアコースティックギターと認識します。
そこに、アンプの絵を追加で描くと、今度はエレキギターと認識し、エレキギターの音を鳴らしてくれます。
さらに、ヤシの木を追加すると、南国風の音楽が流れます。
他にも、手書きの回答を見て、採点や間違えた箇所の指摘をする、などマルチモーダル性をアピールしたデモンストレーションが動画内で複数紹介されています。気になる方は、Googleが公開しているYoutube動画をご覧ください。
GeminiはどんなGoogleのサービス・製品に使われている?
Google Pixel
Google Pixel シリーズの最新モデル「Pixel 8 Pro」では、Geminiが搭載されたことで、録音機能が大きくアップデートされました。Pixelシリーズの録音アプリと言えば、書き起こし機能が搭載されていることが特徴の1つでしたが、さらにGeminiが搭載されたことで要約機能が追加されました。現段階で対応言語は英語のみですが、10分程度の録音データを10秒ほどで要約することができます。
Google Bard
BardとGeminiの統合により、より高度な会話型AIを利用できるようになりました。現在は英語のみの対応ですが、今後数か月以内にさまざまなマルチモーダルデータへの拡大、新しい地域や言語も追加対応される予定です。現在Bardに搭載されているのはGemini Proですが、2024 年には、最先端の AI 体験を提供する「Bard Advanced」 もリリース予定とされています。
Vertex AI
従来、機械学習モデルの構築・開発をするとなると、各目的ごとに細分化されたツールを組み合わせて行う必要がありました。そこでGoogleが開発したAI開発のプラットフォー「Vertex AI」を活用することで、同じプラットフォーム上でデータの取り込みから、分析・実装までのフローを一貫して行えるようになりました。これにより、開発者は短時間で、より簡単にモデルを構築することが可能になりました。そんな便利なVertex AIにも、Geminiが使用されています。
おわりに
今回はGeminiについてご紹介しました。優れたマルチモーダルが搭載されているGeminiには多くの可能性が秘められており、様々な分野での活躍が期待されています。
ChatGPTの登場から、AIツールは著しく進歩しています。最先端のAI技術を知っておくことで、業務効率をあげたり日常の生産性を各段に上げることにも繋がります。
インターネット・アカデミーのITリテラシー講座では、ITの基礎知識から、AI、IoTといった最新トレンドの知識を正しく身につけることができます。専門用語も丁寧に解説するので、IT技術に馴染みのない方でも、ニュースで話題になっているIT技術やサービスの魅力を正しく理解し、ビジネスに活用することができるようになります。 まずはお気軽に無料カウンセリングにご参加ください。専門知識を持ったキャリアプロデューサーがお客様にぴったりあった講座や学習プランをご提案いたします。
知っておきたいITの基礎知識から最新情報まで学べる
ITリテラシー講座ITリテラシーは、どの職業、業界においても必要なスキルです。知っておくべきITの基礎知識から、5GやAI(人工知能)、IoTといった最新トレンドまで網羅。専門用語も丁寧に解説します。国家資格であるITパスポート試験の対策にもご活用いただけます。
相談してコースを選びたい方はカウンセラーに無料で相談
※無理な勧誘は一切ありません
無料で相談してみる
最新のものってすごくワクワクするね!Geminiでどんなことができるのかな?