米Googleは12月11日(現地時間)、次世代AIモデル「Gemini 2.0」と、それに関連する多数の取り組みを発表した。Gemini 2.0は、画像や音声の出力、ツールのネイティブ使用など、多くの新機能を備えている。
Geminiのサブスクプラン「Gemini Advance」ユーザーは同日から、「Gemini 2.0 Flash Expreimental」と「1.5 Pro with Deep Research」を利用できるようになった。前者は日本語でも利用できるが、後者は英語のみサポート。
また、Google検索のクエリによっては表示される「AI Overviews」にもGemini 2.0を導入する計画だ。限定的なテストは既に開始しており、2025年初頭にはより広範に展開する予定だ。
Gemini 2.0 Flash──1.5の2倍速
開発者や信頼できるテスター向けに、「Gemini 2.0 Flash」をリリースした。これは「Gemini 1.5 Flash」を基に構築され、同等の高速応答時間を維持しながら、パフォーマンスが向上しているという。主要なベンチマークで、2.0 Flashは1.5 Proを超えるパフォーマンスを、2倍の速度で実現している。
新機能としては、テキストと組み合わせた生成画像や、操作可能なテキスト読み上げ(TTS)による多言語音声など、マルチモーダル出力をサポートする。また、Google検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すことが可能になった。
Gemini 2.0 Flashは、Google AI StudioおよびVertex AIのGemini APIを介して、実験モデルとして開発者に提供している。2025年1月には、より多くのモデルサイズとともに、一般公開する予定だ。
推論能力を備えたDeep Research
Deep Researchは、高度な推論能力と長いコンテキスト理解能力を備え、リサーチアシスタントとして機能する。複雑なトピックを調べたり、ユーザーの代わりにレポートを作成したりできるとしている。
Project Astraのテスターへの提供開始
今年のGoogle I/Oで発表した現実世界でマルチモーダル理解を活用するエージェント「Project Astra」も、Gemini 2.0で進化した。
複数の言語が混在する会話が可能になり、アクセントや一般的でない単語の理解度も向上した。また、Google検索、Lens、Mapsなどのツールを利用できるようになった。人間の会話に近い速度での会話も可能になった。
現在は限られたテスターにAndroid端末上で動作するバージョンを提供しているが、近いうちにプロトタイプのメガネ端末でのテストを開始する予定としている。
Project Mariner
「Project Mariner」は、Webブラウザでの人間とエージェントの相互作用の未来を探る、新しい研究プロトタイプ。実験的なChrome拡張機能を介して、ブラウザの画面内の情報(ピクセル、テキスト、コード、画像、フォームなど)を理解し、タスクを実行する。
Jules
「Jules」は、 開発者を支援するAI搭載のコードエージェント。GitHubワークフローに直接統合され、開発者の指示と監督の下、問題に取り組み、計画を立て、実行するという。
詳細は開発者向けブログを参照されたい。
ゲーム分野でのエージェント
Googleは、Gemini 2.0でゲームの仮想世界をナビゲートするのに役立つエージェントも開発している。このエージェントは、画面上のアクションに基づいてゲームを推論し、リアルタイムの会話で次に何をするべきか提案する。
Googleは、安全性とセキュリティを重要な優先事項として、責任あるAI構築に取り組んでいると強調する。Gemini 2.0の開発でも、リスク評価、安全性評価、AIの倫理に関する検討などを徹底的に行っているとしている。