1. トップ
  2. 新着ニュース
  3. 経済
  4. ビジネス

Googleが来場者をざわつかせた「AIとの対話」 OpenAIとの生成AI競争第2幕は「スマホ」へ

東洋経済オンライン / 2024年5月21日 7時30分

GoogleがProject Astraで目指すのは「将来のAIエージェント」だ。AIエージェントとは、人と対話しつつ人をサポートするソフトウェアのことだ。GoogleのAI開発部門「Google DeepMind」は、現在Googleが使っている生成AI技術である「Gemini」を応用しつつ、さらに新しい技術を組み込んで開発を進めている。

AIエージェントでは単に命令を音声で伝えるだけでなく、コミュニケーションが主体になって課題を解決することが重要になる。人間が目や耳から情報を得て、それを対話のために活用するのと同じように、AIエージェントも複数の情報を活用するのが望ましい。

こうした要素を俗に「マルチモーダル」と呼ぶ。GoogleはGeminiを「マルチモーダルが得意なAI」とアピールしてきた。Project Astraはその先にあるものだが、他にも広く活用している。

例えば、動画を撮影しながらそこに映っているものについて質問する「Ask with Video」や、写真を保存するサービスである「Googleフォト」の中から、文章で示したシチュエーションにあった写真を探し出す「Ask Photos」などの新機能がそれにあたる。

マルチモーダル性を備え、音声で対話する生成AIを持っているのはGoogleだけではない。

冒頭で述べたように、Google I/O開催の前日には、OpenAIが「GPT-4o」を発表している。こちらもマルチモーダル性の強化が特徴だ。そして、Project Astraと同じように、人間と話しているような対話を実現している。

OpenAIが狙っているのも、Googleと同様に「人と対話しながら使うサービス」だ。OpenAIが究極的に目指しているのは「汎用人工知能(Artificial General Intelligence、AGI)。AGIが実現されていくなら、人間をサポートするAIエージェントに使われるのは必然である。

AIが人と対話するには、マルチモーダル性とともに「即応性」も必須になる。質問への回答に何秒もかかるようでは会話にならないからだ。

GPT-4oにしてもProject Astraにしても、AIの反応は非常に素早い。GPT-4oはすでにChatGPTの有料版である「ChatGPT Plus」で利用可能になっている。筆者も使ってみたが、従来に比べとにかく回答までの待ち時間が短く驚かされた。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください