AIエージェントの時代はどこまできているのか
ニューズウィーク日本版 / 2024年5月7日 12時40分
湯川鶴章
<AIエージェントがどの程度パソコンを操作できるかを探る「OSWorld」論文が注目を集めている>
*エクサウィザーズ AI新聞から転載
今年のAI業界のホットなテーマの1つはAIエージェント。そんな中、エージェントに関する1つの論文が話題になっている。
「OSWorld」というタイトルの論文で、現段階のAIエージェントはどの程度優秀なのかを計測しているもの。著者は香港大学のTao Yu氏を初めとする研究者の国際チーム。
AIエージェントの定義はいろいろあるが、この論文の中では「置かれた環境をセンサーなどで把握し、論理的に行動するAI」のように定義されている。つまり人間のようにパソコンを自在に操作できるAIということだ。
確かに最近のAIは、いろいろなパソコン操作が既に可能だ。もちろんパソコン上のボタンを押すことも、文字、数字を入力できる。アプリやソフトウェアのマニュアルを読んで理解し、アプリやソフトを操作することも可能。プログラミングもある程度できるし、検索、文書生成もできる。テキストを音声に変換し、音声ボットとして電話もできる。営業トークもできる。顧客との電話のやり取りで得た情報を表計算ソフトに入力することもできる。
つまりこの方向でAIが進化すれば、人間がパソコンを使って行う仕事のほとんどは、AIでもできるようになる。AIにできない仕事を探すほうが難しくなるのではないだろうか。そうなればAIエージェントは世界経済に非常に大きな影響を与えることが予測される。今われわれはそうした時代の入り口に立っていると言えそうだ。
ではそうした時代に向けて、今後AIはどのように進化していかなけらばならないだろうか。一般的には3つの技術の進化の方向が挙げられている。
一番大きく進化しなければならないのはReason(論理的思考能力)だろう。人間から与えられた仕事をこなすために、何をどう実行すべきかを考える力だ。1つの大きな仕事をこなすために、その仕事をいくつかのタスクに分解することも必要になってくる。
もうまもなくリリースされると噂されているOpenAIの次期LLM(大規模言語モデル)GPT-5では、論理的思考が大きく進化すると言われている。またOpenAI以外の有力AI企業も同様の能力を持つLLMを開発しているとみられている。
2つ目はVision、つまりコンピューターの画面を見て意味を理解する能力だ。どのボタンをクリックすれば、前のページに戻れるのか、どのボタンを押せば注文を確定できるのかなど、画面上の画像の意味を理解する能力だ。
-
- 1
- 2
この記事に関連するニュース
-
UiPath、エージェンティックオートメーションを活用する未来の新しいビジョンや戦略を発表
PR TIMES / 2024年11月7日 15時40分
-
UiPath、Anthropicの言語モデルClaudeを統合した次世代AIアシスタントとソリューションを発表
PR TIMES / 2024年11月7日 15時40分
-
天橋脳科学研究院、長期AIメモリ向けOMNEフレームワークがGAIAリーダーボードでトップの座を獲得
共同通信PRワイヤー / 2024年10月31日 9時58分
-
Zendesk、人とAIのパートナーシップを強化する包括的なカスタマーサービスソリューションの提供を開始
PR TIMES / 2024年10月30日 14時45分
-
Windowsだけじゃない! AIで便利に使える「ChormeOS」の進化ポイントまとめ
ITmedia PC USER / 2024年10月29日 17時55分
ランキング
-
1ウクライナ軍が米供与の「ATACMS」でロシア西部を攻撃 ロシア国防省が発表
TBS NEWS DIG Powered by JNN / 2024年11月27日 10時12分
-
2中東、レバノン停戦を歓迎=イラン「犯罪者の処罰」訴え
時事通信 / 2024年11月27日 18時31分
-
3イスラエルとレバノンが停戦合意、60日の戦闘停止へ…ネタニヤフ氏「ヒズボラが違反すれば攻撃」
読売新聞 / 2024年11月27日 11時46分
-
4ウクライナ代表団が訪韓、武器支援を要請=報道
ロイター / 2024年11月27日 14時25分
-
5ラオスで“メタノール入り酒”飲んだ外国人観光客6人死亡 宿泊施設オーナーら8人を拘束
日テレNEWS NNN / 2024年11月27日 12時38分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください