AIエージェントの時代はどこまできているのか
ニューズウィーク日本版 / 2024年5月7日 12時40分
湯川鶴章
<AIエージェントがどの程度パソコンを操作できるかを探る「OSWorld」論文が注目を集めている>
*エクサウィザーズ AI新聞から転載
今年のAI業界のホットなテーマの1つはAIエージェント。そんな中、エージェントに関する1つの論文が話題になっている。
「OSWorld」というタイトルの論文で、現段階のAIエージェントはどの程度優秀なのかを計測しているもの。著者は香港大学のTao Yu氏を初めとする研究者の国際チーム。
AIエージェントの定義はいろいろあるが、この論文の中では「置かれた環境をセンサーなどで把握し、論理的に行動するAI」のように定義されている。つまり人間のようにパソコンを自在に操作できるAIということだ。
確かに最近のAIは、いろいろなパソコン操作が既に可能だ。もちろんパソコン上のボタンを押すことも、文字、数字を入力できる。アプリやソフトウェアのマニュアルを読んで理解し、アプリやソフトを操作することも可能。プログラミングもある程度できるし、検索、文書生成もできる。テキストを音声に変換し、音声ボットとして電話もできる。営業トークもできる。顧客との電話のやり取りで得た情報を表計算ソフトに入力することもできる。
つまりこの方向でAIが進化すれば、人間がパソコンを使って行う仕事のほとんどは、AIでもできるようになる。AIにできない仕事を探すほうが難しくなるのではないだろうか。そうなればAIエージェントは世界経済に非常に大きな影響を与えることが予測される。今われわれはそうした時代の入り口に立っていると言えそうだ。
ではそうした時代に向けて、今後AIはどのように進化していかなけらばならないだろうか。一般的には3つの技術の進化の方向が挙げられている。
一番大きく進化しなければならないのはReason(論理的思考能力)だろう。人間から与えられた仕事をこなすために、何をどう実行すべきかを考える力だ。1つの大きな仕事をこなすために、その仕事をいくつかのタスクに分解することも必要になってくる。
もうまもなくリリースされると噂されているOpenAIの次期LLM(大規模言語モデル)GPT-5では、論理的思考が大きく進化すると言われている。またOpenAI以外の有力AI企業も同様の能力を持つLLMを開発しているとみられている。
2つ目はVision、つまりコンピューターの画面を見て意味を理解する能力だ。どのボタンをクリックすれば、前のページに戻れるのか、どのボタンを押せば注文を確定できるのかなど、画面上の画像の意味を理解する能力だ。
-
- 1
- 2
この記事に関連するニュース
-
iPadやiPhoneを目で操作する「Eye Tracking」など機能追加、Apple
マイナビニュース / 2024年5月18日 9時21分
-
「GPT-4o」人間と同じように話せる 感情表現もできるAI、人の仕事を「奪う」未来
J-CASTニュース / 2024年5月16日 19時26分
-
iPhoneやiPadを「目で操作」可能に Apple、24年後半にアクセシビリティー機能を複数追加
ITmedia NEWS / 2024年5月16日 15時31分
-
マーク・ザッカーバーグ氏インタビュー「なぜAIを無料公開するのか」
ニューズウィーク日本版 / 2024年5月14日 16時0分
-
[Windows]キー使ってないの? Windows 11で覚えたいショートカット操作10選
&GP / 2024年4月25日 21時0分
ランキング
-
1「社会へ強いメッセージを伝える人に与えられる」“建築界のノーベル賞”プリツカー賞授賞式に山本理顕さん出席 日本人9人目の快挙
TBS NEWS DIG Powered by JNN / 2024年5月19日 11時13分
-
2ロシア、ハリコフ州でさらに1集落制圧=ウクライナ北東部、1万人避難
時事通信 / 2024年5月19日 8時26分
-
3イスラエル軍、ガザ北部ジャバリヤ侵攻「これまでで最も激しい戦闘」…戦闘員200人殺害と主張
読売新聞 / 2024年5月18日 22時7分
-
4「安倍元首相、不安あおった」=文前大統領が回顧録―韓国
時事通信 / 2024年5月18日 20時53分
-
5イスラエル 政権内の亀裂深まる、戦時内閣メンバー・ガンツ前国防相 ネタニヤフ政権に戦闘終結後のガザ統治など行動計画要求「策定しなければ離脱」
TBS NEWS DIG Powered by JNN / 2024年5月19日 12時27分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください