OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の快挙達成

マイナビニュース / 2024年12月21日 17時21分

O3は「ARC-AGI-1」で87.5％を記録した。ARC-AGIは、AI研究者のフランソワ・ショレ氏が2019年に考案したもので、AIが単なるデータの相関関係の学習ではなく、抽象的な概念を理解し、新しい状況に適用できる能力を評価する。

例えば、上の図の入力と出力の違いを問われた場合、四角の空白スペースを濃い青で埋めているだけであるとすぐに分かる。人間にとっては容易に理解できる規則性だが、「抽象化」と「推論」を苦手とするこれまでのAIにとってこうした問題は難問なのだ。

ARC-AGIにおける人間の平均達成率は84％であり、そのため85％をクリアすることがAIの大きなマイルストーンと見なされていた。しかし、OpenAIのモデルでも2020年のGPT-3の0％から2024年のGPT-4の5％まで、わずか5％に4年を要するなど、スコアが全く伸びない状態が長く続いていた。

o3の登場により、AI開発の競争は「推論能力の差異」が問われる新たなステージに突入したといえる。ARC Prize財団は、評価基準を引き上げた「ARC-AGI-2」を2025年第1四半期にローンチする予定であり、さらに2019年のARC-AGIフォーマットから完全に脱却して新たなニーズに対応した第3世代ベンチマークの開発にも着手している。

o1が主に訓練段階での精度向上に焦点を当てていたのに対し、o3では推論時の柔軟性と効率性を重視した設計が採用されている。o3-miniにより、リソース制約がある環境や特定タスク向けの応用範囲が大幅に広がる。o3-miniは低・中・高の3段階で推論時間を設定でき、タスクの性質や使用環境に応じて処理速度と精度を調整することが可能である。以下は、o1、o1-mini、o3-mini、o3のCodeforces Eloスコアと計算コストの比較である。

o1は回答時間と高いコストという課題を抱えていたが、o3-miniは性能とコストのバランスを取りながら、多様なユースケースに対応できる柔軟なモデルとなっている。「低」設定では低コストで実用的な性能を提供し、「高」設定ではo1を上回る性能を発揮しながら、フルモデルのo3よりコストを大幅に抑えられる。

o3とo3-miniは、安全性とセキュリティを検証するプログラムを通じて、まずは研究者向けに早期アクセスが提供される予定である。順調に進めば、2025年1月末にo3-miniの提供を開始し、その後フルモデルのリリースに至る見込みである。
（Yoichi Yamashita）

外部リンク

津波情報気象庁発表

地震情報

OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の快挙達成

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed