1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の快挙達成

マイナビニュース / 2024年12月21日 17時21分

画像提供:マイナビニュース

米OpenAIは12月20日(現地時間)、「12 Days of OpenAI」の最終日に、新たなフロンティアモデル(最先端モデル)「o3」を発表し、特定のタスク向けに最適化された小型モデル「o3-mini」のプレビューを披露した。o3は、汎用人工知能(AGI)の進捗を測るために考案されたベンチマークテスト「ARC-AGI」で87.5%の達成率を記録し、人間の平均スコアから大きなマイルストーンとされていた85%を初めて突破した。一方、o3-miniは推論にかける時間を調整できる機能(Adaptive Thinking Time)」を備えている。

o3は、OpenAIが今年9月にリリースした同社初の推論型AIモデル「o1」を強化したモデルである。推論に必要な訓練プロセスを継承しつつ、設計やアプローチの面でいくつかの進化が加えれている。o1の次がo3という名称になったが、The Informationによると、欧州の通信サービスブランドO2と商標や著作権で問題が生じる可能性があるため、OpenAIはo2をスキップしたとのことである。

o3では、o1で導入された「思考の連鎖(Chain-of-Thought)」のプロセスが洗練された。内部対話を活用したプライベート・チェイン・オブ・ソートにより、応答を生成する前に、タスクに対する一連の内部的な思考を行い、関連する複数の質問や手順を検討しながら最終的な解決策を見出す。複雑なタスクも段階的に問題を分解し、より論理的かつ正確な回答を導き出すことが可能となった。

o3は、競技プログラミングのCodeforcesベンチマークテストで「2727」を記録した。これは上から2番目のランク区分(International Grandmaster)に位置する。参考までに、この日o3の発表を担当したリサーチ部門のリーダーであるマーク・チェン氏のスコアは約2500であり、同氏は競技プログラミングのコーチングも務める優れたプログラマーである。なお、OpenAIにはスコア3000超の社員が在籍しているという。

また、AIME 2024(上級数学テスト)における正答率は96.7%を記録した。o1 previewの56.7%、o1の83.3%を大きく上回る。

従来のベンチマークテストではo3のスコアが飽和に近づいており、ベンチマークがモデルの性能向上の度合を測る役割を果たせなくなってきている。そこで今回、OpenAIは「EpochAI Frontier Math」の結果を公表した。より高度な推論とその過程、問題解決力を評価することに重点を置いている。このテストにおけるo3の正答率は25.2%であり、同テストでo3以前の最先端モデルが達成した2.0%を大幅に上回る結果となった。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください