OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の快挙達成
マイナビニュース / 2024年12月21日 17時21分
米OpenAIは12月20日(現地時間)、「12 Days of OpenAI」の最終日に、新たなフロンティアモデル(最先端モデル)「o3」を発表し、特定のタスク向けに最適化された小型モデル「o3-mini」のプレビューを披露した。o3は、汎用人工知能(AGI)の進捗を測るために考案されたベンチマークテスト「ARC-AGI」で87.5%の達成率を記録し、人間の平均スコアから大きなマイルストーンとされていた85%を初めて突破した。一方、o3-miniは推論にかける時間を調整できる機能(Adaptive Thinking Time)」を備えている。
o3は、OpenAIが今年9月にリリースした同社初の推論型AIモデル「o1」を強化したモデルである。推論に必要な訓練プロセスを継承しつつ、設計やアプローチの面でいくつかの進化が加えれている。o1の次がo3という名称になったが、The Informationによると、欧州の通信サービスブランドO2と商標や著作権で問題が生じる可能性があるため、OpenAIはo2をスキップしたとのことである。
o3では、o1で導入された「思考の連鎖(Chain-of-Thought)」のプロセスが洗練された。内部対話を活用したプライベート・チェイン・オブ・ソートにより、応答を生成する前に、タスクに対する一連の内部的な思考を行い、関連する複数の質問や手順を検討しながら最終的な解決策を見出す。複雑なタスクも段階的に問題を分解し、より論理的かつ正確な回答を導き出すことが可能となった。
o3は、競技プログラミングのCodeforcesベンチマークテストで「2727」を記録した。これは上から2番目のランク区分(International Grandmaster)に位置する。参考までに、この日o3の発表を担当したリサーチ部門のリーダーであるマーク・チェン氏のスコアは約2500であり、同氏は競技プログラミングのコーチングも務める優れたプログラマーである。なお、OpenAIにはスコア3000超の社員が在籍しているという。
また、AIME 2024(上級数学テスト)における正答率は96.7%を記録した。o1 previewの56.7%、o1の83.3%を大きく上回る。
従来のベンチマークテストではo3のスコアが飽和に近づいており、ベンチマークがモデルの性能向上の度合を測る役割を果たせなくなってきている。そこで今回、OpenAIは「EpochAI Frontier Math」の結果を公表した。より高度な推論とその過程、問題解決力を評価することに重点を置いている。このテストにおけるo3の正答率は25.2%であり、同テストでo3以前の最先端モデルが達成した2.0%を大幅に上回る結果となった。
-
- 1
- 2
この記事に関連するニュース
-
OpenAIの「12 Days」まとめ
ITmedia NEWS / 2024年12月21日 8時8分
-
米OpenAI、新たなAIモデル「o3」発表 「AGI」に最も近い性能に
ITmedia NEWS / 2024年12月21日 3時8分
-
「GPT-4o mini」と「GPT-4o」のどちらを選ぶ?
ITmedia Mobile / 2024年12月16日 19時40分
-
OpenAI「ChatGPT Pro」プラン発表、深い推論で信頼性の高い応答を提供、月額200ドル
マイナビニュース / 2024年12月6日 7時6分
-
中国Alibaba、論理的推論重視のAIモデル「QwQ-32B-Preview」リリース
ITmedia NEWS / 2024年11月29日 9時41分
ランキング
-
1モトローラの縦折りスマホ最高峰「motorola razr 50 ultra」は強化されたAIが楽しい
ASCII.jp / 2024年12月22日 12時0分
-
2「ほんとすごい」 国交省にLINEで道路の“穴ボコ”を相談→1カ月後には…… 思わず感動の「神対応」が1300万表示
ねとらぼ / 2024年12月22日 8時20分
-
3iPhoneのバッテリーを長持ちさせる機能、実はiPhone 15以降だと少しカスタマイズできる
ITmedia Mobile / 2024年12月22日 10時5分
-
4「理解できない」 大谷翔平と真美子さんの“スキンシップ”に海外驚き 「文化は100%違う」「伝説だわ」【大谷翔平激動の2024年 現地では「プレー以外のふるまい」も話題に】
ねとらぼ / 2024年12月22日 7時5分
-
5どこにいるかわかるかニャ? 毛布の柄と三毛猫の柄が完全一致
おたくま経済新聞 / 2024年12月22日 11時10分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください