1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

OpenAI、噂の"Strawberry"モデル「OpenAI o1」リリース、思考プロセスに長けた新AI

マイナビニュース / 2024年9月13日 7時59分

画像提供:マイナビニュース

米OpenAIは9月12日(現地時間)、新しい大規模言語モデル「OpenAI o1」を発表した。ChatGPT PlusとTeamのユーザーは、同日から「ChatGPT」でo1-previewとo1-miniにアクセスできるようになった。

OpenAI o1は「Strawberry」というコードネームで開発されていたAIモデルで、複雑な推論を行うために強化学習で訓練された。学習データからパターンを模倣するGPT-4oまでのモデルと異なり、自ら「思考の連鎖(Chain-of-Thought)」を使ってクエリを処理する。新たなクラスの機能や性能を提供するために、新しい最適化アルゴリズムと、そのために調整された新しいデータセットを使ってトレーニングされており、新たに「1」から始まる名称を採用した。

OpenAIによると、推論を多用するベンチマークでo1は人の専門家に匹敵するパフォーマンスを示している。一方で、現時点では実世界の知識など複数の分野でGPT-4oを下回る。Web閲覧やファイル解析も備えていない。

複雑な問題に取り組む際に、人はいきなり答えを求めるのではなく、問題を分析し、段階的な思考プロセスをたどりながら答えを導き出す。o1は強化学習を通じて、思考の連鎖を生成する能力を磨き、効果的に使用する方法を学んでいる。難しいステップをより簡単なステップに分解する方法、自身の誤りを認識して修正する方法も学んでおり、その結果、モデルの「考える」能力が飛躍的に向上し、従来のモデルに比べて生成AIモデルをつまずかせる推論の落とし穴を回避できる。

ChatGPTでo1-previewモデルを使って数学問題を解かせると、下のように回答に思考プロセス(問題の分析、解法の模索、条件探し、傾向の分析、試す数字の選択など)が表示される。

段階的な思考プロセスを経るo1は、質問によっては回答を返すのに時間がかかる。上の問題の思考時間は「22秒」だった。対して、GPT-4oではすぐに答えを得られるものの、下のように誤った答えを返してくることがある。

o1は、プログラミング問題(Codeforces)で89パーセンタイルの成績(上位11%に属する成績)を収め、米数学オリンピック予選(AIME)で米国の上位500人にランクインし、物理、生物、化学などの専門レベルの問題 (GPQA)では博士号レベルの精度を上回る結果を出したという。例えば、AIMEでo1は、1回のサンプルで平均74%(11.1/15)、64サンプルに基づいた解答で83%(12.5/15)、学習済みのスコアリング関数で再評価した1000サンプルでは93%(13.9/15)の解答率だった。GPT-4oの解答率は平均12%(1.8/15)である。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください