OpenAI、噂の"Strawberry"モデル「OpenAI o1」リリース、思考プロセスに長けた新AI

マイナビニュース / 2024年9月13日 7時59分

画像提供：マイナビニュース

米OpenAIは9月12日（現地時間）、新しい大規模言語モデル「OpenAI o1」を発表した。ChatGPT PlusとTeamのユーザーは、同日から「ChatGPT」でo1-previewとo1-miniにアクセスできるようになった。

OpenAI o1は「Strawberry」というコードネームで開発されていたAIモデルで、複雑な推論を行うために強化学習で訓練された。学習データからパターンを模倣するGPT-4oまでのモデルと異なり、自ら「思考の連鎖（Chain-of-Thought）」を使ってクエリを処理する。新たなクラスの機能や性能を提供するために、新しい最適化アルゴリズムと、そのために調整された新しいデータセットを使ってトレーニングされており、新たに「1」から始まる名称を採用した。

OpenAIによると、推論を多用するベンチマークでo1は人の専門家に匹敵するパフォーマンスを示している。一方で、現時点では実世界の知識など複数の分野でGPT-4oを下回る。Web閲覧やファイル解析も備えていない。

複雑な問題に取り組む際に、人はいきなり答えを求めるのではなく、問題を分析し、段階的な思考プロセスをたどりながら答えを導き出す。o1は強化学習を通じて、思考の連鎖を生成する能力を磨き、効果的に使用する方法を学んでいる。難しいステップをより簡単なステップに分解する方法、自身の誤りを認識して修正する方法も学んでおり、その結果、モデルの「考える」能力が飛躍的に向上し、従来のモデルに比べて生成AIモデルをつまずかせる推論の落とし穴を回避できる。

ChatGPTでo1-previewモデルを使って数学問題を解かせると、下のように回答に思考プロセス（問題の分析、解法の模索、条件探し、傾向の分析、試す数字の選択など）が表示される。

段階的な思考プロセスを経るo1は、質問によっては回答を返すのに時間がかかる。上の問題の思考時間は「22秒」だった。対して、GPT-4oではすぐに答えを得られるものの、下のように誤った答えを返してくることがある。

o1は、プログラミング問題（Codeforces）で89パーセンタイルの成績（上位11%に属する成績）を収め、米数学オリンピック予選（AIME）で米国の上位500人にランクインし、物理、生物、化学などの専門レベルの問題（GPQA）では博士号レベルの精度を上回る結果を出したという。例えば、AIMEでo1は、1回のサンプルで平均74%（11.1/15）、64サンプルに基づいた解答で83%（12.5/15）、学習済みのスコアリング関数で再評価した1000サンプルでは93%（13.9/15）の解答率だった。GPT-4oの解答率は平均12%（1.8/15）である。

津波情報気象庁発表

地震情報

OpenAI、噂の"Strawberry"モデル「OpenAI o1」リリース、思考プロセスに長けた新AI

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed