OpenAI、GPT-4のエラーを指摘するGPT-4ベースの「CriticGPT」リリース

　米OpenAIは6月27日（現地時間）、ChatGPTなどのLLMの出力の誤りを検出するためのGPT-4ベースのモデル「CriticGPT」を発表した。

　人間によるAIトレーニングの際に、ChatGPTの回答の誤りを指摘することで、トレーニングの精度向上を支援する。

　ChatGPTは、RLHF（人間からのフィードバックによる強化学習）と呼ばれる手法を用いて、人間との対話に適したモデルへと調整されている。RLHFでは、人間のAIトレーナーがChatGPTの異なる回答を比較評価し、その結果を学習にフィードバックする。だが、モデルの推論能力や挙動が高度化するにつれ、ChatGPTの誤りはより微妙化し、AIトレーナーにとって誤りを発見することが困難になっている。これはRLHFの根本的な限界であり、モデルが人間の能力を超えていくにつれて、モデルの調整はますます困難になる可能性がある。

　CriticGPTはこの課題に対処するために開発された。CriticGPTは、ChatGPTの回答の不正確な点を指摘する批評文を作成する。

　CriticGPTもChatGPTと同様にRLHFを用いてトレーニングされているが、ChatGPTとは異なり、誤りを含む大量の入力を学習データとして使用し、それらの誤りを批評するように訓練されている。

　具体的には、AIトレーナーがChatGPTによって書かれたコードに手動で誤りを挿入し、その誤りを発見した場合にどのようなフィードバックを行うかを記述した例を作成。次に同じトレーナーが、修正されたコードに対する複数の批評文を比較し、どの批評文が挿入された誤りを正しく指摘しているかを評価する。

　CriticGPTの提案は必ずしも常に正しいわけではないが、AIトレーナーがモデルの回答の誤りを発見するのを大きく支援することが分かっているという。

　CriticGPTの支援を受けてコードレビューを行った場合、支援なしの場合と比較して、約60％の確率でパフォーマンスが向上した。

　また、CriticGPTを用いることで、AIトレーナーはより包括的な批評文を作成することができ、モデル単独で批評文を作成する場合よりも誤った指摘を減らすことができた。

　現時点ではChatGPTの比較的短い回答を対象にトレーニングされている。OpenAIは、より長文で複雑なタスクを評価できるようにするために、CriticGPTの改良が必要だとしている。

Infoseek 楽天

OpenAI、GPT-4のエラーを指摘するGPT-4ベースの「CriticGPT」リリース

外部リンク

この記事の関連ニュース