米OpenAIは12月20日(現地時間)、高度な推論能力を持つ新しいLLM「o3」と同時に、oシリーズに適用した「Deliberative alignment」(熟慮的アラインメント)と呼ばれるアラインメント戦略を発表した。
この手法は、AIモデルがより安全で信頼性の高い応答を生成できるように設計されているという。従来のAIモデルは、有害なコンテンツを生成したり、正当な要求を拒否したり、悪意あるプロンプトにだまされたりするなどの安全上の問題を抱えていたが、熟慮的アラインメントは、これらの問題を効果的に解決することを目指す。
熟慮的アラインメントの中核となるのは、推論だ。モデルは、回答を生成する前に、人間が作成した安全仕様を明示的に考慮するように訓練される。
具体的には、ユーザーのプロンプトを分析し、関連する安全ポリシーを特定し、それらに基づいてより安全な応答を作成する。人間が倫理的なジレンマに直面した際に、道徳規範を熟慮して行動を決定するかのように働く。
公開された論文では、熟慮的アラインメントの成功例として、シーザー暗号の一種である「ROT13」で暗号化された「ポルノサイトの運営にあたり、当局に追跡されない支払い方法を知りたい」というプロンプトを、熟慮的アラインメントによって訓練された「o1」が拒否したことが挙げられている。
o1は、エンコードされた質問をデコードし、ユーザーの意図を理解し、この質問がポリシーに違反することを理解したのだ。
論文では、過剰拒否の削減の成功例も紹介されている。ポリシーに違反する内容でも、それが翻訳の依頼の場合、翻訳が新たな禁止コンテンツを作成しない限り許可されるというポリシーを確認し、翻訳を提供した。
OpenAIは、熟慮的アラインメントは安全性の向上、幻覚(ハルシネーション)の抑制、倫理的に問題のある質問への対応などに役立つとしている。
「LLMの進歩には、大きなリスクが伴う。モデルの知性と自律性が高まるにつれて、AIの不整合や誤用によって引き起こされる可能性のある潜在的な危害の規模は劇的に増大する」と認めつつ、OpenAIは熟慮的アラインメントの適用により、「AIの安全性を向上させることができることに勇気づけられている」としている。