1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング

マイナビニュース / 2024年10月29日 9時0分

そこで、モデルに対し「指示」と「理想的な応答」のペアを大量に与えてファインチューニングを行うことで、ユーザーが指示を入力した際にその指示に沿った応答を生成する能力を向上させる。これにより、LLMがユーザーのニーズに応じた情報提供やタスク支援を効率的に行えるようにする。

事前学習が自己教師あり学習なのに対し、インストラクションチューニングは「指示と応答」を利用する教師あり学習である。(泉)
○参考

[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2022. Finetuned Language Models are Zero-Shot Learners. In International Conference on Learning Representations.
プレファレンスチューニング

プレファレンス(=選好)チューニング(Preference Tuning)は、LLMが生成する出力を人間の好みに基づいてファインチューニングする手法である。ある入力に対するモデルの応答候補のペアに対して、ユーザーやアノテーターが好ましい方を選択することで、好ましい応答と好ましくない応答のペアを作成する。

そして、Proxy Policy Optimization(PPO)や、Direct Policy Optimization(DPO)などの学習アルゴリズムを用いて、好ましい応答の生成確率を高め、好ましくない応答の生成確率は下げるように学習することで、特にモデルが生成する応答の安全性や信頼性を向上させ、不適切な内容や誤解を招くような出力を抑制する。これにより、モデルがユーザーの期待や好みにより沿った、安全で信頼性の高い応答を生成できるようにする。(泉)
○参考

[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[3] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning and Chelsea Finn. 2024. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください