押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
そこで、モデルに対し「指示」と「理想的な応答」のペアを大量に与えてファインチューニングを行うことで、ユーザーが指示を入力した際にその指示に沿った応答を生成する能力を向上させる。これにより、LLMがユーザーのニーズに応じた情報提供やタスク支援を効率的に行えるようにする。
事前学習が自己教師あり学習なのに対し、インストラクションチューニングは「指示と応答」を利用する教師あり学習である。(泉)
○参考
[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2022. Finetuned Language Models are Zero-Shot Learners. In International Conference on Learning Representations.
プレファレンスチューニング
プレファレンス(=選好)チューニング(Preference Tuning)は、LLMが生成する出力を人間の好みに基づいてファインチューニングする手法である。ある入力に対するモデルの応答候補のペアに対して、ユーザーやアノテーターが好ましい方を選択することで、好ましい応答と好ましくない応答のペアを作成する。
そして、Proxy Policy Optimization(PPO)や、Direct Policy Optimization(DPO)などの学習アルゴリズムを用いて、好ましい応答の生成確率を高め、好ましくない応答の生成確率は下げるように学習することで、特にモデルが生成する応答の安全性や信頼性を向上させ、不適切な内容や誤解を招くような出力を抑制する。これにより、モデルがユーザーの期待や好みにより沿った、安全で信頼性の高い応答を生成できるようにする。(泉)
○参考
[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[3] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning and Chelsea Finn. 2024. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.
この記事に関連するニュース
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年10月30日 12時15分
-
リコー、経済産業省の国内生成AI開発力強化プロジェクト「GENIAC」に採択
Digital PR Platform / 2024年10月17日 11時0分
-
オープンソースLLMの日本語能力を高めた「Llama 3.1 Swallow」を公開
共同通信PRワイヤー / 2024年10月8日 14時0分
-
SoftBank World 2024にてAiHUBのバーチャルヒューマン「Sali」がナビゲーターとして登場
PR TIMES / 2024年10月4日 19時40分
-
Gemma 2の日本語継続事前学習モデル「Gemma 2 Baku 2B」シリーズを公開
PR TIMES / 2024年10月4日 17時40分
ランキング
-
1画面オフ時に「ちいかわ」たちが浮かび上がる!点灯中は操作を妨げない「ガラススクリーンプロテクター」全4種が12月発売
インサイド / 2024年10月31日 19時45分
-
2FCNTが「らくらくスマートフォン」の新モデルを一挙3モデル発表 ドコモ向け/Y!mobile向け/MVNO向けを順次発売
ITmedia Mobile / 2024年10月31日 14時30分
-
3マイナ保険証、利用登録を解除すれば紙の“資格確認書”がもらえる
ASCII.jp / 2024年10月31日 12時0分
-
4もはやカメラの「AQUOS R9 Pro」ほぼハイエンドの「AQUOS sense9」、シャープが新スマホ2機種を発表
&GP / 2024年10月30日 22時0分
-
5電池が足りないときに“アレ”で代用 自衛隊公式が教える緊急時のライフハックがお役立ち 「素晴らしい」「これは本当に使える」
ねとらぼ / 2024年10月31日 20時50分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください