押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
そこで、モデルに対し「指示」と「理想的な応答」のペアを大量に与えてファインチューニングを行うことで、ユーザーが指示を入力した際にその指示に沿った応答を生成する能力を向上させる。これにより、LLMがユーザーのニーズに応じた情報提供やタスク支援を効率的に行えるようにする。
事前学習が自己教師あり学習なのに対し、インストラクションチューニングは「指示と応答」を利用する教師あり学習である。(泉)
○参考
[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. 2022. Finetuned Language Models are Zero-Shot Learners. In International Conference on Learning Representations.
プレファレンスチューニング
プレファレンス(=選好)チューニング(Preference Tuning)は、LLMが生成する出力を人間の好みに基づいてファインチューニングする手法である。ある入力に対するモデルの応答候補のペアに対して、ユーザーやアノテーターが好ましい方を選択することで、好ましい応答と好ましくない応答のペアを作成する。
そして、Proxy Policy Optimization(PPO)や、Direct Policy Optimization(DPO)などの学習アルゴリズムを用いて、好ましい応答の生成確率を高め、好ましくない応答の生成確率は下げるように学習することで、特にモデルが生成する応答の安全性や信頼性を向上させ、不適切な内容や誤解を招くような出力を抑制する。これにより、モデルがユーザーの期待や好みにより沿った、安全で信頼性の高い応答を生成できるようにする。(泉)
○参考
[1]山田育矢・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒.『大規模言語モデル入門Ⅱ 〜生成型LLMの実装と評価』. 技術評論社, 2024.
[2] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[3] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning and Chelsea Finn. 2024. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.
この記事に関連するニュース
-
NVIDIA AI Summit Japanパネルディスカッションレポート 第3回 10年がかりのAI人材育成に日本企業はどう挑むべきか
マイナビニュース / 2024年11月20日 7時0分
-
NVIDIA AI Summit Japanパネルディスカッションレポート 第2回 国産の生成AI開発を支援する「GENIAC」の進捗と今後の課題は?
マイナビニュース / 2024年11月19日 11時0分
-
「Azure OpenAI Service OpenAI o1」や「GitHub Copilot」などの生成AIをマイグレーションに活用する「マイグレーションAIエージェント サービス」を開始
PR TIMES / 2024年11月18日 17時15分
-
SB Intuitions、4000億クラスのパラメータを持つ日本語LLMを公開
マイナビニュース / 2024年11月12日 10時39分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
ランキング
-
1「スンスンが餌食に」 販売から“全店舗3分で完売”→高額転売で「怒りが込み上げる」 スシロー×人気キャラコラボが物議
ねとらぼ / 2024年11月21日 19時2分
-
2ダイソーの“フィギュアに最適”なアイテムが330万表示 驚きの高品質に「めっちゃいいやん……!」「価格バグってるw」
ねとらぼ / 2024年11月21日 20時0分
-
3イオンカード、不正利用に関するテレビ報道受け声明 「一日も早く安心してもらえる環境整備に努める」
ITmedia NEWS / 2024年11月21日 15時27分
-
4“主人公キャラのいない”ローグライクシューターが早期アクセス開始!AIとなって敵同士を戦わせ道を拓く―採れたて!本日のSteam注目ゲーム11選【2024年11月21日】
Game*Spark / 2024年11月21日 22時30分
-
5原作再現度がハンパない『FF14モバイル』が正式発表! まずは中国からサービス開始へ
ガジェット通信 / 2024年11月21日 22時0分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください