押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
[1] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving Language Understanding by Generative Pre-Training.
https://openai.com/index/language-unsupervised/
[2] 大規模な日本語の事前学習言語モデルSarashina1・2の公開
https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641
クリーニング
LLM構築の文脈では、クリーニングは学習データ(コーパス)をモデルの学習前に処理しておくことを指す。コーパスの主なデータ源はインターネットから広く収集されたテキストであるが、ここには学習の際にノイズとなるテキストも大量に含んでいる。
クリーニングの目的はこのノイズを取り除くことにある。ノイズとなるテキストの例として、広告由来のテキストで商品に関連する名詞が繰り返されているもの、メニューやタグに由来する文字列、テンプレートを基に単語を差し替えて機械的に生成されているような文などが挙げられる。(新里)
ファインチューニング
ファインチューニングとは、事前学習済みモデルを別のデータセットを使って再トレーニングすることでモデルのパラメータを調整し、各タスクの性能を強化することを指す。LLMでは対話など特定のタスクに適応させるための手法として使われる。
LLMは汎用的な言語理解能力を獲得しているが、そのままでは特定のタスクで高い性能を発揮することが難しい。ファインチューニングでは、LLMを基にタスク固有の高品質なデータを用いて追加学習を行う。
この際、モデルのアーキテクチャは変更せず、パラメータのみを更新する。ファインチューニングによりLLMの汎用的な知識を生かしつつ、タスクに特化した応答性質や知識を獲得することができる。(新里)
インストラクションチューニング
インストラクション(=指示)チューニング(Instruction Tuning)は、LLMが人間の指示に従った文章を生成するようにファインチューニングを行う手法である。事前学習後のLLMは入力テキストに基づいて次のトークンを予測し続ける (Next Token Prediction) ことでテキストを生成するが、そのままだと人間の指示に従う能力が限定的である。
この記事に関連するニュース
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年10月30日 12時15分
-
リコー、経済産業省の国内生成AI開発力強化プロジェクト「GENIAC」に採択
Digital PR Platform / 2024年10月17日 11時0分
-
オープンソースLLMの日本語能力を高めた「Llama 3.1 Swallow」を公開
共同通信PRワイヤー / 2024年10月8日 14時0分
-
SoftBank World 2024にてAiHUBのバーチャルヒューマン「Sali」がナビゲーターとして登場
PR TIMES / 2024年10月4日 19時40分
-
Gemma 2の日本語継続事前学習モデル「Gemma 2 Baku 2B」シリーズを公開
PR TIMES / 2024年10月4日 17時40分
ランキング
-
1画面オフ時に「ちいかわ」たちが浮かび上がる!点灯中は操作を妨げない「ガラススクリーンプロテクター」全4種が12月発売
インサイド / 2024年10月31日 19時45分
-
2FCNTが「らくらくスマートフォン」の新モデルを一挙3モデル発表 ドコモ向け/Y!mobile向け/MVNO向けを順次発売
ITmedia Mobile / 2024年10月31日 14時30分
-
3マイナ保険証、利用登録を解除すれば紙の“資格確認書”がもらえる
ASCII.jp / 2024年10月31日 12時0分
-
4もはやカメラの「AQUOS R9 Pro」ほぼハイエンドの「AQUOS sense9」、シャープが新スマホ2機種を発表
&GP / 2024年10月30日 22時0分
-
5電池が足りないときに“アレ”で代用 自衛隊公式が教える緊急時のライフハックがお役立ち 「素晴らしい」「これは本当に使える」
ねとらぼ / 2024年10月31日 20時50分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください