押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
AI技術の急速な発展により、日常生活やビジネスに大きな変化を体験した人も多いだろう。特に近年では生成AIや、その中心となるLLM(Large Language Models:大規模言語モデル)の発展が目覚ましい。マイナビニュース TECH+でも、多くの活用事例や最新技術を紹介している。だがしかし、その仕組みや専門用語を理解するのは、意外と難しい。
そこで本連載では、生成AIやLLMに関連する用語について解説する。日々のビジネスや資格取得に向けた勉強、弊誌をはじめニュース記事を読む際の補足として活用してほしい。用語解説は、ソフトバンク子会社で日本語に特化したLLMの開発を進めるSB Intuitionsのエンジニアリングチーム。
学習率
学習率とは、一般にニューラルネットワークモデルの学習に用いられる勾配法において、パラメータの更新度合いを表す指標。勾配法の一種である勾配降下法の場合、時刻tにおけるパラメータをθ(t)として、θ(t+1) = θ(t) - α × ∇Lと更新される(αが学習率)。
∇Lは勾配と呼ばれるその時点までのパラメータによる予測結果と正解との差を表す損失(ロス)の偏微分であり、それに掛かる学習率αは、重要なハイパーパラメータの一つ。学習を通して定数とする場合や、学習ステップとともに変化していく値として設定する場合もある。たとえばSB intuitionsが開発するLLM「Sarashina2」における学習率は2.5e-4 (2.5×10^-4)を最大とし、次第に下げていくように設定している[1]。(黒澤)
○参考
[1] 大規模な日本語の事前学習言語モデルSarashina1・2の公開
https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641
事前学習
事前学習とは、ニューラルネットワークモデルに汎用的な知識を持たせるため、大量のデータを用いて行なう教師なし学習(厳密には自己教師あり学習)のこと。GPT[1]の事前学習タスクとして使用されている、LLMの事前学習におけるタスクは、ある入力のトークン列をもとに、その次のトークンを予測すること (Next Token Prediction) がある。
この事前学習タスクを行うことで、個別のタスクを解くための大規模な学習を行なうことなく数個の例をプロンプトに含めること(Few-Shot)のみでそのタスクの傾向を読み、解けるようになる。「Sarashina2」の構築に用いた事前学習データは約2.1兆トークンあり、そのうち日本語は約1兆トークン含まれている[2]。(黒澤)
○参考
この記事に関連するニュース
-
NVIDIA AI Summit Japanパネルディスカッションレポート 第3回 10年がかりのAI人材育成に日本企業はどう挑むべきか
マイナビニュース / 2024年11月20日 7時0分
-
NVIDIA AI Summit Japanパネルディスカッションレポート 第2回 国産の生成AI開発を支援する「GENIAC」の進捗と今後の課題は?
マイナビニュース / 2024年11月19日 11時0分
-
「Azure OpenAI Service OpenAI o1」や「GitHub Copilot」などの生成AIをマイグレーションに活用する「マイグレーションAIエージェント サービス」を開始
PR TIMES / 2024年11月18日 17時15分
-
SB Intuitions、4000億クラスのパラメータを持つ日本語LLMを公開
マイナビニュース / 2024年11月12日 10時39分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
ランキング
-
1川で拾った普通の石ころ→磨いたら……? まさかの“正体”にびっくり「間違いなく価値がある」「別の惑星を見ているよう」【米】
ねとらぼ / 2024年11月22日 7時30分
-
2“主人公キャラのいない”ローグライクシューターが早期アクセス開始!AIとなって敵同士を戦わせ道を拓く―採れたて!本日のSteam注目ゲーム11選【2024年11月21日】
Game*Spark / 2024年11月21日 22時30分
-
3「スンスンが餌食に」 販売から“全店舗3分で完売”→高額転売で「怒りが込み上げる」 スシロー×人気キャラコラボが物議
ねとらぼ / 2024年11月21日 19時2分
-
4Anker製品「最大56%オフ」 Amazon ブラックフライデーで 割引率と製品数は2023年よりもアップ
ITmedia Mobile / 2024年11月22日 7時10分
-
5ダイソーの“フィギュアに最適”なアイテムが330万表示 驚きの高品質に「めっちゃいいやん……!」「価格バグってるw」
ねとらぼ / 2024年11月21日 20時0分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください