1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング

マイナビニュース / 2024年10月29日 9時0分

画像提供:マイナビニュース

AI技術の急速な発展により、日常生活やビジネスに大きな変化を体験した人も多いだろう。特に近年では生成AIや、その中心となるLLM(Large Language Models:大規模言語モデル)の発展が目覚ましい。マイナビニュース TECH+でも、多くの活用事例や最新技術を紹介している。だがしかし、その仕組みや専門用語を理解するのは、意外と難しい。

そこで本連載では、生成AIやLLMに関連する用語について解説する。日々のビジネスや資格取得に向けた勉強、弊誌をはじめニュース記事を読む際の補足として活用してほしい。用語解説は、ソフトバンク子会社で日本語に特化したLLMの開発を進めるSB Intuitionsのエンジニアリングチーム。
学習率

学習率とは、一般にニューラルネットワークモデルの学習に用いられる勾配法において、パラメータの更新度合いを表す指標。勾配法の一種である勾配降下法の場合、時刻tにおけるパラメータをθ(t)として、θ(t+1) = θ(t) - α × ∇Lと更新される(αが学習率)。

∇Lは勾配と呼ばれるその時点までのパラメータによる予測結果と正解との差を表す損失(ロス)の偏微分であり、それに掛かる学習率αは、重要なハイパーパラメータの一つ。学習を通して定数とする場合や、学習ステップとともに変化していく値として設定する場合もある。たとえばSB intuitionsが開発するLLM「Sarashina2」における学習率は2.5e-4 (2.5×10^-4)を最大とし、次第に下げていくように設定している[1]。(黒澤)
○参考

[1] 大規模な日本語の事前学習言語モデルSarashina1・2の公開
https://www.sbintuitions.co.jp/blog/entry/2024/06/26/115641
事前学習

事前学習とは、ニューラルネットワークモデルに汎用的な知識を持たせるため、大量のデータを用いて行なう教師なし学習(厳密には自己教師あり学習)のこと。GPT[1]の事前学習タスクとして使用されている、LLMの事前学習におけるタスクは、ある入力のトークン列をもとに、その次のトークンを予測すること (Next Token Prediction) がある。

この事前学習タスクを行うことで、個別のタスクを解くための大規模な学習を行なうことなく数個の例をプロンプトに含めること(Few-Shot)のみでそのタスクの傾向を読み、解けるようになる。「Sarashina2」の構築に用いた事前学習データは約2.1兆トークンあり、そのうち日本語は約1兆トークン含まれている[2]。(黒澤)
○参考

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください