1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現 ~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~

Digital PR Platform / 2024年5月7日 15時13分

2.研究成果の概要
 一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメータを逐次的に最適化することで学習が行われます。学習中のパラメータ変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響されることが知られています。一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されてきませんでした。
 NTTでは、ニューラルネットワークのパラメータ空間にある高い対称性に着目し、とくに置換変換と呼ばれるニューロンの入れ替えに関する対称性(図1)の下で、異なるモデル間の学習過程同士を近似的に同一視できることを発見しました。この発見に基づき、過去の学習過程を適切な置換対称性(*5)によって変換することで、新たなモデルの学習過程として再利用できる「学習転移」技術を世界で初めて提唱および実証しました(図2)。


[画像1]https://digitalpr.jp/simg/2341/87597/700_276_202404301739376630ae49bb09c.JPG


 学習転移では、高コストな学習を行うことなく、低コストな変換のみにより一定の精度を達成することができます。さらに学習転移後に追加の学習を行うことで、目標精度に早く収束することも示しました(図3)。


[画像2]https://digitalpr.jp/simg/2341/87597/700_451_202404301739386630ae4a619f7.JPG


3.技術のポイント

ポイント① 学習転移の定式化
学習転移は、2つのパラメータ初期値が与えられたときに、一方の初期値に対する学習過程(以下、ソース)を変換したときにもう一方の初期値の学習過程(以下、ターゲット)との距離を最小化するような置換変換を求める、最適化問題として定式化されました。このように2つの学習過程間の変換を最適化するという枠組み自体が、本研究により世界で初めて提案されたものになります。

ポイント② 高速なアルゴリズムの導出
上記の最適化問題に現れるターゲットの学習過程は、そもそも学習転移によって求めたかったものであり事前には未知であるため、そのままでは実際の計算機上で扱うことはできませんでした。そこで学習過程の各ステップが勾配で近似できるという仮定を置くことで、実際に計算機で扱える非線形最適化問題を導出しました。また非線形性のために、そのままでは効率的に解くことができませんでしたが、学習過程の部分的な転移と線形最適化とを交互に行うことにより、高速に解くことが可能となりました。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください