1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現 ~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~

Digital PR Platform / 2024年5月7日 15時13分

ポイント③ 理論的分析
2層ニューラルネットワークの数理モデルにおいて、ネットワークサイズが大きくなればなるほど、最適な置換変換が高い確率で存在し、ソースの初期学習過程を変換することでターゲットの初期学習過程にいくらでも近づけられることを証明しました。この結果は、ニューラルネットワークが大規模になるほど、実際に学習転移が可能となることを理論的に示しています。

4.今後の予定
 本成果は、深層学習における新たな学習手法の基礎理論を確立し、その応用として基盤モデル更新・変更時のチューニングコストを大幅に低減できる可能性を明らかにしました。これにより、NTTが研究開発を進める大規模言語モデル(LLM) 「tsuzumi」をはじめとした多様な基盤モデルの運用コスト削減・環境負荷軽減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーションの構想具現化など、次世代のAI技術開発に貢献します。

発表について:
 本成果は、2024年5月7~11日に開催される機械学習分野における最難関国際会議ICLR2024 (The Twelfth International Conference on Learning Representations) にて、下記のタイトル及び著者で発表されます。
タイトル: Transferring Learning Trajectories of Neural Networks
著者: 千々和 大輝 (コンピュータ&データサイエンス研究所)
URL: https://openreview.net/forum?id=bWNJFD1l8M

<用語解説>
(*1) tsuzumi
NTT版大規模言語モデル。日本語の処理性能を重視し、独自の大量のテキストデータを使って学習された言語モデル。詳細は、報道発表をご参照ください。
URL: https://www.rd.ntt/research/LLM_tsuzumi.html

(*2) 基盤モデル
大量のデータを用いて学習され、様々なドメイン特化モデルを作成する際にベースとなるAIモデル。

(*3) AIコンステレーション
LLMなど多様なAIモデルやルールを環境として与えることで、AI同士が相互に議論・訂正を行い、多様な視点から解を創出する大規模AI連携技術。詳細は、報道発表をご参照ください。
URL: https://group.ntt/jp/newsrelease/2023/11/13/pdf/231113ba.pdf

(*4) ICLR 2024
機械学習に関するトップレベルの国際会議。
URL: https://iclr.cc/Conferences/2024

(*5) 置換対称性
ニューロンの入れ替えによりパラメータが変わっても、全体の出力は変わらないという性質のこと。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください