NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
ITmedia NEWS / 2024年6月16日 7時51分
米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。
LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。
Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデルをカスタマイズできる。instructモデルは、現実世界のデータの特性を模倣した多様な合成データを生成するよう設計されており、ドメイン固有の合成トレーニングテキストを生成する。rewardモデルは、生成された出力の品質を評価するためのモデル。instructの出力が、設定した基準とどの程度一致しているかに基づいてスコアを付けて高品質の応答を促進し、AIシステムの改善を促す。
NVIDIAは、このモデルは「8つのGPUを備える単一のDGX H100に収まるサイズになっている」としている。
モデルは、オープンソースフレームワークNvidia NeMoおよびNvidia TensorRT-LLMライブラリを使用した推論用に最適化されている。すべてのデータはHuggingfaceで入手できる。
外部リンク
この記事に関連するニュース
-
国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を一般公開
PR TIMES / 2024年6月20日 11時15分
-
「Data Intelligence Platform」を掲げるDatabricksが年次カンファレンス開催
マイナビニュース / 2024年6月13日 15時22分
-
DataRobot、生成AIへのリアルタイム介入可能なガードレール、および生成AIアセスメントを導入
PR TIMES / 2024年6月6日 16時15分
-
NVIDIA がデジタル ヒューマン マイクロサービスをリリース、生成 AI アバターの未来への道を開く
PR TIMES / 2024年6月3日 15時45分
-
リコー、インストラクションチューニング済みの130億パラメータLLMを開発
マイナビニュース / 2024年6月3日 12時46分
ランキング
-
1HUIONの液タブ「Kamvas Pro 19」は全部盛りで最高のサイズ感だった! プロ絵師が試して分かったこと
ITmedia PC USER / 2024年6月21日 12時0分
-
2【今日から】「超PayPay祭」くじに当たればポイントゲット
ASCII.jp / 2024年6月21日 7時0分
-
3アンカー新ロボット掃除機、進化点は? 「オゾン水」で床を除菌掃除、清潔性にこだわり
マイナビニュース / 2024年6月21日 11時1分
-
4高まるサプライチェーン攻撃のリスク、なりすましメール対策で対処を
マイナビニュース / 2024年6月21日 10時15分
-
575歳のペルソナ使い!?外伝作品『ペルソナ5X』で「カッコ良すぎるおばあちゃん怪盗」が登場し話題に
インサイド / 2024年6月21日 16時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください