インストラクションチューニング済みの130億パラメータの日本語LLMを開発

Digital PR Platform / 2024年6月3日 11時3分

～理化学研究所との共同研究のデータや、リコー独自開発のデータを追加学習させ、指示追従性能や要約性能が向上～

　株式会社リコー（社長執行役員：大山晃)は、国立研究開発法人理化学研究所革新知能統合研究センター言語情報アクセス技術チーム（以下、理研 AIP）が主催する日本語インストラクションデータ作成プロジェクトに参画しています。リコーは、同チームとの共同開発で得られたインストラクションデータをリコー製130億パラメータの日本語LLM*1に追加学習させ、LLMの指示追従性能が向上するという結果を得ました。また、リコー独自開発のインストラクションデータ*2を追加学習させた結果においても、指示追従性能*3の向上を確認し、要約タスクでの優位性を確認しました。

　今回、インストラクションデータ「ichikara-instruction」（10,329件）を用いてリコー製LLMにインストラクションチューニング*4を行いました。結果、複雑な指示・タスクを含む代表的なベンチマーク「ELYZA-tasks-100」において、チューニング前と比較し、指示追従性能の大幅なスコア向上が確認できました。また、リコーが独自開発した3,556件のインストラクションデータを用いたチューニング結果でも、同ベンチマークにおいて、同様にスコアが大きく向上しました。
これらの結果から、「ichikara-instruction」はインストラクションデータとして高品質なデータセットであること、また、リコー製インストラクションデータにおいても高スコアが得られたことから、LLMの性能向上にはデータ量だけでなく、データの品質が重要だということが示唆されました。（表１）　

[画像1]https://digitalpr.jp/simg/2160/89196/700_163_20240603091505665d0b09626c6.jpg

また、要約タスクを独自評価*5したところ、特に長文要約においては、リコー製データセットの優位性を確認できました。（表２）
AIによる要約生成はお客様のニーズが高く、リコーが強化していく領域です。リコーは継続的にデータ開発を進めており、2024年5月末時点では、5,000件超のインストラクションデータの開発を完了しています。今後、これらをリコーが提供するさまざまなAIソリューションに活用することで、より高品質なサービスの提供を目指します。

津波情報気象庁発表

地震情報

インストラクションチューニング済みの130億パラメータの日本語LLMを開発

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス経済トピックスFeed

インストラクションチューニング済みの130億パラメータの日本語LLMを開発

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed