リコー、インストラクションチューニング済みの130億パラメータLLMを開発

マイナビニュース / 2024年6月3日 12時46分

画像提供：マイナビニュース

リコーは6月3日、理化学研究所革新知能統合研究センター言語情報アクセス技術チーム（以下、理研 AIP）との共同開発で得られたインストラクションデータをリコー製LLM（Large Language Models：大規模言語モデル）に追加学習させ、LLMの指示追従性能が向上するという結果を得たことを発表した。なお、リコーは同チームが主催する日本語インストラクションデータ作成プロジェクトに参画している。

また、リコーが独自開発したインストラクションデータを追加学習させた結果においても、指示追従性能の向上を確認し、要約タスクでの優位性を確認したとのことだ。
○実証の結果

今回、インストラクションデータ「ichikara-instruction」（1万0329件）を用いて、リコー製LLMにインストラクションチューニングを実施した。インストラクションチューニングとは、タスクに対して指示（プロンプト）と正しい回答（インストラクションデータ）をセットで与えて受け答えを学習させる手法を指す。

その結果、複雑な指示やタスクを含む代表的なベンチマーク「ELYZA-tasks-100」において、チューニング前と比較して指示追従性能のスコア向上を確認した。また、リコーが独自開発した3556件のインストラクションデータを用いたチューニング結果でも、同ベンチマークにおいてスコアが向上した。

これらの結果から、「ichikara-instruction」はインストラクションデータとして高品質なデータセットであり、LLMの性能向上にはデータ量だけでなくデータの品質が重要であることが示唆された。

また、要約タスクを評価したところ、特に長文要約においてリコー製データセットの優位性を確認できたという。AIによる要約生成は需要が高く、リコーは特に強化する領域だとしている。同社は継続的にデータ開発を進めており、2024年5月末時点では5000件超のインストラクションデータを開発しているとのことだ。

○リコー製LLMの特長

リコーはユーザーの想定用途に合わせて、さまざまなデータを使ってドメイン適用された高精度なAIモデル（プライベートLLM）の個別開発を進めている。リコー製LLMは日本企業の業務における活用を目的に開発され、企業ごとのカスタマイズが容易な点が特徴とされる。

独自の学習上の工夫が組み込まれており、日本語としての文法や回答が正確で日本語精度が高く、日本企業が持つ情報資産の活用に適しているとのことだ。特にNLI（Natural Language Inference：自然言語推論能力）において高性能。2024年4月からは、プライベートLLMをクラウド環境で提供開始している。
（熊谷知泰）