SB Intuitions、4000億クラスのパラメータを持つ日本語LLMを公開

マイナビニュース / 2024年11月12日 10時39分

画像提供：マイナビニュース

SB Intuitionsは11月8日、4000億クラスのパラメータを持つ日本語LLM（Large Language Model：大規模言語モデル）「Sarashina2-8x70B」を公開したことを発表した。

今回公開したSarashina2-8x70Bは、 Sarashina2-70Bの開発で得られた知見を元にMoE（Mixture of Experts）により大規模化している。MoEとは複数のエキスパートモデルを組み合わせて、より高い推論精度を実現する枠組み。

今回はSarashina2-70Bのモデルを元にUpcyclingと言われる手法を用い、トランスフォーマーのフィードフォワードネットワーク部において8個のエキスパートモデルを用いて訓練した。これらを組み合わせて、高精度な推論を実現しているという。

同モデルはSB Intuitionsでベンチマークしている複数の日本語の性能テストにおいて、最高性能を実現したとのことだ。同社によると、比較的小さなサイズのMoEモデルが公開されている中で、この規模のMoEモデルの学習成功例は珍しいものだという。

なお、今回公開したモデルは指示チューニングを施していない事前学習モデル。人間の意図に沿った出力を行うようにチューニングを行ったものではないため、そのまま実用的なサービスには使えない。商用利用ができないライセンスとして公開する。
（熊谷知泰）

外部リンク