Nejumi LLMリーダーボードがアップデートし、日本語の言語理解と生成能力両方を評価可能に
PR TIMES / 2024年1月11日 14時15分
その仕組みと使い方を説明するウェビナーを、1月24日に開催
Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より運営してきた日本最大級のLLM日本語能力ランキング、Nejumi LLMリーダーボードの新バージョン、Nejumi LLMリーダーボードNeoを公開しました。評価軸を拡張することで、日本語の理解能力と生成能力の双方を多角的な観点から評価する新たなフレームワークを開発し、すでにGPT-4やGemini Proなどの商用モデルや、Llama2に基づくオープンモデルなど、35を超える大規模言語モデル(LLM)の評価結果を閲覧することができます。またWeights & Biasesプラットフォーム(WandB)の各種機能を使うことで評価結果をレポート上で分析することができます。本リーダーボードは http://nejumi.ai からアクセスすることができます。また本リーダーボードの詳細と使い方を解説するウェビナーが2024年1月24日に予定されています:https://wandb.connpass.com/event/306802/
[画像1: https://prtimes.jp/i/119963/11/resize/d119963-11-5efddafdca276473d90a-2.png ]
関連ブログ:
「LLMリーダーボード運営から学んだ2023年の振り返り」:https://note.com/wandb_jp/n/n6a40364a4fc1
「Nejumi LLMリーダーボード Neoからの考察」:https://note.com/wandb_jp/n/n58b0df612857
多様な評価軸でモデル評価を行う重要性
2023年には数多くのLLMが公開され、その勢いは2024にもとどまる気配がありません。国内においても日本語性能の向上を目的とした開発を行う企業が相次いで自社開発のモデルを発表しています。LLMのユースケースは幅広く、また多くは目新しく、これまでに想定されていなかったものです。そのように事前には特定の用途が定義されていないモデルを評価するためにはこれまで以上に幅広い評価項目を取り入れていくことが重要です。特定のタスクにチューニングされたモデルは他のタスクでは性能を発揮できないことが知られており、一面的な性能評価では利用者の期待値とは乖離した結果になる危険があります。
[画像2: https://prtimes.jp/i/119963/11/resize/d119963-11-7ceb7a37ca460f2d6dc4-1.png ]
「Nejumi LLMリーダーボードNeo」のモデル評価方法
今回のアップデートでは前バージョンで利用していたJGLUEの拡張版と言えるJasterデータセットを開発したLLM-jpコラボレーションとJapanese MT-Benchを開発したStability AI Japanのチームとの議論を通じ、これまでのNejumiリーダーボードの評価体系の良かったところを残しながらも、より包括的なモデル評価ができるようになりました。一問一答形式の問題も言語理解の評価には有用であり、LLMモデルが求められた回答形式に対応できるのかという点についても引き続き評価を行っています。これらのタスクについては、llm-jp-evalでの開発を踏襲し、JGLUEよりも幅広い項目での評価を行っています。また補完的に、文章生成能力の評価のためにJapanese MT-Benchの評価結果も取り入れ、両方の総合点でのランキング表示を行いました。
[画像3: https://prtimes.jp/i/119963/11/resize/d119963-11-bedc45871dae68ba32d8-2.png ]
インタラクティブにモデル評価結果を分析
前バージョンに引き続き、本リーダーボード公開ページでは、WandB製品の強みを活かして、よりインタラクティブに評価結果を表示し、その場で分析することが可能です。例えば、理解能力と生成能力のバランスを評価したり、二つのモデルの違いがどのような事例で発生するのかを分析したりすることが可能になります。具体的にはインタラクティブに比較対象モデルを選択し、WandB Table機能を用いて、平均スコアではなく、一問ずつの深掘を行うことができます。
自社のモデルを非公開で評価することも可能
本リーダーボードで使われている評価フレームワークはWandBを使ってどなたでも実行することが可能です。リーダーボード評価に使われたコードはGitHub上(https://github.com/wandb/llm-leaderboard/tree/main)に公開されており、このコードを使うことで、結果を公開しない形で自社のモデルを評価することも可能です。この仕組みの利用方法については、2024年1月24日に予定されているウェビナーにて詳しく説明いたします。
ウェビナー:「30超のLLMモデルの日本語能力を多角的に比較して見えてきたこと」:https://wandb.connpass.com/event/306802/
[画像4: https://prtimes.jp/i/119963/11/resize/d119963-11-b72d0986939dae073530-4.png ]
Weights & Biases Japan株式会社について
Weights & Biases Japan株式会社は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを販売する日本法人です。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で50万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
Llama 3の日本語継続事前学習モデル「Llama 3 Youko」シリーズを公開
PR TIMES / 2024年7月26日 16時40分
-
Axcxept社、9B小型AIモデルで日本語処理に革新: - EZO-リリース/セキュアなローカルLLM構築サービスで企業のAI活用を加速
PR TIMES / 2024年7月10日 12時15分
-
サイバーエージェント、225億パラメータの日本語LLMを公開
マイナビニュース / 2024年7月9日 13時57分
-
日鉄ソリューションズ、アステラス製薬に、MLOpsプラットフォームWeights & Biases を導入 ~AI創薬を支援~
Digital PR Platform / 2024年7月3日 11時15分
-
Nejumi LLMリーダーボードがアップデートされ、安全性評価など多数の評価を追加
PR TIMES / 2024年7月1日 19時45分
ランキング
-
1スマホより小さなミニPC「S100-WLP」 MINISFORUMから
J-CASTトレンド / 2024年7月29日 12時0分
-
2地方銀行の売れ筋ランキングで「半導体株」と人気を二分するのは…キーワードは「利回り」!?
Finasee / 2024年7月29日 7時0分
-
3ドンキでバカ売れの家電「置くだけエアコン」 担当者「特に人気の地域がある」、なぜ?
ITmedia ビジネスオンライン / 2024年7月29日 12時0分
-
4タリーズコーヒー、創業記念にこだわり「バニラアフォガートシェイク」発売 限定ボトルもかわいい
J-CASTニュース / 2024年7月29日 7時0分
-
5モンスト「インド進出」に懸けるMIXIの腹づもり 屋台骨の"方針転換"の背景を木村社長に直撃
東洋経済オンライン / 2024年7月29日 8時0分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)