Nejumi LLMリーダーボードがアップデートされ、安全性評価など多数の評価を追加
PR TIMES / 2024年7月1日 19時45分
最新の評価データセットを活用した、日本語LLM評価のベストプラクティス
Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より運営してきた日本最大級のLLM日本語能力比較サイト、Nejumi LLMリーダーボード(http://nejumi.ai)の2回目のバージョンアップを行い、Nejumi LLMリーダーボード3を公開しました。評価ベンチマークを大幅に再構築することで、用途別に性能を評価するとともに、AIガバナンスにおいて注目の高まる安全性評価が追加されました。また推論の高速化およびライブラリのバージョン管理の簡素化などにより、企業でのプライベート評価もこれまで以上に簡単に実行できます。公開リーダーボードではOpenAIやAnthropicなどの最新の商用APIはもちろん、幅広いオープンソースモデルを含む40以上のモデルの評価結果をインタラクティブに比較することができます。また、本リーダーボードの詳細を解説する、W&B Japanのマンスリーミートアップが7/2に予定されています。
関連リンク:
Nejumi LLM リーダーボード 3:http://nejumi.ai
Nejumi LLM リーダーボード3からの考察ブログ:https://note.com/wandb_jp/n/nd4e54c2020ce
W&Bミートアップ #14 in 東京:https://wandb.connpass.com/event/321967/
今回のアップデートの背景
[画像1: https://prtimes.jp/i/119963/16/resize/d119963-16-62a49ba97f8667fa3f55-0.png ]
Weights & Biasesでは、2023年7月からLLMモデル評価を行う「Nejumi LLMリーダーボード」にて、当社の提供するLLMOpsプラットフォーム「WandB」を使い、LLMモデルの日本語性能比較を行うためのベンチマークを開発し、幅広いモデルの評価を国内外のAI開発・提供者に提供してきました。
LLM開発の勢いは依然速いペースで進んでおり、モデル性能の急速な向上が続いています。また、LLM技術の社会・事業実装に向けた取り組みも進んでおり、それに伴ってモデルおよびアプリケーションの評価にはこれまで以上に幅広い内容が求められています。本年4月に発表された「AI事業者ガイドライン」においては、AIの開発・提供者が透明性の高い開発体制を構築し、リスクへの対策を講じることなどを通じて、AIガバナンスを確保することの重要性が指摘されています。
このような背景を受け、今回のアップデートに先立ってリリースされたホワイトペーパー、「大規模言語モデルを評価するためのベストプラクティス」では最新のLLM評価手法を網羅的に調査した結果をまとめています。これに基づいて行われたこの度のNejumiリーダーボードのアップデートにおいては評価内容に二つの大きなアップデートを行ないました。
用途主体の評価:これまでの評価データの枠組み主とする主体の評価から利用目的別にLLMの性能を把握することを容易にするためのフレームワークを構築
安全性能の検証:「制御性」「毒性」「偏見」など、人間の価値観と一致した出力を行えるか(アラインメント)を評価するためのフレームワークを構築
これらの評価フレームワークは引き続きオープンソースで共有され、企業のユーザーが結果を公開せずにプライベートな環境で評価を行うことも可能です*。
*プライベート評価にはWeighs & Biasesエンタープライズライセンスが必要です
関連リンク:
ベンチマーク評価実行用コードの公開場所:https://github.com/wandb/llm-leaderboard/tree/main
「大規模言語モデルを評価するためのベストプラクティス」:http://wandb.me/jp-llm-eval-wp
AI事業者ガイドライン:https://www.meti.go.jp/press/2024/04/20240419004/20240419004.html
今回のアップデートの詳細
1.評価の更なる多角化: Nejumi LLMリーダーボード3では、従来のllm-jp-eval (言語理解) とJapanese MT-Bench (言語生成) で評価していた 「汎用的言語能力」に加え、「制御性」「毒性」「偏見」など、人間の価値観と一致した出力を行えるかを評価する「アラインメント」という新たな軸を導入しました。日本語のアラインメント評価においては、LCTGやJBBQ、JcommonseMoralityなど、公開されている最新データセットを最大限取り入れました。
2.実用性を重視した評価体系: 実際のユースケースを想定して、タクソノミーの整理を行い、結果を集計しています。
3.Few-shotプロンプトの導入: 偶然に同様の設問形式を学習したことでフォーマットへの対応力に差がついてしまい、スコアに如実な差がついてしまうことへの対応として、従来のZero-shotに加えてFew-shotプロンプトによる評価を導入しました。最終スコアはZero-shot評価とFew-shot評価の平均によって算出されています。
4.高速で統一された評価プロセス: vLLMを活用することで、評価プロセスの大幅な高速化を実現しました。さらに、推論インターフェースの統一により、様々なモデルの結果追加がより容易になりました。これにより、企業でのプライベート利用もしやすくなりました。また、直近対応するモデルが増えているchat templateをベースとした推論を導入し、モデルごとに適した推論ができるような工夫も行なっています。
インタラクティブにモデル評価結果を分析
前バージョンに引き続き、本リーダーボード公開ページでは、WandB製品の強みを活かして、よりインタラクティブに評価結果を表示し、その場で分析することが可能です。例えば、理解能力と生成能力のバランスを評価したり、二つのモデルの違いがどのような事例で発生するのかを分析したりすることが可能になります。具体的にはインタラクティブに比較対象モデルを選択し、WandB Table機能を用いて、平均スコアではなく、一問ずつの深掘を行うことができます。
Weights & Biases Japan株式会社について
Weights & Biases Japan株式会社は、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを販売する日本法人です。WandBは、LLM開発や画像セグメンテーション、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で50万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。
W&B社日本語ウェブサイト:https://wandb.jp
[画像2: https://prtimes.jp/i/119963/16/resize/d119963-16-8c61f4f4c5c083eda3dd-1.png ]
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
日鉄ソリューションズ、アステラス製薬に、MLOpsプラットフォームWeights & Biases を導入 ~AI創薬を支援~
Digital PR Platform / 2024年7月3日 11時15分
-
Google、オープンLLM「Gemma 2」公開、2倍以上のサイズのモデルに匹敵する効率性
マイナビニュース / 2024年6月28日 9時22分
-
開発費30万円のLLM、『AWS Summit Japan2024』のブース出展およびCPOの登壇決定
PR TIMES / 2024年6月18日 15時45分
-
Weights & BiasesがVision-Languageモデル評価のためのHeron VLMリーダーボードを公開
PR TIMES / 2024年6月13日 13時45分
-
チューリング、Vision & Languageモデル評価のための「Heron VLMリーダーボード」に技術提供
PR TIMES / 2024年6月13日 13時45分
ランキング
-
120年ぶりの新紙幣に期待と困惑 “完全キャッシュレス”に移行の店舗も
日テレNEWS NNN / 2024年7月2日 22時4分
-
2小田急線「都会にある秘境駅」が利用者数の最下位から脱出!超巨大ターミナルから「わずか700m」
乗りものニュース / 2024年7月1日 14時42分
-
3「7月3日の新紙幣発行」で消費活動に一部支障も? 新紙幣関連の詐欺・トラブルにも要注意
東洋経済オンライン / 2024年7月2日 8時30分
-
4カチンコチンの「天然水ゼリー」が好調 膨大な自販機データから分かってきたこと
ITmedia ビジネスオンライン / 2024年6月30日 6時30分
-
5イオン「トップバリュ」値下げ累計120品目に 「だし香るたこ焼」など新たに32品目
ORICON NEWS / 2024年7月2日 16時26分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)