Weights & BiasesがVision-Languageモデル評価のためのHeron VLMリーダーボードを公開
PR TIMES / 2024年6月13日 13時45分
6月18日のW&B Japanミートアップに開発者が登壇
Weights & Biases Japan株式会社(以下、W&B Japan)は、本日、画像と言語を統合するVision-Languageモデル(以下、VLM)の評価のためのHeron VLMリーダーボードを公開しました。本リーダーボードではVLMの評価のために世界で広く使われているLLaVA Bench (In-the-Wild) と、Turing株式会社(以下、チューリング)が開発したJapanese Heron Benchの二つのベンチマークを組み合わせた総合評価となっており、W&B Japanはチューリングとの技術連携のもと、リーダーボードの構築と運営を行っています。本リーダーボードは http://vlm.nejumi.ai/ からアクセスでき、公開時に15を超えるVLMの比較が可能です。また本リーダーボードで使われている評価方法については、6月18日のW&B Japanミートアップにて解説します。
[画像1: https://prtimes.jp/i/119963/15/resize/d119963-15-86fa1991ef8d4e4ca603-2.png ]
Heron VLMリーダーボード:http://vlm.nejumi.ai/
6月18日のW&B Japanミートアップ:https://wandb.connpass.com/event/319391/
Japanese Heron Bench: https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench
マルチモーダルなモデル評価の重要性
生成AIモデルの進化は様々な方向に向かっています。W&B Japanが運営しているNejumiリーダーボード(Nejumi.ai)では毎週のように公開される新しいLLMモデルが言語性能の記録を次々に更新しています。同時に一部のモデルにおいては、言語性能に加え画像の解釈及び生成能力の向上が進んでおり、様々な分野への応用が期待されています。例えば、Heron VLMリーダーボードの評価ベンチマークの一つを開発したチューリングでは、VLMを自動運転に活用することで、これまでの物体認識モデルでは判断の難しかったような複雑な状況においても、安全な走行のための判断を行えるシステムの開発に取り組んでいます。このように画像と言語を組み合わせたマルチモーダルモデル性能の理解を促進することで、その応用ポテンシャルをさらに広げていくために、W&B Japanでは今回のリーダーボードの開発に取り組んできました。
「Heron VLMリーダーボード」のモデル評価方法
今回のHeron VLMリーダーボードは、国内のVLM開発をリードするチューリングと国内最大級のLLMリーダーボード: Nejumi LLMリーダーボードを運営するW&B Japanの知見を合わせることで開発されました。このリーダーボードは、従来のLLaVA Bench (In-the-Wild)の日本語版に加え、チューリングが独自に開発したHeron Benchを採用することで、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価を可能にしています。さらに、VLMの学習パイプラインは通常のLLMと比べてまだ標準化が進んでおらず、開発元ごとに異なるため管理が複雑になりがちですが、Heron VLMリーダーボードではWeights & Biases プラットフォームの実験管理機能を活用し、評価の再現性とトレーサビリティを担保しています。
インタラクティブにモデル評価結果を分析
本リーダーボード公開ページは、マルチモーダルなデータの可視化に対応したWeights & Biases プラットフォーム(以下WandB)の各機能を利用しています。よりインタラクティブに評価結果を表示し、その場で分析することが可能で、平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えることができるよう設計されています。例えば、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、一つ一つの評価タスクにおける入出力を可視化するテーブルなどが含まれています。
自社のモデルを非公開で評価することも可能
本リーダーボードで使われている評価フレームワークはWandBを使ってどなたでも実行することが可能です。リーダーボード評価に使われたコードはGitHub上に公開されており、このコードを使うことで、結果を公開しない形で自社のモデルを評価することも可能です。
Weights & Biasesについて
Weights & Biases, Inc.は、米国サンフランシスコを拠点とし、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを提供しています。WandBは、LLM開発や自動運転、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。
W&B社日本語ウェブサイト:https://wandb.jp
[画像2: https://prtimes.jp/i/119963/15/resize/d119963-15-499e58242545ac913227-1.png ]
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
日鉄ソリューションズ、アステラス製薬に、MLOpsプラットフォームWeights & Biases を導入 ~AI創薬を支援~
Digital PR Platform / 2024年7月3日 11時15分
-
生成AIを活用した完全自動運転車両を開発するTuring株式会社へ追加出資
PR TIMES / 2024年7月2日 18時40分
-
Nejumi LLMリーダーボードがアップデートされ、安全性評価など多数の評価を追加
PR TIMES / 2024年7月1日 19時45分
-
オンプレミス導入も可能な高性能日本語LLM「Llama 3 neoAI 8B Chat v0.1」を公開
PR TIMES / 2024年6月26日 16時45分
-
チューリング、Vision & Languageモデル評価のための「Heron VLMリーダーボード」に技術提供
PR TIMES / 2024年6月13日 13時45分
ランキング
-
120年ぶりの新紙幣に期待と困惑 “完全キャッシュレス”に移行の店舗も
日テレNEWS NNN / 2024年7月2日 22時4分
-
2小田急線「都会にある秘境駅」が利用者数の最下位から脱出!超巨大ターミナルから「わずか700m」
乗りものニュース / 2024年7月1日 14時42分
-
3「7月3日の新紙幣発行」で消費活動に一部支障も? 新紙幣関連の詐欺・トラブルにも要注意
東洋経済オンライン / 2024年7月2日 8時30分
-
4カチンコチンの「天然水ゼリー」が好調 膨大な自販機データから分かってきたこと
ITmedia ビジネスオンライン / 2024年6月30日 6時30分
-
5イオン「トップバリュ」値下げ累計120品目に 「だし香るたこ焼」など新たに32品目
ORICON NEWS / 2024年7月2日 16時26分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)