Weights & BiasesがVision-Languageモデル評価のためのHeron VLMリーダーボードを公開
PR TIMES / 2024年6月13日 13時45分
6月18日のW&B Japanミートアップに開発者が登壇
Weights & Biases Japan株式会社(以下、W&B Japan)は、本日、画像と言語を統合するVision-Languageモデル(以下、VLM)の評価のためのHeron VLMリーダーボードを公開しました。本リーダーボードではVLMの評価のために世界で広く使われているLLaVA Bench (In-the-Wild) と、Turing株式会社(以下、チューリング)が開発したJapanese Heron Benchの二つのベンチマークを組み合わせた総合評価となっており、W&B Japanはチューリングとの技術連携のもと、リーダーボードの構築と運営を行っています。本リーダーボードは http://vlm.nejumi.ai/ からアクセスでき、公開時に15を超えるVLMの比較が可能です。また本リーダーボードで使われている評価方法については、6月18日のW&B Japanミートアップにて解説します。
[画像1: https://prtimes.jp/i/119963/15/resize/d119963-15-86fa1991ef8d4e4ca603-2.png ]
Heron VLMリーダーボード:http://vlm.nejumi.ai/
6月18日のW&B Japanミートアップ:https://wandb.connpass.com/event/319391/
Japanese Heron Bench: https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench
マルチモーダルなモデル評価の重要性
生成AIモデルの進化は様々な方向に向かっています。W&B Japanが運営しているNejumiリーダーボード(Nejumi.ai)では毎週のように公開される新しいLLMモデルが言語性能の記録を次々に更新しています。同時に一部のモデルにおいては、言語性能に加え画像の解釈及び生成能力の向上が進んでおり、様々な分野への応用が期待されています。例えば、Heron VLMリーダーボードの評価ベンチマークの一つを開発したチューリングでは、VLMを自動運転に活用することで、これまでの物体認識モデルでは判断の難しかったような複雑な状況においても、安全な走行のための判断を行えるシステムの開発に取り組んでいます。このように画像と言語を組み合わせたマルチモーダルモデル性能の理解を促進することで、その応用ポテンシャルをさらに広げていくために、W&B Japanでは今回のリーダーボードの開発に取り組んできました。
「Heron VLMリーダーボード」のモデル評価方法
今回のHeron VLMリーダーボードは、国内のVLM開発をリードするチューリングと国内最大級のLLMリーダーボード: Nejumi LLMリーダーボードを運営するW&B Japanの知見を合わせることで開発されました。このリーダーボードは、従来のLLaVA Bench (In-the-Wild)の日本語版に加え、チューリングが独自に開発したHeron Benchを採用することで、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価を可能にしています。さらに、VLMの学習パイプラインは通常のLLMと比べてまだ標準化が進んでおらず、開発元ごとに異なるため管理が複雑になりがちですが、Heron VLMリーダーボードではWeights & Biases プラットフォームの実験管理機能を活用し、評価の再現性とトレーサビリティを担保しています。
インタラクティブにモデル評価結果を分析
本リーダーボード公開ページは、マルチモーダルなデータの可視化に対応したWeights & Biases プラットフォーム(以下WandB)の各機能を利用しています。よりインタラクティブに評価結果を表示し、その場で分析することが可能で、平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えることができるよう設計されています。例えば、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、一つ一つの評価タスクにおける入出力を可視化するテーブルなどが含まれています。
自社のモデルを非公開で評価することも可能
本リーダーボードで使われている評価フレームワークはWandBを使ってどなたでも実行することが可能です。リーダーボード評価に使われたコードはGitHub上に公開されており、このコードを使うことで、結果を公開しない形で自社のモデルを評価することも可能です。
Weights & Biasesについて
Weights & Biases, Inc.は、米国サンフランシスコを拠点とし、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを提供しています。WandBは、LLM開発や自動運転、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。
W&B社日本語ウェブサイト:https://wandb.jp
[画像2: https://prtimes.jp/i/119963/15/resize/d119963-15-499e58242545ac913227-1.png ]
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を一般公開
PR TIMES / 2024年6月20日 11時15分
-
開発費30万円のLLM、『AWS Summit Japan2024』のブース出展およびCPOの登壇決定
PR TIMES / 2024年6月18日 15時45分
-
サイバーエージェント、大規模“視覚”言語モデル(VLM)を公開‐日本語に対応
マイナビニュース / 2024年6月13日 14時0分
-
チューリング、Vision & Languageモデル評価のための「Heron VLMリーダーボード」に技術提供
PR TIMES / 2024年6月13日 13時45分
-
NVIDIA NIM がモデル展開に革命をもたらし、世界中の何百万人もの開発者を生成 AI 開発者に変える
PR TIMES / 2024年6月3日 11時15分
ランキング
-
1鉄道ファン“安堵”青春18きっぷ 今夏も発売、JR東日本「現時点で廃止する予定はありません」【Nスタ解説】
TBS NEWS DIG Powered by JNN / 2024年6月20日 20時36分
-
2円安によって多くの日本人は再び豊かになる 今の円安に対して過剰に反応してはいけない
東洋経済オンライン / 2024年6月21日 9時30分
-
3円の国際価値が過去最低、BIS ドルなどと大差、通貨地位揺らぐ
共同通信 / 2024年6月20日 18時16分
-
4ついにLINEペイも撤退、瓦解するLINEの金融事業 LINEが描いてきた「経済圏」は画餅に終わるか
東洋経済オンライン / 2024年6月21日 8時20分
-
5「冷凍チャーハン」「カップ麺」に革命が…町中華の“あおり炒め”や“ゆでたての旨さ”を再現した日本の新技術【THE TIME,】
TBS NEWS DIG Powered by JNN / 2024年6月20日 7時30分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)