Alibaba、視覚的推論可能なAIモデル「QVQ-72B-Preview」を公開
ITmedia NEWS / 2024年12月26日 8時59分
中国Alibabaは12月25日(現地時間)、高度な視覚的推論能力を持つ新しいオープンウェイトAIモデル「QVQ-72B-Preview」を発表した。複雑な問題を解決するために視覚情報を理解し、推論する能力において大きな進歩を遂げたとしている。
視覚的推論能力とは、画像や動画などの視覚情報を解釈し、その情報に基づいて論理的な結論を導き出す能力。
QVQ-72B-Previewは、画像内のオブジェクトを認識するだけでなく、オブジェクト間の関係性を理解し、文脈に基づいて推論する。例えば、複雑な物理の問題を、段階的に推論して解決策を導き出すことができるという。
医療診断で画像診断の結果を解釈して医師の診断をサポートしたり、日常では大型家具の仮想配置などに役立てられるとしている。
MathVista、MathVision、OlympiadBenchなどの数学・科学分野のベンチマークで優れた成績を収めた。特に、MathVisionでは、米OpenAIの最先端の推論モデル「o1」に迫る性能を示した。
QVQ-72B-PreviewはHugging Faceで公開されており、誰でもアクセスできる。
まだプレビュー段階であるため、課題も残されている。例えば、再帰的な推論ループに陥り、最終的な答えにたどり着かない冗長な応答を生成することがある。また、異なる言語を混在させたり、予期せず言語を切り替えたりすることがあり、応答の明瞭さに影響を与える可能性もあるとしている。
このモデルを試したオープンソース開発者のサイモン・ウィルソン氏のブログでテスト例を見ることができる。
外部リンク
この記事に関連するニュース
-
OpenAI、次世代AIモデル「o3」を発表、ARC-AGIテストで”85%超え”の快挙達成
マイナビニュース / 2024年12月21日 17時21分
-
Googleも"推論型"AIモデル公開「Gemini 2.0 Flash Thinking」、OpenAI o1に対抗
マイナビニュース / 2024年12月20日 9時25分
-
AskDona GPT、OpenAIの最新モデル「o1」に対応!
PR TIMES / 2024年12月19日 13時40分
-
LLMとは? 生成AIとの違いや企業の活用事例を解説
マイナビニュース / 2024年12月4日 9時0分
-
中国Alibaba、論理的推論重視のAIモデル「QwQ-32B-Preview」リリース
ITmedia NEWS / 2024年11月29日 9時41分
ランキング
-
1バターを室温に戻す簡単な方法を伝授!老舗洋菓子店主がXで紹介
おたくま経済新聞 / 2024年12月26日 9時0分
-
2「死ぬほど食べてたやつ」 東京ディズニーランド、6年ぶりに人気フード復活 「やったー!」「本当においしい」歓喜の声あふれる
ねとらぼ / 2024年12月26日 16時20分
-
3任天堂、2024年12月27日から「Nintendo Switch 新春セール」を開催!名作の数々のダウンロード版がセール価格に
Game*Spark / 2024年12月26日 11時0分
-
42024年ベストバイは「Apple Vision Pro」 2つの新体験に満足も、「アプリ」と「重量」は改善してほしい
ITmedia Mobile / 2024年12月26日 10時30分
-
5「ゲオの初売り 2025」2025年元旦スタート! 中古スマホやゲームなどがお得に
マイナビニュース / 2024年12月25日 15時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください