中国Alibabaは12月25日(現地時間)、高度な視覚的推論能力を持つ新しいオープンウェイトAIモデル「QVQ-72B-Preview」を発表した。複雑な問題を解決するために視覚情報を理解し、推論する能力において大きな進歩を遂げたとしている。
視覚的推論能力とは、画像や動画などの視覚情報を解釈し、その情報に基づいて論理的な結論を導き出す能力。
QVQ-72B-Previewは、画像内のオブジェクトを認識するだけでなく、オブジェクト間の関係性を理解し、文脈に基づいて推論する。例えば、複雑な物理の問題を、段階的に推論して解決策を導き出すことができるという。
医療診断で画像診断の結果を解釈して医師の診断をサポートしたり、日常では大型家具の仮想配置などに役立てられるとしている。
MathVista、MathVision、OlympiadBenchなどの数学・科学分野のベンチマークで優れた成績を収めた。特に、MathVisionでは、米OpenAIの最先端の推論モデル「o1」に迫る性能を示した。
QVQ-72B-PreviewはHugging Faceで公開されており、誰でもアクセスできる。
まだプレビュー段階であるため、課題も残されている。例えば、再帰的な推論ループに陥り、最終的な答えにたどり着かない冗長な応答を生成することがある。また、異なる言語を混在させたり、予期せず言語を切り替えたりすることがあり、応答の明瞭さに影響を与える可能性もあるとしている。
このモデルを試したオープンソース開発者のサイモン・ウィルソン氏のブログでテスト例を見ることができる。