Infoseek 楽天

Alibaba、視覚的推論可能なAIモデル「QVQ-72B-Preview」を公開

ITmedia NEWS 2024年12月26日 8時59分

 中国Alibabaは12月25日(現地時間)、高度な視覚的推論能力を持つ新しいオープンウェイトAIモデル「QVQ-72B-Preview」を発表した。複雑な問題を解決するために視覚情報を理解し、推論する能力において大きな進歩を遂げたとしている。

 視覚的推論能力とは、画像や動画などの視覚情報を解釈し、その情報に基づいて論理的な結論を導き出す能力。

 QVQ-72B-Previewは、画像内のオブジェクトを認識するだけでなく、オブジェクト間の関係性を理解し、文脈に基づいて推論する。例えば、複雑な物理の問題を、段階的に推論して解決策を導き出すことができるという。

 医療診断で画像診断の結果を解釈して医師の診断をサポートしたり、日常では大型家具の仮想配置などに役立てられるとしている。

 MathVista、MathVision、OlympiadBenchなどの数学・科学分野のベンチマークで優れた成績を収めた。特に、MathVisionでは、米OpenAIの最先端の推論モデル「o1」に迫る性能を示した。

 QVQ-72B-PreviewはHugging Faceで公開されており、誰でもアクセスできる。

 まだプレビュー段階であるため、課題も残されている。例えば、再帰的な推論ループに陥り、最終的な答えにたどり着かない冗長な応答を生成することがある。また、異なる言語を混在させたり、予期せず言語を切り替えたりすることがあり、応答の明瞭さに影響を与える可能性もあるとしている。

 このモデルを試したオープンソース開発者のサイモン・ウィルソン氏のブログでテスト例を見ることができる。

この記事の関連ニュース