低コスト開発で米AI株に衝撃を与えたDeepSeek、DALL-E3超えのマルチモーダルAI公開

マイナビニュース / 2025年1月28日 9時23分

画像提供：マイナビニュース

推論型大規模言語モデル「DeepSeek-R1」で注目を集める中国のAI企業DeepSeekが、「Janus-Pro」をリリースした。「画像と言語の理解」から「画像やテキストの生成」までを1つのフレームワークで実現するマルチモーダルAIモデルである。同社によると、Janus-Proは従来の統合型マルチモーダルモデルよりも優れた性能を示し、タスクごとに特化したモデルと同等またはそれ以上の成果を上げている。「Janus-Proのシンプルさ、高い柔軟性、有効性は、次世代の統一マルチモーダルモデルの有力な候補となる」と主張している。

Janus-Proは、テキストや画像など複数のモダリティ（マルチモーダル）を統合的に理解し、さらに生成も可能な新しいオートリグレッシブ（自己回帰型）フレームワークである。これまでのマルチモーダルモデルでは、「理解タスク」と「生成タスク」の両方で同じ視覚エンコーダを用いると、性能や設計に制約が生じることがあった。

Janus-Pro では、視覚エンコーディング部分を分離してマルチモーダル理解と生成のそれぞれに最適化された形で画像を処理し、モデル本体のトランスフォーマーには単一の統合アーキテクチャを採用している。これにより、理解タスクと生成タスクを同時にこなす際のトレードオフを緩和しながら、フレームワーク全体の拡張性や柔軟性を高めている。ベースとなる大規模言語モデル（LLM）は DeepSeek-LLM-1.5b-baseおよびDeepSeek-LLM-7b-base。画像の理解にはSigLIP-Lが用いられており、384ｘ384ピクセルサイズまで対応可能である。

こうした構造により、「テキスト-画像」生成を初期バージョンの「Janus」と比較した場合、短いプロンプトからより高品質な出力を得られ、簡単な文字要素の生成も安定した。

DeepSeekによれば、テキストから画像への生成モデルを評価するベンチマーク「GenEval」や「DPG-Bench」で、Janus-Pro-7BはDALL-E3、PixArt-alpha、Emu3-Gen、Stable Diffusion 3 Mediumなどのモデルを上回るスコアを示したという。

DeepSeekが1月20日にリリースした「DeepSeek-R1」は、OpenAIの推論型LLM「o1」に匹敵する性能を数学、コーディング、推論タスクで達成しており、24日にR1を用いたDeepThink機能を追加した「DeepSeek」アプリのアップデートが公開されると、同アプリはAppleのApp Storeで「ChatGPT」を抑えて1位を獲得した。

DeepSeekは、DeepSeek-R1をNVIDIAの旧式のAIチップを用いて560万ドルで開発したと主張している。最先端AIの開発コストは高騰し続けており、例えばOpenAIは「GPT-4」の訓練費用に1億ドル以上を投じたとされる。DeepSeekの主張が事実であれば、高コストのAIモデルに投資が集中していたこれまでの常識が覆される可能性がある。実際、DeepSeek-R1が登場したことで、1月27日の米株式市場でAI関連株は総じて大幅安となった。とりわけNVIDIAへの影響は大きく、NVIDIA株の終値は前日比17％安の118.42ドルだった。
（Yoichi Yamashita）

外部リンク

津波情報気象庁発表

地震情報

低コスト開発で米AI株に衝撃を与えたDeepSeek、DALL-E3超えのマルチモーダルAI公開

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed