1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に

ITmedia NEWS / 2024年4月14日 6時53分

写真

 イーロン・マスク氏の米AI企業xAIは4月12日(現地時間)、昨年11月に発表した独自LLM(大規模言語モデル)「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。

 1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリーンショット、写真などの解析で、既存のマルチモーダルモデルと競合するとしている。

 xAIは例として、ホワイトボードに手書きしたフローチャートをPythonのコードにするようGrokに命じ、正しいコードを出力させたことを紹介している。

 また、Grokがユーモアを解することを示すような例も示した。

 競合との性能比較には、“新たに導入するベンチマーク”の「RealWorldQA」を用いた。このベンチマークで、Grok-1.5Vの空間理解能力が、OpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れているという結果が出たとしている。

 xAIは、「マルチモーダルな理解と生成機能を進歩させることは、宇宙を理解できる有益なAGI構築のための重要なステップだ」とし、向こう数カ月で画像だけでなく、音声や動画などのモダリティにわたって理解だけでなく生成の機能も大幅に改善していく予定だとしている。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください