イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に
ITmedia NEWS / 2024年4月14日 6時53分
イーロン・マスク氏の米AI企業xAIは4月12日(現地時間)、昨年11月に発表した独自LLM(大規模言語モデル)「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。
1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリーンショット、写真などの解析で、既存のマルチモーダルモデルと競合するとしている。
xAIは例として、ホワイトボードに手書きしたフローチャートをPythonのコードにするようGrokに命じ、正しいコードを出力させたことを紹介している。
また、Grokがユーモアを解することを示すような例も示した。
競合との性能比較には、“新たに導入するベンチマーク”の「RealWorldQA」を用いた。このベンチマークで、Grok-1.5Vの空間理解能力が、OpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れているという結果が出たとしている。
xAIは、「マルチモーダルな理解と生成機能を進歩させることは、宇宙を理解できる有益なAGI構築のための重要なステップだ」とし、向こう数カ月で画像だけでなく、音声や動画などのモダリティにわたって理解だけでなく生成の機能も大幅に改善していく予定だとしている。
外部リンク
この記事に関連するニュース
-
<2024 AIトレンド通信 4月>OpenAI、東京オフィス開設!GMOはAI活用で106,000時間/月の業務時間を創出
PR TIMES / 2024年5月7日 13時15分
-
ロゼッタ「Metareal AI LLM 2」に「Llama3」70Bと8Bを追加。米Meta最先端大規模言語モデルをスピーディに企業へ提供 メタリアル・グループのロゼッタ
PR TIMES / 2024年4月25日 17時15分
-
法人向け生成AIサービス「Tachyon 生成AI」に最新の高性能LLM「Claude 3」と「Gemini」を搭載
PR TIMES / 2024年4月22日 12時15分
-
メタ、最新AI「Llama 3」業界トップ級の性能
ASCII.jp / 2024年4月19日 17時45分
-
最も賢い人間しのぐAI、早ければ来年に開発も=マスク氏
ロイター / 2024年4月9日 6時24分
ランキング
-
1「新紙幣出てきたんだけど」 レジで“千円札”見た若者がポツリ→まさかの正体にショック広がる 「そうだよねえぇ」
ねとらぼ / 2024年5月7日 12時0分
-
2シャープ、デザイン一新&ディスプレイ大型化の「AQUOS wish4」
マイナビニュース / 2024年5月8日 11時0分
-
3「天才なのか狂気なのか」 ガソリンタンクに液体窒素を入れてみたら…… 海外の“とんでもない実験”に心臓バクバク
ねとらぼ / 2024年5月6日 8時0分
-
4iPadに“史上最大”の変化 「Appleスペシャルイベント」発表内容まとめ
ITmedia Mobile / 2024年5月7日 23時5分
-
5「意外過ぎる復活」を遂げたレトロゲーム3選 クソゲーと名高い『いっき』は別ジャンルに?
マグミクス / 2024年5月7日 21時25分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください