アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
ASCII.jp / 2024年3月18日 18時0分
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。
一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮
複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。
各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などのベンチマークで強力なパフォーマンスを示している。
また、両モデルはMoE(Mixture-of-Experts:複数の専門家モデルを組み合わせ、効率的に処理ができるアーキテクチャ)モデルも試されており、いずれも通常のモデルよりも優れた性能を発揮している。
さらに、300億パラメーターモデルでは、VQAv2(画像理解)ベンチマークにおいてグーグルの「Gemini Pro」「Gemini Ultra」、そしてOpenAIの「GPT-4V」に勝るスコアを示している。
画像を理解する能力は圧倒的
いくつか公開されているデモ画像を見てみよう。
画像内のリンゴやみかんの個数を正確に計測している。
画像内の文字や数字も認識しているようだ。
「画像を見た人間がどのように感じ、反応するか」を問う抽象的な質問にも長文で回答している。
ビーチパラソルの画像から温暖な気候を読み取り、25〜30度の気温を推定したり、雪の上を飛ぶ飛行機の画像から-20〜-30度を推測するなど、画像のコンテキストを理解した対応も得意なようだ。
さらに「画像を使い、先生になったつもりで蒸発と蒸発散の違いを説明する」「フローチャートを説明する」といった難問にも完璧に答えているように見える。
「レシピ」の公開が示すもの
アップルは論文内で、マルチモーダルLLM(MLLMs)は増えているが、その訓練データ、アーキテクチャー、トレーニングの詳細についてはほとんどまたは全く公開されていないことを指摘。
MM1はすべてのコンポーネントに関して、そのアーキテクチャーから、データセットの内容、事前学習・ファインチューニングの詳細、モデルサイズに至るまで、詳細な情報(MLLMsの開発レシピ)を公開している。
アップルが開発レシピを公開したことは、AI研究における透明性と共有を促進する意図を示していると共に、「オープン」をうたいながらクローズドの方向に向かっている競合ビッグテック達に対する一種の牽制とも受け取れる。
近年、グーグルやメタ、マイクロソフト(OpenAI)などは、AIに多大な投資をしているが、その多くは自社のエコシステム内に閉じたものになりがちだ。
アップルはMM1の開発手法を公開することで、AI研究コミュニティ全体の発展に貢献しようとする姿勢をアピールしている。
また、アップルは今年、AIシステムを小型化し効率化する技術を開発するカナダのAI企業「DarwinAI」を買収している。遅れを取ったAI分野でも存在感を高めようとしていることを明確に示している。
この記事に関連するニュース
-
法人向け生成AIサービス「Tachyon 生成AI」に最新の高性能LLM「Claude 3」と「Gemini」を搭載
PR TIMES / 2024年4月22日 12時15分
-
Meta、無料で商用可の新LLM「Llama 3」、ほぼすべてのクラウドでアクセス可能に
ITmedia NEWS / 2024年4月19日 9時31分
-
Meta、次世代オープンLLM「Llama 3」公開、対話AI「Meta AI」のWebサイト開設
マイナビニュース / 2024年4月19日 7時51分
-
イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に
ITmedia NEWS / 2024年4月14日 6時53分
-
LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~
Digital PR Platform / 2024年4月12日 0時0分
ランキング
-
1通話専用にオススメの通信サービス 楽天モバイルやpovo2.0を追加契約した方がお得?
ITmedia Mobile / 2024年4月28日 10時5分
-
2楽天モバイルで「身に覚えのないeSIM再発行」の危険性 緩すぎる2つのプロセスは改善すべき
ITmedia Mobile / 2024年4月27日 6時5分
-
3Chromeだと思ったらマルウェアだった、Android狙うサイバー攻撃に注意
マイナビニュース / 2024年4月27日 9時5分
-
4「もふもふ動画」はただの無断転載アカウントではない?その正体に迫る<前編>
おたくま経済新聞 / 2024年4月26日 16時38分
-
5「君たちのお母さんじゃありましぇーーん!!」 一時預かり中の子猫たちに吸われまくる先住猫、心の叫びに爆笑
ねとらぼ / 2024年4月22日 7時5分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください