アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
ASCII.jp / 2024年3月18日 18時0分
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。
一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮
複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。
![](https://ascii.jp/img/2024/03/18/3703683/x/b7370e7d4b955b11.png)
各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などのベンチマークで強力なパフォーマンスを示している。
また、両モデルはMoE(Mixture-of-Experts:複数の専門家モデルを組み合わせ、効率的に処理ができるアーキテクチャ)モデルも試されており、いずれも通常のモデルよりも優れた性能を発揮している。
さらに、300億パラメーターモデルでは、VQAv2(画像理解)ベンチマークにおいてグーグルの「Gemini Pro」「Gemini Ultra」、そしてOpenAIの「GPT-4V」に勝るスコアを示している。
画像を理解する能力は圧倒的
いくつか公開されているデモ画像を見てみよう。
![](https://ascii.jp/img/2024/03/18/3703678/x/8ab1e2ff3bfeb624.png)
画像内のリンゴやみかんの個数を正確に計測している。
![](https://ascii.jp/img/2024/03/18/3703677/x/ff9d5a213b7f337e.png)
画像内の文字や数字も認識しているようだ。
![](https://ascii.jp/img/2024/03/18/3703675/x/d9c74de2962e92f6.png)
「画像を見た人間がどのように感じ、反応するか」を問う抽象的な質問にも長文で回答している。
![](https://ascii.jp/img/2024/03/18/3703680/x/4ea9273a0f78359c.png)
ビーチパラソルの画像から温暖な気候を読み取り、25〜30度の気温を推定したり、雪の上を飛ぶ飛行機の画像から-20〜-30度を推測するなど、画像のコンテキストを理解した対応も得意なようだ。
![](https://ascii.jp/img/2024/03/18/3703674/x/d7f2deda5bbd578d.png)
さらに「画像を使い、先生になったつもりで蒸発と蒸発散の違いを説明する」「フローチャートを説明する」といった難問にも完璧に答えているように見える。
「レシピ」の公開が示すもの
アップルは論文内で、マルチモーダルLLM(MLLMs)は増えているが、その訓練データ、アーキテクチャー、トレーニングの詳細についてはほとんどまたは全く公開されていないことを指摘。
MM1はすべてのコンポーネントに関して、そのアーキテクチャーから、データセットの内容、事前学習・ファインチューニングの詳細、モデルサイズに至るまで、詳細な情報(MLLMsの開発レシピ)を公開している。
アップルが開発レシピを公開したことは、AI研究における透明性と共有を促進する意図を示していると共に、「オープン」をうたいながらクローズドの方向に向かっている競合ビッグテック達に対する一種の牽制とも受け取れる。
近年、グーグルやメタ、マイクロソフト(OpenAI)などは、AIに多大な投資をしているが、その多くは自社のエコシステム内に閉じたものになりがちだ。
アップルはMM1の開発手法を公開することで、AI研究コミュニティ全体の発展に貢献しようとする姿勢をアピールしている。
また、アップルは今年、AIシステムを小型化し効率化する技術を開発するカナダのAI企業「DarwinAI」を買収している。遅れを取ったAI分野でも存在感を高めようとしていることを明確に示している。
この記事に関連するニュース
-
ChatGPTよりも安全を掲げる"憲法AI"の可能性 AIをトレーニングし安全・無害・誠実な出力を行う
東洋経済オンライン / 2024年7月1日 11時30分
-
最新の高性能LLM「Claude 3.5 Sonnet」を「Tachyon 生成AI」に搭載
PR TIMES / 2024年6月28日 10時45分
-
GPT-4oを上回る? Anthropicが「Claude 3.5 Sonnet」をリリース
マイナビニュース / 2024年6月21日 6時17分
-
<2024 AIトレンド通信 5月>OpenAIがSpring Updateにて「GPT-4o」発表
PR TIMES / 2024年6月18日 13時45分
-
サイバーエージェント、大規模“視覚”言語モデル(VLM)を公開‐日本語に対応
マイナビニュース / 2024年6月13日 14時0分
ランキング
-
1老後の趣味で気軽に“塗り絵”を始めて1年後…… めきめき上達した70代女性の美麗な水彩画に「本当にすごい…」「感動です」
ねとらぼ / 2024年6月29日 22時0分
-
2藤本美貴&庄司智春、真っ昼間に変装ゼロで“腕絡め”デート 大勢の注目浴びるも“モザイク9割”の結果で「笑った」
ねとらぼ / 2024年7月2日 15時1分
-
3中小企業の社内Wi-Fi接続、約半数が「つながりにくさ」を実感‐対処法は?
マイナビニュース / 2024年7月3日 11時50分
-
4新紙幣「一万円札と千円札の1の字が違う」SNSに違和感覚えるという声も…… 「1」のデザインが違う理由は?
ねとらぼ / 2024年7月3日 18時15分
-
5シャオミ、ペンを発売 「書き心地は良いが、タブレットとペアリングはできません」と公式
ITmedia NEWS / 2024年7月3日 8時30分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)