Infoseek 楽天

AppleのAI戦略発表はなぜ他社より大幅に遅れたのか 「Apple Intelligence」の真価を読み解く

ITmedia Mobile 2024年7月19日 11時27分

 次のWWDCでAppleはAIフレームワークを発表する……そう筆者が予測したのは前回の連載コラムだった。

・「ChatGPT」アプリの登場で“生成AIとSiriの関係”はどう変わる? AppleのAI戦略を予想する

 「チャットAIのためのフレームワークをAppleが提供し、デベロッパーとユーザーが安心してLLMなどの生成AIを使えるようにする」

 この予想はApple Intelligenceの発表でほぼ当たったといえるのではないだろうか。

 ただ、この予想を立てたのは2023年の6月。WWDC23前のことだった。ふたを開けてみると、記事公開直後のイベントでは生成AIらしきものは全く発表されず、がっかりしてしまい、この連載もその後1年休載してしまった。

 生成AIはその間も爆速で進化を続けている。当時ですら遅すぎると思っていたAppleの生成AIへの取り組み発表までさらに1年を要し、それもすぐに出るのではなく、米国で秋以降、米国以外では2025年以降と、へたすると2年待たされることになる。

 では、なぜAppleが生成AIに正面切って取り組む発表をするのが2024年なのか。Microsoft Copilot+ PCは発表済みなのに遅すぎやしないか。結局OpenAIかGoogleに頼ることになるのか。

 そんな疑問を抱いてWWDC24に臨んだのだが、そこで発表されたApple Intelligenceの内容を精査していくうちに、これは非常によく練られた計画だということに気付いた。

 今回は彼らが1年(もしくは数年分)の長きにわたってやってきたことと、どうしてそうしなければならなかったかを考えてみたい。

●Apple Intelligenceの発表はなぜここまで遅れたのか

 Apple Intelligenceは、Apple SiliconのM1、A17 Pro以上のSoCを搭載したiPhone、iPad、Macで利用できるAIフレームワークである。これ以上のスペックを持ったApple製デバイスであれば何でも動くというわけではない。

 その例外は、Apple Vision Proだ。M2プロセッサを搭載したスタンドアロンMRヘッドセットであるVision Proはスペック的には十分なはずだが、なぜか対象外である。中身はほぼiPadOSといってよいのに。

 対象デバイスが少ない問題については後で語るとして、まずは、Appleの発表がなぜここまで遅くなってしまったのかについて考えてみたい。

 筆者が1年前にAppleのAIフレームワークを予想したときには、既にほぼ実用域に達していたOpenAIとGoogle、そしてオープンソースで存在感を高めているMetaのLLMをうまく利用していくことを想定していた。

 その後は強力なLLMとしてAnthropicのClaudeが台頭し、CohereのCommand R+の性能も注目されている。

 AIの世界は日進月歩、いや秒進分歩であり、これら3社に加え、Tencent、ByteDance、Baidu(百度)、Alibaba、Huaweiが毎週のように新技術を投入し、苛烈な戦いを繰り広げている。

 最高性能はすぐに書き換えられてしまう。だから、その最良の部分を利用できるようなフレームワークをAppleが提供し、それをユーザーが安全かつ安価に利用できるようにするだろうと考えたのだ。

 それならば、2023年6月でも可能だったろう。しかしAppleはそうしなかった。なぜか?

 ChatGPT-4oに聞いてみた。

Appleが2023年6月の時点で他社製LLM(大規模言語モデル)を採用しなかった理由について考えると、以下のような戦略的および技術的な要因が考えられます。

1. プライバシーとセキュリティの重視

Appleはプライバシーとセキュリティを非常に重視する企業です。他社製のLLMを採用することは、データの管理やプライバシー保護の観点でリスクが伴います。Appleはユーザーデータを外部に依存することなく、自社内で管理することを好むため、他社のモデルを採用しない方針を取った可能性があります。

2. カスタマイズと統合

Appleのエコシステムは、ハードウェアとソフトウェアの緊密な統合が特徴です。他社製のLLMを採用すると、Appleの製品やサービスとの統合が難しくなる可能性があります。自社で開発したモデルであれば、より柔軟にカスタマイズでき、Apple独自のエコシステムに最適化できる利点があります。

3. 技術的な優位性の確保

Appleは他社に依存せず、独自の技術を開発することで競争力を高める戦略を取ることが多いです。特にAIやLLMの分野では、技術的な優位性を確保するために自社開発を進めることで、長期的な競争力を維持しようとする意図があると考えられます。

4. コストとライセンス

他社製のLLMを採用すると、ライセンス料や使用料が発生する可能性があります。これにより、コストが増加するだけでなく、他社のビジネスモデルに依存するリスクも生じます。自社開発であれば、これらのコストを抑えることができ、長期的にはコスト効率が良くなります。

5. 開発の柔軟性

他社製のLLMを使用すると、その技術の制約に縛られることがあります。自社開発であれば、Appleのニーズに合わせて柔軟に機能を追加したり、改良したりすることができます。これにより、Appleが独自のビジョンに沿った製品やサービスを提供しやすくなります。

6. 他社との競争

LLMの分野では、GoogleやOpenAIなどの他社が強力なプレイヤーとして存在します。Appleが他社製のLLMを採用すると、これらの競合他社に技術的な依存をすることになり、競争上の不利を招く可能性があります。自社開発を選択することで、独自の競争優位性を保つことができます。

これらの要因を考慮すると、Appleが他社製LLMを採用せず、自社開発に注力した理由が理解できます。プライバシー保護、カスタマイズの柔軟性、コスト効率、技術的優位性の確保など、Appleの長期的な戦略に基づいた決定と考えられます。

 いずれも納得のいく理由だ。単にフレームワークを作って選択可能にしたところで、プライバシー、セキュリティの問題は付きまとうし、デバイスやユーザーの行動から得られる情報をどのように他社のサーバに安全に渡すかというクリティカルな問題は発生する。

 仮に主要LLMの開発企業のどこかと長期的な提携をしたとしても、今後のコンピューティングにおける最もコアな部分をそこに牛耳られることになる。それは避けたいだろう。

 LLMは超強力なマシンを回しっぱなしにするわけだから、コストだけでなく、2030年までにカーボンニュートラル達成を目標としているAppleの姿勢とは相入れない部分もある。マザーネイチャーに怒られてしまいそうだ。

 WWDC24直前にはOpenAIまたはGoogleとの全面的な提携やがうわさされていたが、ふたを開けてみれば、自社製LLMをデバイスに密結合させ、自社製クラウドとも統合したApple Intelligenceの壮大な計画が明らかになった。

●Apple Intelligenceの真価はオンデバイスとクラウドのハイブリッド戦略にある

 ここで、Apple Intelligenceはどういうものかを振り返ってみよう。基調講演で概要を知ることはできるが、手っ取り早くその細部まで理解を深められる資料がある。それは、「Platforms State of the Union」だ。

 Platforms State of the Unionは、WWDC基調講演の後に開催されるイベントで、発表内容をデベロッパー向けにもっと詳しくまとめたもの。長年の参加者はこっちが本番とする人がほとんどだ。現在はリアルなイベントではなく1本のまとまったビデオとなっているが、個別のセッションよりも分かりやすく、担当者が入れ替わり立ち替わり説明してくれる。

 1時間を超えるビデオのうち、冒頭の20分を費やしているのが、Apple Intelligenceについて。

 メインのプレゼンテーションはIntelligent System Experience Engineering担当VPのセバスチャン・マリノー=メス氏が行っている。彼の最初の説明がApple Intelligenceを端的に説明している。

 「Apple IntelligenceはPersonal Intelligence Systemで、強力な生成モデルをプラットフォームにもたらす。これによってiOS、iPadOS、macOSは強力な新機能を得ることができ、言語や画像を理解し生成できる。ユーザーのコンテキストを深く理解した上でその行動を手助けするというものだ」

 これだけだと「ああ、そうですね。そうなりますよね」というくらいだが、これを実現するためにどのようにしたか、というのが重要になる。

 Appleが最初に下した決断は、「オンデバイスで行く」というもの。つまり、iPhone、iPad、Macのデバイス上でLLMを動かす。クラウドに投げて結果をデバイスで表示するようなことは基本しない、ということだ。Apple SiliconにはNeural Engineを古くから積んでおり、その上で動く機械学習モデルはさまざまな用途で使われてきたから不思議なことではない。

 しかし、大規模言語モデルというからには、LLMはサイズも実行環境も重い。いくら高性能でUnified Memoryにより比較的潤沢で高速なメモリを持つとはいえ、通常のLLMを載せるのは不可能だ。

 一方で、こうしたオンデバイス向けのLLM、SLM(小規模言語モデル)も開発が進んでいる。2024年4月23日にはMicrosoftがPhi-3を公開した。3.8Bからスタートする小規模だが効率的なモデルだ。その翌日にはAppleがOpenELMという小規模なLLMを公開。こちらは270M、450M、1.1B、3Bとさらにフットプリントが小さいもの。

 GoogleのLLMであるGeminiにもオンデバイス向けのモデル「Gemini Nano」があり、PixelやChromebook、そしてChromeブラウザにも組み込まれる予定。Chromeへの組み込みは既にスタートしており、Canaryで利用可能です。サイズは4bit 3.25Bといわれている。

 Metaは6月27日に、MobileLLMを発表。1Bを切る小さなサイズながら高性能をうたっている。オープンソースのLlama 2についてもQualcommとの提携によってSnapdragon上で動かすことに成功している。

 いずれもオンデバイス上でのLLM動作を実現したのは2024年の春以降。2023年の時点では満足のいくLLMは、数十Gバイトの高速メモリや高性能GPUを搭載したモンスターマシンでなければ動かせなかった。

 つまり、この時点でLLMをデバイスに組み込もうとしても無理な相談で、デバイスからのクエリをクラウドに投げて戻っていくるのを待たなければならなかった。

 Appleはセキュリティの観点からもユーザー体験からも、この道を取るわけにはいかなかった。

 そこでどうしたか。それはPlatforms State of the Unionで説明されている。

 Appleが取ったのは、オンデバイスとクラウドのハイブリッド戦略だ。大半のLLMタスクはオンデバイスで処理し、そこで処理できない、より大きなコンピューティングパワーが必要なタスクはクラウドで処理する。この仕組み、「Private Cloud Compute」(PCC)は、Apple自身の専用データセンターで、セキュリティ、プライバシーを確保したプライベートクラウド上で、現行の最高レベルのLLMに匹敵する性能を出せるという。

 つまり、2種類のLLMのFoundation Model(基礎モデル)を作って提供しようというのだ。

 このうちオンデバイスLLMの方は3B以下なので、恐らくOpenELMがその成果の1つなのだろう。この基礎モデルがある程度形になったからこそ、Apple Intelligenceが発表できるようになったと推測できる。

 OpenELMはあくまでもオープンソースコミュニティー向けの研究目的のAIモデルであり、更新の計画はないとAppleは説明している。

 Appleにはこれとは別に、2023年11月に発表したマルチモーダルLLM「Ferret」もある。これは視覚インプットが可能なGPT-4レベルのLLMであるLLaVAをベースに開発。それを発展させて2024年4月に論文発表された「Ferret-UI」では、スマートフォンユーザーインタフェースの参照、位置特定、推論をこなしている。

 このように、表立った活動ではないが、Appleは着々とスマートフォンで動くLLMの技術を蓄積していたのだ。

●2024年秋のターゲットは妥当 オンデバイスで実用的な機能をこなすことの難しさも

 一方LLMの世界では、より小さなサイズと計算力で効果的なAI処理を可能にする技術として、bfloat16、4bit量子化、BitNetなどが登場している。

 こうした技術の進展を考えると、2024年秋というターゲットは、オンデバイスLLMとしては妥当な線だったと考えられる。

 ユーザーが欲しがる処理全てをオンデバイスだけで実行するのは、これから登場してくるであろう技術を総動員してもかなわない。そこでAppleが考えたのは、オンデバイスLLMと、プライベートクラウドであるPCCの2段式アーキテクチャだった。

 オンデバイスは3B(30億パラメータ以下)の小型LLMで処理し、それよりも処理能力を必要とするタスクはPCCに送り出す。PCCはApple Siliconベースのサーバシステムが集積された独自のデータセンターで処理する仕組みで、そのためのセキュアでプライバシーを確保したOSも開発している。

 このために1年以上かけたのなら仕方ないし、データセンターや専用Apple Siliconサーバプロセッサの開発を含めるとなると、さらに数年の開発期間が必要だったろう。

 それらをこなした上での今回の発表だったのだ。

 しかし、それだけでは十分ではない。高速なSoCとオンデバイスLLMが可能になったことをうたっても、結局ローカル処理する機能はごく少数というCopilot+ PCを見れば分かるように、オンデバイスで実用的な機能を使えるようにするには困難が伴う。

 Appleが採用したのは、1パラメータあたり16bitのモデルを1パラメータあたり平均4bit未満に圧縮する量子化技術と、量子化は一般的な手法だが、Adaptersは独特のものだ。

 テキストの概要作成、校正、メールの返信などの用途別にファインチューニングを施した学習モデルをFoundationモデルの上にダイナミックにロードしたりスワップしたりする手法がAdapters。タスクによって、使用するモデルを動的に換えていくため、少ないメモリでも動作する。

 ただ、そのためには学習モデルの最適化が必要で、ここに時間と手間がかかる。だからAppleはAI技術者を総動員する必要があり、そのためにApple Carプロジェクトを犠牲にしたのではないかとも推測できる。

 まずは米国の英語環境で動くようにし、それができたら他の言語圏、文化への適応が必要となる。1つの巨大なLLMであれば力技で済むことだが、最適化しながらだとそれだけの時間を要する。

 Apple Intelligenceがすぐに出ないのは、そのための時間が必要だからだし、日本語対応が2025年のいつかまだ分からない状況だというのも、そういう状況だからなのだろう。

 このことに気付くまでは「秋まで出せないとか努力が足りない」という印象だったのだが、今では「分かる。むしろ秋で間に合うのか」という考えに変わった。

●Apple IntelligenceとSiriとChatGPTの関係

 ChatGPTのボイスモードと比較すると、Siriは応答性、知識のいずれにおいても劣っていた。しかし、秋以降の英語版Siriにおいては少なくとも応答性は抜群に向上するはずだ。これまでとは異なり、Appleデバイスにある情報はサードパーティーアプリも含めコンテキストに応じた振る舞いができるため、より理解力のあるパートナーとなる。

 ここ数年は進化の見られなかったSiriだが、今度は大きな進化が見られそうだ。

 その新機能の1つとして、ChatGPTへの仲介機能もある。Siriからテキスト、写真、書類を呼び出してChatGPTに伝え、回答を得ることができる。ChatGPTアプリがあれば別になくてもいい機能だが、GPT-4oを無料で使えるというのはメリットの1つだし、有料ユーザーは限定機能も利用可能だ。

 だが、実はApple Intelligenceの構造図にはChatGPTは存在しておらず、Platforms State of the Unionでも全く言及されていない。

 ChatGPTはWriting Toolsから呼び出すことはできるし、Composeアプリで画像生成も可能だ。このあたりはAppleがChatGPTを組み込んだAPIを提供しているわけではなく、Apple純正アプリが個別に対応しているということなのかもしれない。

 Appleは、OpenAIべったりというわけではなく、Google Geminiの採用もにおわせている。また、主要マーケットの1つである中国においてはどちらのLLMも使えないだろうから、Baiduあたりのサービスを採用する可能性もある。

 このあたりの構造も今後、明確になっていくものと考えていいだろう。

 そんなわけで期待の大きいApple Intelligenceと次期OSだが、日本で活用できるのはまだまだ先。秋以降は英語で生活する時間が増えそうだ。

この記事の関連ニュース