1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

10月25日登場のArrow Lake、強みはどこ?アーキテクチャーのポイントをおさらい

ASCII.jp / 2024年10月11日 0時0分

“Arrow Lake”こと「Core Ultra 200Sシリーズ」の アーキテクチャーに迫る

 2024年10月25日0時(日本時間)、インテルは新デスクトップPC向けCPU「Core Ultra 200Sシリーズ」の販売を解禁する。具体的な予想価格については速報記事(https://ascii.jp/elem/000/004/227/4227230/)をご覧いただきたいが、最上位かつ流通量が少量と推測される「Core Ultra 9 285K」を除けば、前世代の同格モデルの初値とほぼ変わらぬ価格設定になっている。

Core Ultra 200Sシリーズの詳細なスペック

 Core Ultra 200Sシリーズのアーキテクチャーは、系譜で言えばモバイル向けの最新設計である「Lunar Lake」をベースにした「Arrow Lake-S」が採用されている。

 Lunar Lakeと完全に同一にしなかった(できなかった)理由は、Arrow Lakeはエンスージアスト向けの製品であり、Lunar LakeにはないPCI Express Gen 5対応が盛り込まれているからである。ちなみにLunar Lakeは薄型軽量ノートPC向けのCPUであるが、パフォーマンス志向の「Arrow Lake-HX」および「Arrow Lake-Hを採用したノートPCも2025年Q1より発売される。

モバイル向けのCore UltraシリーズはMeteor Lake→Lunar Lakeと進化。このLunar Lakeをエンスージアスト向けに調整したものがArrow Lakeという位置付けだ
パフォーマンス志向のモバイルCPUとしてArrow Lake-HXとArrow Lake-Hも誕生。Lunar Lakeよりも中~大型ノートPC向けのCPUだ。来年Q1より搭載製品が順次発売予定となる
Arrow Lake-SおよびHXの設計テーマは、Coreプロセッサー(第14世代)よりも低消費電力でもマルチスレッド性能を高めるという部分にある。前回にも同様の資料を紹介しているが、この資料では消費電力削減を最大30%と低めに見積もっている

プロセスの“Grab Bag”

 Arrow Lakeは、同社のデスクトップPC向けCPUとしては初めて“タイルデザイン”を採用したCPUとなる。これまでのデスクトップ(かつメインストリーム)PC向けCPUはほぼ全てが14nmやIntel 7(10nm)というような単一のプロセスルールで製造されたモノリシックダイを採用してきた。

 だがMeteor Lakeからは、異なるプロセスルールで製造された回路(タイル)を組み合わせるというタイルデザインを採用することで、製品展開をより柔軟にする手法が採用された。Arrow LakeもCPUコアを格納する“コンピュートタイル”、内蔵GPUの“GPUタイル”、メモリーコントローラー等を擁する“SoCタイル”、さらにPCI ExpressやThunderboltコントローラー等を格納する“I/Oタイル”で構成される。

 このうち、コンピュートタイルはTSMC「N3B」プロセス、GPUタイルはTSMC「N5P」プロセス、SoCおよびI/OタイルはTSMC「N6」プロセスと、それぞれバラバラのプロセスルールで製造されている。

 これらをインテルの「1227.1」プロセスで製造されたベースタイルの上に載せ、Foverosで配線することで1基のCPUに仕上げているのである。インテルはこの構造を“Grab Bag”と称した。わかりやすい日本語で言うならば“プロセスのごった煮”といったところか。

Arrow Lake-Sの構造。TSMCで製造された異なるプロセスルールのタイルをベースタイルの上で配線している
Arrow Lake-HXではヒートスプレッダーがないほか、フットプリントはArrow Lake-Sよりも3割小さくなるよう設計されている
Arrow Lake-SおよびHXのトピック。CPUコアアーキテクチャーの刷新のほか、今どきのCPUには不可欠なAI処理に特化したNPUも搭載されている。GPUにもNewと付いているが……

SMTを廃止し、ワットパフォーマンスに強く振ったPコア&Eコア

 まずはコンピュートタイルの中身から見ていこう。第12世代(Alder Lake-S)以降、インテルはPコアとEコアで構成されるハイブリッドデザインを採用しているが、Arrow Lake-SではPコアにLion Cove、EコアにSkymontと呼ばれるコアが採用されている(HXも同じ。以下HXに関しては省略)。

 特に重要なのはPコアのSMT(Hyper-Threading)が廃止されたことだ。1コアで2スレッド分の処理ができるということでPentium 4以降のCPUの標準装備となってきたが、今のインテル製CPUデザインだとSMTを実装するために必要なトランジスタ数も必要になり、性能の向上分に比して消費電力の増大が割に合わなくなってしまった。

 さらにThread Directorでコアの利用を最適化しはじめると、CGレンダリングや動画エンコードでもない限りPコアの論理コア側は遊んだままになる事も珍しくない(=SMTを実装するだけ無駄)。つまりインテルの今のCPU運用スタイルではSMTはデメリットの方が大きく、Lunar LakeでCPUデザインを大きく変える機会に思い切って切り捨てたといったところだ。

 SMT廃止はマルチスレッド性能的にはインパクトの大きい改変だが、Lion Coveでは命令実行に関わる部分の機能が強化され、より処理効率を上げる方向に舵を切っている。

SMTは廃止されたものの、Arrow Lake-SのコンピュートタイルはPコア最大8基、Eコア最大16基を搭載できるため、これによってマルチスレッド性能を確保している
Lion Coveは命令実行に関わる部分に対し様々な改良が加えられたが、同時に“エリア(回路面積)あたりの性能”を重視している。SMTを実装するにもそれなりの規模の回路が必要になるが、得られる性能増に対して消費電力が増えすぎ、総合的な判断の下SMTは廃止された
Lion Coveに関するまとめ。パワーマネジメントにも機械学習を利用してより効率的な電力管理を可能にしている

 EコアはPコア以上にエリアあたりの電力効率に特化した設計であるのは今まで通りだが、従来(文脈的にLunar Lakeは除外する)のEコアよりもベクトル演算が大幅に強化されている。

 Arrow Lake-Sには内蔵GPUもあるし、何ならNPU(後述)もあるのでベクトル演算はそっちに振れば良いと思ってしまうが、処理によってはCPUで実行したほうが良い場合もある(NPU用にプログラムを改変する余裕がない、等の理由も含まれる)。あらゆる処理の中にAIが組み込まれる時代を見据えると、Eコアもきちんと戦力として組み込めるようにしておこう、というのがベクトル演算強化の理由だ。

Skymontの設計テーマ。単純に命令実行に関わる部分を改良して性能を上げるという方針のほかに、ベクトル演算やVNNIといったAI処理にも多用される機能が強化された
Skymontに関するまとめ。L2キャッシュが増量されたり、L1キャッシュ同士の帯域が倍増したりといった改良が施されている
Arrow Lake-Sのコンピュートタイルの構造。4基のPコアがL2キャッシュを介して繋がり、さらに別の4基のPコアとはL3キャッシュで繋がっている。EコアはPコアとは別のL2キャッシュで繋がっており、Pコアと同じL3キャッシュに接続されている

 PコアとEコアの使い分けは、これまで通りThread DirectorがOSのスケジューラーに対し割り当てるコアをサジェストする形で実行される。

 Alder~Raptor Lake-Sまでの時代のThread Directorはバックグラウンド処理はEコアに、計算負荷の高い処理はPコアにといった比較的シンプルな使いわけだったのに対し、Lunar LakeやArrow Lake-Sでは、まずEコアに処理を振り、パワーが必要と判断されたらPコアに移すというより動的な運用のほか、特定の処理はEコアから出さないようにしてPコアを空けるという運用も可能になった。

 また、最適な割り振り先を判断する機構に関しても新たに予測モデルを搭載するなど、よりアグレッシブに運用する方針になっている。

Thread Directorの挙動を簡単におさらいしておこう。プログラムが起動すると、プロセスはまずEコアに置かれる。アプリを立ち上げ入力待ちする程度ならばPコアは不要だ
だがユーザーが仕事を始めCPUパワーが必要と判断されたら、そのプロセスは即座にPコアに配置される。まずEコアで様子を見て後にPコアという運用スタイルは、Lunar Lake以降のものだ(Meteorの場合はLP-E→E→Pへ遷移する3段階だが、Lunar以降はE→Pの2段階)

 コンピュートタイルを離れる前に、オーバークロック(OC)に関する情報もまとめておこう。まずArrow Lake-SにおけるOCに必要な要素は変わっていない。即ちK付きのCPUとZ付きチップセット(つまりZ890)が必須だ。だがArrow Lake-Sでは以下の点に注意したい。

・倍率1binで変わるクロックは16.67MHzに細分化(従来は100MHz) ・ベースクロックはコンピュートタイルとその他で異なる値が使用される ・タイル間接続のクロックは固定もしくはベースクロックに対する倍率として設定可能

 特に重要なのは最初の倍率1binあたりのクロック変動量の変更だろう。従来よりも細かい調整が可能になったことで、より限界まで追い込めるようになったと言える。ただ筆者の手元には現物がないので、これらの変更がOCのワークフローにどう影響するかまでは考察することはできない。

OCに関するまとめ。100MHz単位の調整から16.67MHz単位に変わったことが最大のトピックか

GPUタイルはあえてAlchemist(Xe)を選択

 続いてGPUタイル(以前はグラフィックスタイルと呼んでいたような気がするが……)の話題だ。Lunar Lakeでは、内蔵GPUに最新の「Battlemage」ことXe2アーキテクチャーを採用したことでグラフィック性能が大きく伸びた。まだXe2世代のディスクリートGPUは存在していないが、今後登場すれば現行のArc Aシリーズ(Alchemist)の上位存在になることは間違いない。

 だがArrow Lake-Sの内蔵GPUはXe2アーキテクチャーではなく、Arc Aシリーズと同じXeアーキテクチャーをベースにしたものである。今回発売されたCore Ultra 200Sシリーズがエンスージアスト向け製品であり、ユーザーは何らかのビデオカードと組み合わせて使用することを想定しているなら、費用対効果の面でXe2を使わないというのは合理的な判断だ。

Lunar LakeベースなのでGPUはBattlemageか? と思っていた人には残念だが、Arrow Lake-SのGPUはAlchemistベースのものが搭載されている
Arrow Lake-Sの内蔵GPUの場合、Xeベースといえどベクトル演算専用のXMXは搭載されていない。この内蔵GPUでAIを処理する場合、DP4a(Signed Integer Dot-Product of 4 Elements and Accumulate)命令を利用して実行することになる。インテル製アップスケーラーであるXeSSはGeForceでもRadeonでも実行できるが、これはDP4a命令が使われているためだ
ところが同じArrow Lakeでも、中型ノートPC向けのArrow Lake-Hになると、内蔵GPUにはXMXが組み込まれる。これはディスクリートGPUを搭載しない低価格ノートPCでの利用を考慮した結果だ。描画性能を左右するXe-Coreの数もArrow Lake-Sの2倍(8基)になっている
Arrow Lake-Sの内蔵GPUのまとめ。DirectX 12 Ultimate対応なのでレイトレーシングも実行することが可能だ(快適に遊べるというわけではない)

 GPUの話はここまでだが、ここでSoCタイルに含まれるNPUの話もしておこう。Eコアの所で触れたように、今のAI実装(学習ではなく推論処理運用が主体のライトユーザー向けのもの)のトレンドはCPU/ GPU/ NPUの使い分けにある。

 Arrow Lake-SにもNPUが搭載されているが、Lunar Lakeに搭載された第4世代のNPU(Intel AI Boost)ではなく、Meteor Lakeに搭載された第3世代のNPUが実装されている。第4世代のNPUが48TOPSなのに対し第3世代のNPUは13TOPSと寂しいばかりだが、Arrow Lake-SのNPUは画像生成やLLMのような重い処理ではなく、Webカメラの映像で顔を認識するような、ちょっとした処理においてCPUやGPUの手を煩わせたくない時に使うデバイスといった印象だ。

Arrow Lake-Sに搭載されているNPUは、Lunar Lakeよりも1世代古いものだ
Arrow Lake-S全体でAI処理をすることを考えると36TOPS程度はあるという主張。CPU/ GPU/ NPUが全てフル回転するというシチュエーションは考えにくい
13TOPSのNPUで何ができるか? と疑問に思うかもしれないが、「Wondershare」「Audacity」そして「OBS Studio」でArrow Lake-SのNPUを利用した機能が利用できるとインテルは主張している。ただまだ現物がない状態なので、実際に動くか確認することはできない……

 最後にCore Ultra 200SシリーズのAI性能に関してのパフォーマンスデータを紹介しておこう。現時点における実アプリの実装では、大抵の場合CPUコアを利用してAI処理が実行され、次に多いのがGPU、NPUを利用してくれるのはかなりレアだ。

 ただ「Geekbench」や「UL Procyon」で同じ条件の下パフォーマンスを比較することはできる。CPUコアだけで処理する場合、Core Ultra 9 285KとCore i9-14900Kの性能はかなり近い(INT8演算を利用した場合)が、内蔵GPUを利用する場合はCore Ultra 285KならCore i9-14900Kの2倍程度のパフォーマンスを期待できるという。

Core Ultra 9 285KとCore i9-14900KのAI処理性能をGeekbenchで比較したデータ。CPUでINT8を利用した処理では両者ほぼ互角だが、GPUであればCore Ultra 285Kが圧倒的。NPUに至ってはCore i9-14900KはNPUを持たないので比較にすらならない
これは「UL Procyon」の“AI Computer Vision Benchmark”による比較。Geekbenchとは全然異なる実装と処理だが、結果の傾向はよく似ている
Ryzen 9 9950Xを100%とした時、Core Ultra 285Kのクリエイティブ系アプリでの性能がどの程度伸びたかという比較。それぞれのアプリにおけるAIを利用した処理で比較すると、Core Ultra 285KはRyzen 9 9950Xよりも最大50%高速で処理できるという

 以上でCore Ultra 200Sシリーズのアーキテクチャーやパフォーマンスに関するまとめは終了だ。全体として、インテルはパワーを限界まで使って性能を出すという手段が封じられたため、アピールに苦労している感が強かった。TDPを絞った状態での比較資料を見るのは別に今回が初めてではないが、今回見たデータがどこまで現実で通用するか筆者には見当すらつかない。いつから実際の製品を試せるのか不明だが、ここは25日の販売解禁を楽しみに待つとしよう。

Arrow Lake-S全体のトピックをまとめたもの

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください