遅延が問題視されるSapphire Rapidsは今どうなっている？　インテル CPUロードマップ

ASCII.jp / 2022年11月28日 12時0分

　今回は、いまだにリリースされていないSapphire Rapidsの情報アップデートをお届けしたい。

Sapphire Rapidsを量産開始とは言ったが製品版とは言っていない

　10月28日に、インテルは第3四半期の決算を発表した。決算の内容はおいておく(本当はおいておいてはいけないのかもしれないが、今回の話には関係ない)として、その四半期報告のわりと冒頭にあるKey Developments(主な進展)の最初の項目で「Sapphire Rapids、Raptor Lake、Ponte Vecchioの大量生産を開始し、2022年第4四半期に顧客への出荷を開始する予定」という文言が出てくる。

　Raptor Lakeは間違いなく出荷を開始しており、筆者も1つ買ったくらいだからこの文言に嘘はない。問題はSapphire Rapidsの方だ。Ponte Vecchioもそうだが、現時点ではまだIntel Arkに登録すらされていない。後で出てくるXeon Maxというラインナップそのものが欠落している段階で、大量生産と言われても「では何を作ってるんだ？」という話になる。

Intel Arkには、まだGen 3 Xeonまでしか登録されていない。あるいはXeon MaxはXeonとは扱いを変える(Xeon Phiがその実例である)のかもしれないが、そちらだとしてもまだ未登録である

　改めてリリースを読み直すと、そもそも“Sapphire Rapids”を大量生産開始したとは書いてあっても、“Xeon MAX”あるいは“Gen 4 Xeon Scalable”とはどこにも書いていない。ここから察せられるのは、この“大量生産”の対象は、最終製品ではなくそれ以前のステッピングのものではないか？　ということだ。

　後述するが、Xeon MAXの出荷は2023年1月「以降」であり、ここで量産製品が出てくるとは一言も言ってないところがミソである。

　連載690回で、インテルの開発サイクルというスライドをご紹介した。

　これはコンシューマー向けの製品だから、サーバー向け製品と一緒ではない(少なくともバリデーション期間ははるかに長くなる)し、顧客による検証も入るのでもう少しステップ数は多くなると思うが、それはともかくとして現時点でのSapphire RapidsはまだPRQ/PV(Production Release Qualification/Production Verification)の段階にいるのではないかと思われる(さすがにその前のQS:Quality Sampleの段階は終わったと思いたい)。

　もともとSapphire Rapidsはずいぶん開発に苦しんだようだ。そもそも製品がいまだに出ていないことからもそれは明らかだが、今年8月のTom's Hardwareの記事では、8月の時点で12ものステッピングが存在していたとしている。この最終のものがE5で、これはまだQSになる前のES(Engineering Sample)である。

　仮にこの8月の時点でE5が完璧だったとして、そこからQS→PRQと2回ステッピングを重ねる必要があり、仮にE5がそのままQSに移行したとしてもPRQが出てくるのは10月か11月。そこから検証を終わらせて(これも普通は一四半期程度は余裕で必要である)、量産にGoが出るのは早くて2023年1月か2月だろう。

　つまりどう考えても、1月に量産製品を出荷するのは無理である。こう考えると、冒頭の“大量生産”の対象は、まだ量産シリコンではなく、その前のPRQグレードのものと考えた方が良さそうだ。

Sapphire RapidsのHBM版は Xeon MAXというブランドになる

　さてそのSapphire Rapidsの最初の納入先の1つは間違いなくアルゴンヌ国立研究所である。いうまでもなくAurora向けの納入である。11月9日にダラスでSC22が開催されたが、これに合わせてインテルはプレスリリースを出し、アルゴンヌ国立研究所や京大、その他のサイトに納入するHPC向けのSapphire RapidsをXeon MAXというブランドにすることを明らかにした。ちなみにPonte Vecchioの方はIntel MAX Series 1xxx GPUというブランドになるそうだ。

　このXeon MAXであるが、該当するのはSapphire Rapids HBMのみになりそうだ。というのはリリースを読んでも「Sapphire RapidsをXeon MAXとして販売する」とはどこにも書いておらず、また同じ11月9日に出した別のリリースでは「第4世代Xeon ScalableとHabana Gaudi 2によるMLPerf Training v2.1の結果がMLCommonsに登録された」としている。

　要するにSapphire Rapidsそのものは引き続き従来のXeon Scalableとして発売され、Sapphire Rapids HBMのみがXeon MAXというブランドになると考えるのが妥当そうである。

　よくわからないのはSKUである。Ponte Vecchioの方はIntel MAX Series 1100/1350/1550という3つのグレードがあり、それぞれ56/96/128 Xeコアを搭載するとされるが、Xeon MAXの方はそのSKUに関する説明が一切ない。

“Up to 56 P-core”とあるので、より少ないコア数のSKUもありそうだ

　一応このXeon MAXは最大56コア(この数字が公式に発表されるのはこれが最初)とされており、連載586回で触れたように、14コアのタイルが4つ集積されていることが確定した格好だ。

Max Series 1100はそもそも半分の規模で、PCIeカードの形で提供される

　ちなみにXeon MAXのTDPは350W。第3世代Xeon Scalableに属するXeon Platinum 8380でも270Wであることを考えると、コア数が増えたことを勘案してもけっこう大き目という感じはある。

　絶対的な消費電力という観点で言えば先日発表になったAMDのGenoaベースのEPYC 9654/9654Pは定格TDPが360Wだが、こちらは96コアであることを考えると、コアあたりの消費電力はXeon MAXが2倍以上ということになる。もちろんHBM2を64GB分積層していることを勘案する必要はあるだろうが。

スパコン「Aurora」がTOP500に載らず構築するのに必要な数のXeon MAXが集まらない

　さて問題はそのXeon MAXとMAX Series 1xxx GPU(おそらく1550だろう)を組み合わせて構築されるAuroraである。連載632回でもAuroraには触れたが、すでに稼働予定が1年スライドしている。そんなこともあって前回のTOP500にはAuroraはエントリーされなかった。では今回は？　というと、今回もエントリーがなく、それもあってTOP500のトップは相変わらずFrontierのままである。

　ただ今回SC22に合わせてインテルはイベントを打っており、先のMAXシリーズの発表以外にもAuroraのアップデートを公開したりしている。

　その動画から抜粋したのが下の画像なのだが、どうも怪しい。

　Auroraでは2つのXeon Maxと6つのMax Series GPUでノードを構成する。Auroraでは、これを1つのラックに64枚装着する格好と思われる。ちなみにAuroraはこのブレード1枚を1ノードとして計算する。インテルのリリースによれば、Auroraは1万以上のブレード(＝1万以上のノード)から構成されるそうで、ということは最低でもラックは156本以上存在することになる。

手前にMAX GPUのOAMが6つ、その奥にXeon MAXが配され、その奥はSlingshotのI/Fなどが置かれる模様

当然1Uのブレードで空冷は無理なので、こんな感じに液冷のためのパイプが這いまわることになる。通例で言えばシャーシから飛び出している青のジャックが冷却水供給、赤が排水となるだろう

装着は縦型。ブレードは19枚だが、中央の3枚はなにか別の用途のもので、その左右に8枚づつAuroraのブレードが配される。これが縦4段でラック当たり64枚である

　まぁここまでは良い。問題は4つ前の画像が何か？　ということだ。これはAuroraのブレードの表側にはどうやっても見えない。そもそもAuroraはブレードを縦置きだが、シャーシが横置きになっている時点で明らかに別物である。

　実はこの答えも動画の後半に含まれている。Auroraのブレードは本当にAurora専用という感じであるが、もう少し汎用のデータセンター向けとしてインテルはMax Series GPU OAM×4とXeon Max×2を組み合わせた1Uブレードベースのシステムを提供している。動画内で示されたのは、この汎用サーバーの構成に思える。ということはAuroraかどうかも結構怪しい。

構造を考えると1Uでこれを実装するのは液冷でないと厳しそうな気もするのだが、液冷だと設備投資が増えることもあってあまり汎用的ではない気もする。どうするのだろう？

向かって左にMax Series GPU、右にStorageとXeon MAXを置く構造。2U位の高さがあれば空冷で行けそうな気もする

一番上の2枚はMax Series GPUを搭載しない、Xeon MAXだけのブレード。次の2枚がMax Series GPU＋Xeon MAX、その下の2段は空冷用のソリューションかもしれない(上の4枚は間違いなく液冷だろう)

　連載635回で紹介したNNSAのCTS-2やリリースにも名前が出ていた京都大学学術情報メディアセンター、あるいはロスアラモス国立研究所のCrossroadなど、あちこちにXeon MAXをベースとしたシステムが納入されることはすでに明らかにされており、そうしたいくつかのサイトのどれかの写真の可能性が高い。

　ちなみにFrontierの導入に先立って、128ノードの小規模な先行開発向けであるSunspotというシステムがアルゴンヌ国立研究所に導入され、2022年末から稼働を開始するとしている。

　このSunspotは時期的に言っても、製品版のXeon MAXではなくPRQのものを利用して構築され、後で製品版に置き換えるという形をとるように思われる。

　それにしても、ここまで引っ張ってまだ稼働していない、というのは正直びっくりである。Auroraのフル構成は無理にしてもSunspotを利用してのLINPACK測定はそう難しくないだろうに、そのSunspotすらTOP500にエントリーされていないというのは、Sunspotを構築するのに必要な数のXeon MAXが十分に手当てできない、という裏返しでもある。

　もともとXeon MAXはそれぞれのタイルのダイサイズが400mm²クラスという、かなり巨大なダイであり、決して量が取れる構成ではない。本格量産がスタートした時点でどの程度供給されるか、少し不安に感じる話ではある。

課金すると機能が有効になるIntel On Demandを開始膨大なSKUを整理するのが目的

　さてSapphire Rapidsというか第4世代Xeon Scalableに関してもう1つ。この件に関してはプレスリリースがないままインテルは11月22日にIntel On Demandというプログラムを開始した。これはなにか？　というと、「お金を支払うと機能が有効になるサービス」である。

第4世代Xeon Scalableに対してサービスが開始された「Intel On Demand」

　具体的に言えば、Sapphire Rapidsに搭載されているさまざまなアクセラレーター(Quick Assist Technology、Dynamic Load Balancer、Data Streaming Accelerator、In-Memory Analytics Accelerator、Software Guard Extensions、etc...)は、出荷時にはソフトウェア的に無効化されている。

　これらの機能はシステムインストール後に、プロバイダーに対してアップグレードリクエストを出すと、プロバイダーから(ライセンス料と引き換えに)ライセンスが送られてくる。これをインストールすることでそのアクセラレーターが以後有効になるというものだ。

Intel On Demand模式図。ユーザー(COMPANY)は、PROVIDERにリクエストしてライセンスを取得し、これを自身のデータセンター(のXeon Scalable)にインストールする

　ちなみにプロバイダはほぼサーバーベンダーであり、現時点ではH2C/HPE/Inspur/Lenovo/phoenixNAP/Supermicro/Variscaleとインテル自身の名前が挙がっている。ここにDellの名前がないのは不思議だし、またライセンスにはActivation ModelとConsumption Modelの2つがあるあたりもよくわからない。

　具体的な説明がないのではっきりしないが、おそらくActivation Modelは一度ライセンスを購入すると以後はその機能をずっと使えるという形態、Consumption Modelはその機能の利用時間に応じて課金される形態だろう。

　ただ例えばActivation Model、将来Sapphire Rapidsベースのシステムを廃棄し、それが中古品市場に流れたとして、中古で買ったユーザーはその機能が使えるのか？　という疑問がある(さらにBIOS更新やOS入れ替えなどで無効になったりするのかも不明である)。Consumption Modelだと具体的にどういう形でそれを課金するのかのシステムもまだわからない。

　この手の話だと、大昔のIBM(System/360の時代)のビジネスを思い出す。例えばシングルプロセッサーのシステムを納入する場合でも、ハードウェア的にはマルチプロセッサーのものを最初からインストールして、ただし1プロセッサーのみ有効としておく。後でマルチプロセッサーへのアップグレードが顧客から寄せられたら、プロセッサーを有効化することで対応するというもので、当時わりと評判が悪かった(ハードウェアインストールしてるなら使わせろよ、という話だったと思う)記憶がある。

　もっともIBMの例で言うなら、シングルプロセッサーの場合の価格が十分低いのであれば別段非難されるいわれはない話だし、使わない機能のために高価格になるよりも合理的という考え方は真っ当だとは思う。

　あとインテル側の事情で言えば、これによってSKUを減らすことが可能である。これに関しての良い例が今年2月に発表になった通信機器向けのXeon D-1700/2700であるが、発表時には36、現在は40ものSKUが存在する。

　なんでこんなことに？　というと、コア数や動作周波数のみならず、アクセラレーターの有無や機能の違いで細かくSKUを分けた結果である。Xeon Dを購入して機器を構築するユーザーにとっては、無駄なアクセラレーターを搭載されて価格が上がるより、それを省いてコストを下げたいという強いニーズがあるわけで、それに応えた結果がこれである。

　しかしオンデマンド方式にすれば、コア数や動作周波数別にベースとなる製品を用意し、あとはアクセラレーターの分だけ追加コストを支払えば有効化できるという形で、SKUそのものを大幅に減らすことが可能になる。SKUが増えるとそれだけ管理も大変なわけで、インテルとしてはIntel On Demandでこうした手間を少しでも減らしたかったのだろう。

　個人的にはIntel On Demandそのものには別に思うところはないが、それよりもいつSapphire Rapidsの発売が開始されるか、そちらが気になる部分だ。これに関して現状は一切アナウンスがない。

　Xeon MAXが2023年1月にリリース(これも、この時点で量産製品が出荷されるという意味か、単に受注可能になるという意味かもはっきりしない。なんとなく後者の可能性が高い気がする)ということや、今年はもう間もなく12月という時期を考えると、第4世代Xeon Scalableの出荷はやっぱり2023年にずれるのは必至な気がする。

　ということはやはり対抗馬はMilan/Milan-Xではなく、Genoa/Genoa-Xになるわけだ。なかなか大変そうである。

津波情報気象庁発表

地震情報

遅延が問題視されるSapphire Rapidsは今どうなっている？　インテル CPUロードマップ

Sapphire Rapidsを量産開始とは言ったが製品版とは言っていない

Sapphire RapidsのHBM版は Xeon MAXというブランドになる

スパコン「Aurora」がTOP500に載らず構築するのに必要な数のXeon MAXが集まらない

課金すると機能が有効になるIntel On Demandを開始膨大なSKUを整理するのが目的

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed

遅延が問題視されるSapphire Rapidsは今どうなっている？ インテル CPUロードマップ

Sapphire Rapidsを量産開始とは言ったが 製品版とは言っていない

Sapphire RapidsのHBM版は Xeon MAXというブランドになる

スパコン「Aurora」がTOP500に載らず 構築するのに必要な数のXeon MAXが集まらない

課金すると機能が有効になるIntel On Demandを開始 膨大なSKUを整理するのが目的

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed

遅延が問題視されるSapphire Rapidsは今どうなっている？　インテル CPUロードマップ

Sapphire Rapidsを量産開始とは言ったが製品版とは言っていない

スパコン「Aurora」がTOP500に載らず構築するのに必要な数のXeon MAXが集まらない

課金すると機能が有効になるIntel On Demandを開始膨大なSKUを整理するのが目的