遅延が問題視されるSapphire Rapidsは今どうなっている? インテル CPUロードマップ
ASCII.jp / 2022年11月28日 12時0分
今回は、いまだにリリースされていないSapphire Rapidsの情報アップデートをお届けしたい。
Sapphire Rapidsを量産開始とは言ったが 製品版とは言っていない
10月28日に、インテルは第3四半期の決算を発表した。決算の内容はおいておく(本当はおいておいてはいけないのかもしれないが、今回の話には関係ない)として、その四半期報告のわりと冒頭にあるKey Developments(主な進展)の最初の項目で「Sapphire Rapids、Raptor Lake、Ponte Vecchioの大量生産を開始し、2022年第4四半期に顧客への出荷を開始する予定」という文言が出てくる。
Raptor Lakeは間違いなく出荷を開始しており、筆者も1つ買ったくらいだからこの文言に嘘はない。問題はSapphire Rapidsの方だ。Ponte Vecchioもそうだが、現時点ではまだIntel Arkに登録すらされていない。後で出てくるXeon Maxというラインナップそのものが欠落している段階で、大量生産と言われても「では何を作ってるんだ?」という話になる。
改めてリリースを読み直すと、そもそも“Sapphire Rapids”を大量生産開始したとは書いてあっても、“Xeon MAX”あるいは“Gen 4 Xeon Scalable”とはどこにも書いていない。ここから察せられるのは、この“大量生産”の対象は、最終製品ではなくそれ以前のステッピングのものではないか? ということだ。
後述するが、Xeon MAXの出荷は2023年1月「以降」であり、ここで量産製品が出てくるとは一言も言ってないところがミソである。
連載690回で、インテルの開発サイクルというスライドをご紹介した。
これはコンシューマー向けの製品だから、サーバー向け製品と一緒ではない(少なくともバリデーション期間ははるかに長くなる)し、顧客による検証も入るのでもう少しステップ数は多くなると思うが、それはともかくとして現時点でのSapphire RapidsはまだPRQ/PV(Production Release Qualification/Production Verification)の段階にいるのではないかと思われる(さすがにその前のQS:Quality Sampleの段階は終わったと思いたい)。
もともとSapphire Rapidsはずいぶん開発に苦しんだようだ。そもそも製品がいまだに出ていないことからもそれは明らかだが、今年8月のTom's Hardwareの記事では、8月の時点で12ものステッピングが存在していたとしている。この最終のものがE5で、これはまだQSになる前のES(Engineering Sample)である。
仮にこの8月の時点でE5が完璧だったとして、そこからQS→PRQと2回ステッピングを重ねる必要があり、仮にE5がそのままQSに移行したとしてもPRQが出てくるのは10月か11月。そこから検証を終わらせて(これも普通は一四半期程度は余裕で必要である)、量産にGoが出るのは早くて2023年1月か2月だろう。
つまりどう考えても、1月に量産製品を出荷するのは無理である。こう考えると、冒頭の“大量生産”の対象は、まだ量産シリコンではなく、その前のPRQグレードのものと考えた方が良さそうだ。
Sapphire RapidsのHBM版は Xeon MAXというブランドになる
さてそのSapphire Rapidsの最初の納入先の1つは間違いなくアルゴンヌ国立研究所である。いうまでもなくAurora向けの納入である。11月9日にダラスでSC22が開催されたが、これに合わせてインテルはプレスリリースを出し、アルゴンヌ国立研究所や京大、その他のサイトに納入するHPC向けのSapphire RapidsをXeon MAXというブランドにすることを明らかにした。ちなみにPonte Vecchioの方はIntel MAX Series 1xxx GPUというブランドになるそうだ。
このXeon MAXであるが、該当するのはSapphire Rapids HBMのみになりそうだ。というのはリリースを読んでも「Sapphire RapidsをXeon MAXとして販売する」とはどこにも書いておらず、また同じ11月9日に出した別のリリースでは「第4世代Xeon ScalableとHabana Gaudi 2によるMLPerf Training v2.1の結果がMLCommonsに登録された」としている。
要するにSapphire Rapidsそのものは引き続き従来のXeon Scalableとして発売され、Sapphire Rapids HBMのみがXeon MAXというブランドになると考えるのが妥当そうである。
よくわからないのはSKUである。Ponte Vecchioの方はIntel MAX Series 1100/1350/1550という3つのグレードがあり、それぞれ56/96/128 Xeコアを搭載するとされるが、Xeon MAXの方はそのSKUに関する説明が一切ない。
一応このXeon MAXは最大56コア(この数字が公式に発表されるのはこれが最初)とされており、連載586回で触れたように、14コアのタイルが4つ集積されていることが確定した格好だ。
ちなみにXeon MAXのTDPは350W。第3世代Xeon Scalableに属するXeon Platinum 8380でも270Wであることを考えると、コア数が増えたことを勘案してもけっこう大き目という感じはある。
絶対的な消費電力という観点で言えば先日発表になったAMDのGenoaベースのEPYC 9654/9654Pは定格TDPが360Wだが、こちらは96コアであることを考えると、コアあたりの消費電力はXeon MAXが2倍以上ということになる。もちろんHBM2を64GB分積層していることを勘案する必要はあるだろうが。
スパコン「Aurora」がTOP500に載らず 構築するのに必要な数のXeon MAXが集まらない
さて問題はそのXeon MAXとMAX Series 1xxx GPU(おそらく1550だろう)を組み合わせて構築されるAuroraである。連載632回でもAuroraには触れたが、すでに稼働予定が1年スライドしている。そんなこともあって前回のTOP500にはAuroraはエントリーされなかった。では今回は? というと、今回もエントリーがなく、それもあってTOP500のトップは相変わらずFrontierのままである。
ただ今回SC22に合わせてインテルはイベントを打っており、先のMAXシリーズの発表以外にもAuroraのアップデートを公開したりしている。
その動画から抜粋したのが下の画像なのだが、どうも怪しい。
Auroraでは2つのXeon Maxと6つのMax Series GPUでノードを構成する。Auroraでは、これを1つのラックに64枚装着する格好と思われる。ちなみにAuroraはこのブレード1枚を1ノードとして計算する。インテルのリリースによれば、Auroraは1万以上のブレード(=1万以上のノード)から構成されるそうで、ということは最低でもラックは156本以上存在することになる。
まぁここまでは良い。問題は4つ前の画像が何か? ということだ。これはAuroraのブレードの表側にはどうやっても見えない。そもそもAuroraはブレードを縦置きだが、シャーシが横置きになっている時点で明らかに別物である。
実はこの答えも動画の後半に含まれている。Auroraのブレードは本当にAurora専用という感じであるが、もう少し汎用のデータセンター向けとしてインテルはMax Series GPU OAM×4とXeon Max×2を組み合わせた1Uブレードベースのシステムを提供している。動画内で示されたのは、この汎用サーバーの構成に思える。ということはAuroraかどうかも結構怪しい。
連載635回で紹介したNNSAのCTS-2やリリースにも名前が出ていた京都大学学術情報メディアセンター、あるいはロスアラモス国立研究所のCrossroadなど、あちこちにXeon MAXをベースとしたシステムが納入されることはすでに明らかにされており、そうしたいくつかのサイトのどれかの写真の可能性が高い。
ちなみにFrontierの導入に先立って、128ノードの小規模な先行開発向けであるSunspotというシステムがアルゴンヌ国立研究所に導入され、2022年末から稼働を開始するとしている。
このSunspotは時期的に言っても、製品版のXeon MAXではなくPRQのものを利用して構築され、後で製品版に置き換えるという形をとるように思われる。
それにしても、ここまで引っ張ってまだ稼働していない、というのは正直びっくりである。Auroraのフル構成は無理にしてもSunspotを利用してのLINPACK測定はそう難しくないだろうに、そのSunspotすらTOP500にエントリーされていないというのは、Sunspotを構築するのに必要な数のXeon MAXが十分に手当てできない、という裏返しでもある。
もともとXeon MAXはそれぞれのタイルのダイサイズが400mm2クラスという、かなり巨大なダイであり、決して量が取れる構成ではない。本格量産がスタートした時点でどの程度供給されるか、少し不安に感じる話ではある。
課金すると機能が有効になるIntel On Demandを開始 膨大なSKUを整理するのが目的
さてSapphire Rapidsというか第4世代Xeon Scalableに関してもう1つ。この件に関してはプレスリリースがないままインテルは11月22日にIntel On Demandというプログラムを開始した。これはなにか? というと、「お金を支払うと機能が有効になるサービス」である。
具体的に言えば、Sapphire Rapidsに搭載されているさまざまなアクセラレーター(Quick Assist Technology、Dynamic Load Balancer、Data Streaming Accelerator、In-Memory Analytics Accelerator、Software Guard Extensions、etc...)は、出荷時にはソフトウェア的に無効化されている。
これらの機能はシステムインストール後に、プロバイダーに対してアップグレードリクエストを出すと、プロバイダーから(ライセンス料と引き換えに)ライセンスが送られてくる。これをインストールすることでそのアクセラレーターが以後有効になるというものだ。
ちなみにプロバイダはほぼサーバーベンダーであり、現時点ではH2C/HPE/Inspur/Lenovo/phoenixNAP/Supermicro/Variscaleとインテル自身の名前が挙がっている。ここにDellの名前がないのは不思議だし、またライセンスにはActivation ModelとConsumption Modelの2つがあるあたりもよくわからない。
具体的な説明がないのではっきりしないが、おそらくActivation Modelは一度ライセンスを購入すると以後はその機能をずっと使えるという形態、Consumption Modelはその機能の利用時間に応じて課金される形態だろう。
ただ例えばActivation Model、将来Sapphire Rapidsベースのシステムを廃棄し、それが中古品市場に流れたとして、中古で買ったユーザーはその機能が使えるのか? という疑問がある(さらにBIOS更新やOS入れ替えなどで無効になったりするのかも不明である)。Consumption Modelだと具体的にどういう形でそれを課金するのかのシステムもまだわからない。
この手の話だと、大昔のIBM(System/360の時代)のビジネスを思い出す。例えばシングルプロセッサーのシステムを納入する場合でも、ハードウェア的にはマルチプロセッサーのものを最初からインストールして、ただし1プロセッサーのみ有効としておく。後でマルチプロセッサーへのアップグレードが顧客から寄せられたら、プロセッサーを有効化することで対応するというもので、当時わりと評判が悪かった(ハードウェアインストールしてるなら使わせろよ、という話だったと思う)記憶がある。
もっともIBMの例で言うなら、シングルプロセッサーの場合の価格が十分低いのであれば別段非難されるいわれはない話だし、使わない機能のために高価格になるよりも合理的という考え方は真っ当だとは思う。
あとインテル側の事情で言えば、これによってSKUを減らすことが可能である。これに関しての良い例が今年2月に発表になった通信機器向けのXeon D-1700/2700であるが、発表時には36、現在は40ものSKUが存在する。
なんでこんなことに? というと、コア数や動作周波数のみならず、アクセラレーターの有無や機能の違いで細かくSKUを分けた結果である。Xeon Dを購入して機器を構築するユーザーにとっては、無駄なアクセラレーターを搭載されて価格が上がるより、それを省いてコストを下げたいという強いニーズがあるわけで、それに応えた結果がこれである。
しかしオンデマンド方式にすれば、コア数や動作周波数別にベースとなる製品を用意し、あとはアクセラレーターの分だけ追加コストを支払えば有効化できるという形で、SKUそのものを大幅に減らすことが可能になる。SKUが増えるとそれだけ管理も大変なわけで、インテルとしてはIntel On Demandでこうした手間を少しでも減らしたかったのだろう。
個人的にはIntel On Demandそのものには別に思うところはないが、それよりもいつSapphire Rapidsの発売が開始されるか、そちらが気になる部分だ。これに関して現状は一切アナウンスがない。
Xeon MAXが2023年1月にリリース(これも、この時点で量産製品が出荷されるという意味か、単に受注可能になるという意味かもはっきりしない。なんとなく後者の可能性が高い気がする)ということや、今年はもう間もなく12月という時期を考えると、第4世代Xeon Scalableの出荷はやっぱり2023年にずれるのは必至な気がする。
ということはやはり対抗馬はMilan/Milan-Xではなく、Genoa/Genoa-Xになるわけだ。なかなか大変そうである。
この記事に関連するニュース
-
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす
ASCII.jp / 2024年11月25日 12時0分
-
Supermicro(スーパーマイクロ)、液冷NVIDIA Blackwell ソリューションを提供
共同通信PRワイヤー / 2024年11月22日 15時8分
-
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU
ASCII.jp / 2024年11月11日 12時0分
-
エクセルソフト、インテル・ソフト開発ツールの最新バージョン2025の販売を開始
週刊BCN+ / 2024年11月6日 15時19分
-
エクセルソフトは、HPC/AI アプリケーションの最適化および高速化、マルチアーキテクチャー・プログラミングを支援するインテル・ソフトウェア開発ツールの最新バージョン 2025 を販売開始
PR TIMES / 2024年11月6日 11時45分
ランキング
-
1HD-2D版『ドラクエ3』勇者「俺だけバラモス倒せなかった…」←なんで? 嘆きの声続出の理由
マグミクス / 2024年11月25日 17時25分
-
2ビューカード、顧客との通話内容を録音したSDカード20枚を紛失
ASCII.jp / 2024年11月25日 17時5分
-
3メルカリ、不正利用へのサポート強化と補償方針を発表 ネットで意見「当たり前」「個人的には期待」「悪意のあるやつは排除して」
iza(イザ!) / 2024年11月25日 13時21分
-
4スタバ福袋当選発表に悲喜こもごも SNS「3度目の正直来た」「外れてうつになりそう」
iza(イザ!) / 2024年11月25日 12時11分
-
5「不要なスマホなどをdポイントと交換」 ドコモ、小型機器の買い取りに挑戦 都内の25店舗で
ITmedia Mobile / 2024年11月25日 16時21分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください