1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ

ASCII.jp / 2024年8月26日 12時0分

 前回でXeon 6についての解説はおおむね終了しているが、2つほど細かい話が抜けているのでその補足をしつつ、最後にGaudi 3の情報アップデートについて説明する。

Xeon 6向けのMRDIMMが出荷開始

 連載785回にもあるが、Xeon 6世代ではDDR5で最大6400MT/秒をサポートするのに加え、MCR DIMMのサポートがあり最大8800MT/秒に対応するとされる。

Xeon 6世代のDDR5では最大6400MT/秒をサポートする

 この説明はCOMPUTEXのタイミングなので6月第1週だったが、6月16日にMicronはXeon 6向けにMRDIMMのサンプル出荷を開始した。量産出荷は今年後半を予定していることも発表された。

MicronのMRDIMMページより。左がFull Height、右がHalf Heightだそうだ。Halfでも通常のDDRより背が高そうだ

 MRDIMM、あるいはMCR DIMMと呼ばれるものの仕組みは連載723回で説明している。連載736回で示した下のスライドの方がわかりやすいかもしれないが、従来Registered DIMMと呼ばれていたものはクロック信号、Address/Command、データという3種類の信号すべてについてDIMM上に置かれたレジスター(要するにバッファである)を介することで、信号の波形の乱れをレジスターで補正できるため、安定してDRAMチップとの通信が可能になるというものである。

MR-DIMM(MCR-DIMM)の仕組み

 このレジスターを改良というか魔改造(?)し、ホストとの間を倍速で通信できるようにするとともに、Rank 0/Rank 1の両方のDRAMチップに対してインターリーブ的に通信できるようにしたのがMRDIMMである。最初のMRDIMMは8800MT/秒となっているが、これはホストとレジスターの間の速度であり、レジスターとRank-0 DRAMあるいはRank-1 DRAMの間は4400MT/秒となる。

 これにより、転送速度が従来のDDR5-4400の倍になるほか、1枚のDIMMに搭載できるRankの数を倍増できるので、DIMMあたりの容量も大きくできる(その分DIMMも大型化するが)。ただし現状でもDDR5で複数枚のDIMMを装着すると転送速度が4400MT/秒あたりに落ちる。というより、これを超えると安定して動作しないため、MRDIMMを利用する場合も当然1chあたり1枚となる。

 実質的には従来2枚のRegistered DDR5 DIMMを1枚のMRDIMMに置き換えることになるため、トータルでの容量そのものは増えないかもしれない。

 なおMCR DIMM(Multiplexer Combined Ranks DIMM)と称しているのはインテルだけで、他社はすべてMRDIMM(Multi-Capacity Rank DIMM)と称しており、内容は変わらない。したがって以下はMRDIMMで統一する。

 さてこのMRDIMMだが、実は主要なFCLGA4677対応のサーバー向けマザーボードは半分くらいは1 DIMMスロット/チャンネル構成になっている。ただ残りの半分は2 DIMMスロット/チャンネルである。例えばSuperMicroのHyper SuperServer SYS-221H-TNRの場合、Socket 1つあたり16本のDIMMスロットが装備されている。

 ところがMRDIMMの場合、仮に使っていなくても空きのDIMMスロットが配線上にあるだけで信号波形の乱れにつながるためか、基本1 DIMMスロット/チャンネルでないときちんと動かないらしい。今回ソケットをFCLGA 4677からFCLGA 4710に変更した理由は、既存のFCLGA 4677のままでは2 DIMMスロット/チャンネルのマザーボードでMRDIMMがきちんと動かないから、というあたりもあるのではないかと筆者は疑っている。

 下の画像についてもう1つ話がある。Mem Channelの所を見ると、通常のRegistered DIMMに関しては6400MT/秒までであるが、問題はMRDIMMについてである。

前掲の画像を確認すると、MRDIMMに対応するのはPコアのXeon 6のみとある

 そもそもMRDIMMをサポートするのはPコアのXeon 6のみ。つまりGranite Rapidsのみとされている。これはXeon 6700、すなわちFCLGA4710だけでなくFCLGA 7529(と言われている巨大なソケット)のXeon 6900も同じであり、要するにSierra Forest用のコンピュート・タイルに搭載されたDDR5のメモリーコントローラーはMRDIMMのサポートが省かれているらしい。

 これは正直理解できない話で、いくらPコアに比べて性能が低めといっても、Xeon 6900の方のSierra Forestは最大288コア/576スレッドであることがすでに発表されている。

Sierra Forestは最大288コア/576スレッドである

 Xeon 6900だから12chのDDR5 I/Fを持つが、DDR5-6400のピーク値でも最大で614.4GB/秒。コアあたりで言えば2.1GB/秒程度、スレッドあたりで言えば1GB/秒そこそこでしかない。こういう比較が正しいかどうかわからないが、例えばAtomベースのIntel N100ですら4コアに対してDDR5-4800が提供されるから、コアあたりの帯域は9.6GB/秒はある計算で、本当にこれで十分な帯域なのか? は正直理解できない。

 MRDIMMをサポートしたとしてもコアあたり2.93GB/秒程度、Threadあたりで1.5GB/秒弱でしかないから、サポートしてもたいして性能改善につながらない、という考え方もあるのかもしれないが。

 また6700シリーズのPコアは最大で8000MT/秒というあたり、おそらくLCCのコアに搭載されたメモリーコントローラーは8000MT/秒止まりで、8800MT/秒はHCC/XCCコアのみのサポートだろう。技術的な問題というよりは、製品グレードによる差別化が主な目的であるように思われる。

PCIeを進化させた次世代インターコネクト規格CXL 2.0をサポート

 Sapphire Rapids/Emerald Rapidsでは1.1止まりだったCXLのサポートであるが、Xeon 6ではやっと2.0になり、ちゃんとType 3 Device(CXLメモリー)がサポートされるようになった。

Sapphire Rapids/Emerald Rapidsでも一応Type 3はこっそり動いた(メモリメーカーの検証用で、一般ユーザー用ではない)らしいのだが、正式にサポートが果たされた

 CXLに関してはコンピュート・チップレットではなくIOチップレット側に機能が搭載されているので、これはPコア/Eコア関係なく動作する。なのだが、Eコアにはよくわからない制限が付いた。Type 3のメモリーモデルには、以下の3つをサポートする。

CXLメモリーの疑問は、本当に1:1しかサポートできないのか? ということ。例えばDRAMを2TB、CXL Memoryが1TBとしたときに、DRAMの半分はないことにして1:1にするのか、それとも合計で3TBとできるのか、このスライドでは判断が付かない

 このうち、かつてサポートしていたOptane Persistent Memoryを利用した構図は一番右のFlat memory Modeに近い。特定アプリケーション向けにOptane Persistent Memoryを利用していたユーザーは、あとはそのアプリケーションベンダーがCXL Memoryに対応してさえくれれば移行できることになる。

 それはいいのだが、CXL Hetero Interleaveに関してはなぜかPコアのみでEコアのXeon 6ではサポートされないことになっている。どうしてこういう不思議な制約が付いたのか疑問だが、ここからするとEコアのコンピュート・チップレットに内蔵されたメモリーコントローラーはだいぶ制約があるというか、少なくともPコアに搭載されているものとはまったく素性が違うようだ。

 なにかしらEコアでは配慮すべき技術的な課題があり、その結果がこの制約なのか、単に製品グレードによる差別化に起因するものなのか、判断が付かない。

AI アクセラレーターGaudi 3の価格はOAM1枚当たり230万円少々

 最後にGaudi 3の話になるのだが、実は連載768回からのアップデートはほとんどない。技術的な説明も新しい情報はほぼ皆無である。強いて言えば、連載768回の最後で4096 OAMがほぼGaudi 3の最大構成に近いのではないか? と書いたが、今回8192 OAM(1024ノード)の例が示されたというくらいである。

8192 OAM(1024ノード)のGaudi 3。512ノード2つをさらに上位のスイッチでつなぐのか、それともSpine Switchを128ポートのものに強化するのか、方法論はいくつかあるかと思うが、どう構成するかの情報は公開されていない

 ビジネス回りでは、価格が公開された。昨今NVIDIAのH100 80GBが500万円前後(一時期は700万円と言われていたが、最近少し下がったようだ)に比べると半値以下である。この価格の安さとアプリケーションによってはH100以上の性能を出せるということで、性能価格比の高さを前面に押し出してビジネスを進めていきたいようだ。

OAM×8+ベースボードで12万5000ドル(1ドル150円換算で1875万円相当)。OAM1枚当たり230万円少々である
Gaudi 3はアプリケーションによってはH100以上の性能を出せる

 ただ現状Gaudi 3の導入を検討している所に理由を聞くと「H100のリードタイムが長すぎて待てないので、H100の導入までのつなぎ」というケースがけっこうあるのだそうで、どこまで今後のビジネスにつながるか、やや疑問ではある。

 また連載768回の最後にも書いたが、Gaudi 3の後継はFalcon Shoreで、これはXeベースになることを考えると、Gaudi 3からXeへの移行ツールなどでどこまでソフトウェアがそのまま利用できるのか未知数である。

 そのFalcon Shoreのロードマップも怪しい(現在インテルの社内ではすべての製品のロードマップ見直しがかけられているという話で、Falcon Shoreが絶対に生き残るという保証もないらしい)のだが、だからと言ってGaudi 4が出るという話にもならないだろう。このあたり、年末までにもう少しクリアになるといいのだが……。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください