1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!

ITmedia PC USER / 2024年7月5日 17時5分

 せっかくなので、FP16演算のポテンシャルを比べてみよう。

Gaudi3(1.75GHz) 128要素×128要素×2FLOPS×8基×1.75GHz≒459TFLOPS

NVIDIA H100(SXM5/1.98GHz) 16要素×16要素×2FLOPS×528基×1.98GHz≒535TFLOPS

 このように、処理性能は拮抗(きっこう)する。厳密には、理論性能ではNVIDIA N100の方が少し上なのだが、Intelは「Gaudi 3のような大型の行列演算器を使うと、大規模な行列演算における演算器同士のデータのやりとりを省けるため、実効性能面では圧倒的に有利だ」とする。加えて、NVIDIAのアーキテクチャについて「複数の小型行列演算器を連動させて演算を行うと、演算器間のデータのやりとりに遅延とバス消費が発生し、実効性能面で不利となる」とも指摘した。

 この主張を図示したものが以下の図だ。

 言いたいことをくみ取りつつ、この主張をもうちょっと詳しくすると以下のようになる。

 Gaudi 3のMMEでは、MMEに入力されるデータは256byteの行列データ2つ分、すなわち512byteだけで済む。それに対して、NVIDIA H100では、各Tensor Coreに入力するデータは16byteの行列データ2つ分、すなわち32byteだが、これが256基相互接続されているので、データアクセスは32byte×256基=8192byteも生じてしまう。つまり、NVIDIA H100は同じ演算をするのにメモリ帯域を16倍も多く消費する。 Gaudi 3のMMEなら、データの受け渡し的なものはMMEコア内部で完結可能で、共有メモリへのアクセスは不要となる。ゆえに絶対的な速度は高いし、それぞれのバス帯域の消費も少なくて済み、遅延もほぼ皆無。実効性能は、Gaudi 3の方が明らかに高い。

 この主張にあえてツッコミを入れよう。

 もしもMMEに入力する行列データ形式が「1種類のみ」で、そのデータが大規模な場合は、全く主張の通りとなるだろう。しかし、行列データ形式が「多様」で、それぞれがそれほど大きくないケース場合は、処理粒度の低いNVIDIAのアーキテクチャの方が並列度が高まり、実効性能も良くなるはずだ。

 Gaudi 3のMMEは、大規模データを一括処理することに重きを置いている。データ形式が多様でそれぞれがそれほど大きくない場合、データの充填(じゅうてん)率が低い状態、つまり効率の悪い状態での稼働を強いられることになってしまうのだ。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください