1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!

ITmedia PC USER / 2024年7月5日 17時5分

 2048bitのレジスタに対しFP16ならば128要素、FP32ならば64要素をセットして同一演算をこれらの全要素に適用できる。

 MMEでは、BF16演算の理論性能値(1835TFLOPS)が、FP16演算の理論性能値(459TFLOPS)の4倍となっていた。それに対して、TPCでの演算はBF16もFP16も同じ28.7TFLOPとなる。一方で、TPCのFP8演算の理論性能値(57.3TFLOPS)は、FP16/BF16の理論性能値(28.7TFLOPS)の2倍となっている。

 これは、TPCにおいて、MMEで行われたような「単位演算器に対するBF16(とFP8)の演算最適化モード」の搭載が見送られたからに違いない。試しに、先で算出した「1.75GHz」という動作クロックをもとにTPCにおけるFP32の理論性能値を検算してみると、以下の通り表に示した公称値と一致する。

64要素×2FLOPS×64基×1.75GHz≒14.3TFLOPS(※2)

(※2)2048bit長のレジスタにFP32(32bit=4byte)を収納すると、64要素となる

 TPCの1基あたりの構造は下図のようになっており、それぞれのTPCが「スカラ演算器」と「ベクトル演算器」を1基ずつ内包していることが分かる。つまり、1命令の中でスカラ演算とベクトル演算を同時に利用できることになる。

 2048bitというSIMDレーンの長さはさておいて、この構成自体はクラシックなGPUのプログラマブルシェーダーユニットとよく似ている。

MMEについて

 次にMMEの方に目を向けてみよう。

 Gauid 3のMMEは、1基当たり「256byte×256byte」、すなわち「2048bit×2048bit」の二次元行列の演算を1サイクルで行える。FP16であれば128要素×128要素の行列演算を1サイクルで完結できる計算だ。Gaudi 3は、この大規模かつ超強力な行列演算器を全体で8基搭載している。

 ちなみに、競合であるNVIDIA H100などに搭載されている「第4世代Tensor Core」の1基当たりの演算能力は、FP16であれば16要素×16要素の行列積算を1サイクルで行える程度だ。行列演算器として考えるとGaudi 3よりだいぶ弱いように見えるが、NVIDIAはTensor Coreを多数搭載して対応している。例えばNVIDIA H100(SXM5)ではTensor Coreを528基も搭載している。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください