1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!

ITmedia PC USER / 2024年7月5日 17時5分

 チップの中央部がGaudi 3の中核的なダイで、よく見ると真ん中に細い縦線がある。実はGaudi 3は2つのコアダイを「EMIB(Embedded Multi-die Integrated Bridge)」と呼ばれるインターポーザーブリッジで連結して1つのチップを形成している。2基のコアダイは全く同一の構成で(※1)、接続先のホストシステムからは1基のコアとして認識される。

(※1)厳密には、片方のコアダイではPCI Express 5.0インタフェースを無効化している(詳細は後述)

 このコアダイは、TSMCの5nmプロセスで製造されている。Gaudi 2ではTSMCの7nmプロセスだったので、2nmほど微細化が進んでいる。

FP8/BF16の演算性能が同じ“からくり”

 ここでGaudi 2とGaudi 3のスペックを比べてみる。下表を見ると、FP8演算は2倍、BF16演算は4倍、別ノードとのネットワーク速度は2倍、メモリー帯域は1.5倍に高められているという。

 表をよく見てみると、MME(行列積算演算器)の理論性能がFP8とBF16で変わりないことが気になる(どちらも1835TFLOPS)。これは恐らく、FP8同士の積和算を、MMEの単位演算器のBF16演算モードを使い、精度重視の混合精度(Mixed Precision)で行っているからだと思われる。その証拠に、FP16の理論性能(459TFLOPS)が、BF16の理論性能値(1835TFLOPS)の4分の1しかない。

 Gaudi 3の単位演算器は、素性としてはFP32演算器の体裁を取っているが、Gaudi 2から進化するに当たり、BF16(とFP8)演算に最適化した拡張モードを新搭載した――そんなところなのだろう。

 なお、学習及び推論の精度を上げることを目的として、FP8において混合精度演算を活用するのは最近のトレンドなので、この改変の流れは自然なものだ。

 いずれにせよ、理論性能値ではFP8とBF16が同一であっても、実際にはそのデータ入出力時のバス帯域消費は半分にできているため、実効性能はFP8利用時の方が良くなるはずである。

理論性能値から動作クロックを逆算してみる

 上記の理論性能値から、Gadui 3の動作クロックが逆算できる。MMEの詳細は後述するが、MMEは「256byte×256byte」(2048bit×2048bit)の行列積算器であること、MMEはGaudi 3全体で8基搭載されていること、そしてBF16ではなく、普通のFP16演算時の理論性能値が459TFLOPSであることから、以下の計算が成り立つ。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください