Intelの「Gaudi 3」って何？　AIアクセラレーターとGPUは何が違う？　NVIDIAやAMDに勝てる？　徹底解説！

ITmedia PC USER / 2024年7月5日 17時5分

　チップの中央部がGaudi 3の中核的なダイで、よく見ると真ん中に細い縦線がある。実はGaudi 3は2つのコアダイを「EMIB（Embedded Multi-die Integrated Bridge）」と呼ばれるインターポーザーブリッジで連結して1つのチップを形成している。2基のコアダイは全く同一の構成で（※1）、接続先のホストシステムからは1基のコアとして認識される。

（※1）厳密には、片方のコアダイではPCI Express 5.0インタフェースを無効化している（詳細は後述）

　このコアダイは、TSMCの5nmプロセスで製造されている。Gaudi 2ではTSMCの7nmプロセスだったので、2nmほど微細化が進んでいる。

FP8／BF16の演算性能が同じ“からくり”

　ここでGaudi 2とGaudi 3のスペックを比べてみる。下表を見ると、FP8演算は2倍、BF16演算は4倍、別ノードとのネットワーク速度は2倍、メモリー帯域は1.5倍に高められているという。

　表をよく見てみると、MME（行列積算演算器）の理論性能がFP8とBF16で変わりないことが気になる（どちらも1835TFLOPS）。これは恐らく、FP8同士の積和算を、MMEの単位演算器のBF16演算モードを使い、精度重視の混合精度（Mixed Precision）で行っているからだと思われる。その証拠に、FP16の理論性能（459TFLOPS）が、BF16の理論性能値（1835TFLOPS）の4分の1しかない。

　Gaudi 3の単位演算器は、素性としてはFP32演算器の体裁を取っているが、Gaudi 2から進化するに当たり、BF16（とFP8）演算に最適化した拡張モードを新搭載した――そんなところなのだろう。

　なお、学習及び推論の精度を上げることを目的として、FP8において混合精度演算を活用するのは最近のトレンドなので、この改変の流れは自然なものだ。

　いずれにせよ、理論性能値ではFP8とBF16が同一であっても、実際にはそのデータ入出力時のバス帯域消費は半分にできているため、実効性能はFP8利用時の方が良くなるはずである。

理論性能値から動作クロックを逆算してみる

　上記の理論性能値から、Gadui 3の動作クロックが逆算できる。MMEの詳細は後述するが、MMEは「256byte×256byte」（2048bit×2048bit）の行列積算器であること、MMEはGaudi 3全体で8基搭載されていること、そしてBF16ではなく、普通のFP16演算時の理論性能値が459TFLOPSであることから、以下の計算が成り立つ。

津波情報気象庁発表

地震情報

Intelの「Gaudi 3」って何？　AIアクセラレーターとGPUは何が違う？　NVIDIAやAMDに勝てる？　徹底解説！

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed

Intelの「Gaudi 3」って何？ AIアクセラレーターとGPUは何が違う？ NVIDIAやAMDに勝てる？ 徹底解説！

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed

Intelの「Gaudi 3」って何？　AIアクセラレーターとGPUは何が違う？　NVIDIAやAMDに勝てる？　徹底解説！