Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!
ITmedia PC USER / 2024年7月5日 17時5分
せっかくなので、FP16演算のポテンシャルを比べてみよう。
Gaudi3(1.75GHz) 128要素×128要素×2FLOPS×8基×1.75GHz≒459TFLOPS
NVIDIA H100(SXM5/1.98GHz) 16要素×16要素×2FLOPS×528基×1.98GHz≒535TFLOPS
このように、処理性能は拮抗(きっこう)する。厳密には、理論性能ではNVIDIA N100の方が少し上なのだが、Intelは「Gaudi 3のような大型の行列演算器を使うと、大規模な行列演算における演算器同士のデータのやりとりを省けるため、実効性能面では圧倒的に有利だ」とする。加えて、NVIDIAのアーキテクチャについて「複数の小型行列演算器を連動させて演算を行うと、演算器間のデータのやりとりに遅延とバス消費が発生し、実効性能面で不利となる」とも指摘した。
この主張を図示したものが以下の図だ。
言いたいことをくみ取りつつ、この主張をもうちょっと詳しくすると以下のようになる。
Gaudi 3のMMEでは、MMEに入力されるデータは256byteの行列データ2つ分、すなわち512byteだけで済む。それに対して、NVIDIA H100では、各Tensor Coreに入力するデータは16byteの行列データ2つ分、すなわち32byteだが、これが256基相互接続されているので、データアクセスは32byte×256基=8192byteも生じてしまう。つまり、NVIDIA H100は同じ演算をするのにメモリ帯域を16倍も多く消費する。 Gaudi 3のMMEなら、データの受け渡し的なものはMMEコア内部で完結可能で、共有メモリへのアクセスは不要となる。ゆえに絶対的な速度は高いし、それぞれのバス帯域の消費も少なくて済み、遅延もほぼ皆無。実効性能は、Gaudi 3の方が明らかに高い。
この主張にあえてツッコミを入れよう。
もしもMMEに入力する行列データ形式が「1種類のみ」で、そのデータが大規模な場合は、全く主張の通りとなるだろう。しかし、行列データ形式が「多様」で、それぞれがそれほど大きくないケース場合は、処理粒度の低いNVIDIAのアーキテクチャの方が並列度が高まり、実効性能も良くなるはずだ。
Gaudi 3のMMEは、大規模データを一括処理することに重きを置いている。データ形式が多様でそれぞれがそれほど大きくない場合、データの充填(じゅうてん)率が低い状態、つまり効率の悪い状態での稼働を強いられることになってしまうのだ。
この記事に関連するニュース
-
「Zen 5」Deep Diveレポート #1 - Zen 5コアとRyzen 9000シリーズ
マイナビニュース / 2024年7月16日 23時46分
-
HPE、NVIDIAのネットワークとGPUを用いた産総研の次世代スパコンを構築
マイナビニュース / 2024年7月12日 10時35分
-
リブランドした「Intel Xeon 6」はどんなCPU? Intelの解説から分かったことを改めてチェック
ITmedia PC USER / 2024年7月2日 16時5分
-
大好評につき、第2弾開催!NVIDIA(R) RTX(TM) 6000 Ada「サマードラゴンキャンペーン」開始のお知らせ
PR TIMES / 2024年7月2日 10時15分
-
Intel Tech Talkで見えたLunar Lakeにおける低消費電力と高性能の両立へのこだわり
マイナビニュース / 2024年6月27日 6時45分
ランキング
-
1スマホの充電でやってはいけないこと 夏に気を付けたいNG行為は?
ITmedia Mobile / 2024年7月26日 10時5分
-
2「ここまで変わるとは」 寺の僧侶が“すだれ”の写真を投稿→“裏側から見た光景”に衝撃 「これはすごい」
ねとらぼ / 2024年7月26日 8時0分
-
3iPhone「Safari」で不具合「使えない」「検索できない」
ASCII.jp / 2024年7月26日 16時50分
-
4ミュートしているのにWEBの広告で音が出ます!? - いまさら聞けないiPhoneのなぜ
マイナビニュース / 2024年7月26日 11時15分
-
5ニコニコ動画、8月5日にサービス再開へ ドワンゴが復旧状況報告
ITmedia NEWS / 2024年7月26日 18時50分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください