Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!
ITmedia PC USER / 2024年7月5日 17時5分
2048bitのレジスタに対しFP16ならば128要素、FP32ならば64要素をセットして同一演算をこれらの全要素に適用できる。
MMEでは、BF16演算の理論性能値(1835TFLOPS)が、FP16演算の理論性能値(459TFLOPS)の4倍となっていた。それに対して、TPCでの演算はBF16もFP16も同じ28.7TFLOPとなる。一方で、TPCのFP8演算の理論性能値(57.3TFLOPS)は、FP16/BF16の理論性能値(28.7TFLOPS)の2倍となっている。
これは、TPCにおいて、MMEで行われたような「単位演算器に対するBF16(とFP8)の演算最適化モード」の搭載が見送られたからに違いない。試しに、先で算出した「1.75GHz」という動作クロックをもとにTPCにおけるFP32の理論性能値を検算してみると、以下の通り表に示した公称値と一致する。
64要素×2FLOPS×64基×1.75GHz≒14.3TFLOPS(※2)
(※2)2048bit長のレジスタにFP32(32bit=4byte)を収納すると、64要素となる
TPCの1基あたりの構造は下図のようになっており、それぞれのTPCが「スカラ演算器」と「ベクトル演算器」を1基ずつ内包していることが分かる。つまり、1命令の中でスカラ演算とベクトル演算を同時に利用できることになる。
2048bitというSIMDレーンの長さはさておいて、この構成自体はクラシックなGPUのプログラマブルシェーダーユニットとよく似ている。
MMEについて
次にMMEの方に目を向けてみよう。
Gauid 3のMMEは、1基当たり「256byte×256byte」、すなわち「2048bit×2048bit」の二次元行列の演算を1サイクルで行える。FP16であれば128要素×128要素の行列演算を1サイクルで完結できる計算だ。Gaudi 3は、この大規模かつ超強力な行列演算器を全体で8基搭載している。
ちなみに、競合であるNVIDIA H100などに搭載されている「第4世代Tensor Core」の1基当たりの演算能力は、FP16であれば16要素×16要素の行列積算を1サイクルで行える程度だ。行列演算器として考えるとGaudi 3よりだいぶ弱いように見えるが、NVIDIAはTensor Coreを多数搭載して対応している。例えばNVIDIA H100(SXM5)ではTensor Coreを528基も搭載している。
この記事に関連するニュース
-
「Zen 5」Deep Diveレポート #1 - Zen 5コアとRyzen 9000シリーズ
マイナビニュース / 2024年7月16日 23時46分
-
HPE、NVIDIAのネットワークとGPUを用いた産総研の次世代スパコンを構築
マイナビニュース / 2024年7月12日 10時35分
-
リブランドした「Intel Xeon 6」はどんなCPU? Intelの解説から分かったことを改めてチェック
ITmedia PC USER / 2024年7月2日 16時5分
-
大好評につき、第2弾開催!NVIDIA(R) RTX(TM) 6000 Ada「サマードラゴンキャンペーン」開始のお知らせ
PR TIMES / 2024年7月2日 10時15分
-
Intel Tech Talkで見えたLunar Lakeにおける低消費電力と高性能の両立へのこだわり
マイナビニュース / 2024年6月27日 6時45分
ランキング
-
1スマホの充電でやってはいけないこと 夏に気を付けたいNG行為は?
ITmedia Mobile / 2024年7月26日 10時5分
-
2「ここまで変わるとは」 寺の僧侶が“すだれ”の写真を投稿→“裏側から見た光景”に衝撃 「これはすごい」
ねとらぼ / 2024年7月26日 8時0分
-
3ミュートしているのにWEBの広告で音が出ます!? - いまさら聞けないiPhoneのなぜ
マイナビニュース / 2024年7月26日 11時15分
-
4iPhone「Safari」で不具合「使えない」「検索できない」
ASCII.jp / 2024年7月26日 16時50分
-
5「これが生えたら庭終了」 プロも降参する“何をやっても全部ムダな最恐雑草”の正体が400万再生「ほんとこれ厄介」「土ごと変えないと不可能」
ねとらぼ / 2024年7月25日 21時30分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください