1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!

ITmedia PC USER / 2024年7月5日 17時5分

 それぞれのDCOREにある24MBのキャッシュメモリは「当該DCOREが独占的に利用する24MBのL2キャッシュ」として、または「全DCOREで共有する24MB×4=96MBのL3キャッシュ(事実上のラストレベルキャッシュ)」として運用可能だ。ただし、そのスループットはモードによって異なり、DCORE専用のL2キャッシュとして運用する場合は毎秒19.2TBと超高速だが、DCORE共通のL3キャッシュとして運用する場合が毎秒6.4TBまで速度が低下する(毎秒6.4TBでも相当に高速だが)。

 キャッシュモードの切り替えは、ユーザーが意図的に行える。「Intel Gaudiソフトウェアプラットフォーム」ベースで動作させている場合は、状況に応じてキャッシュモードを動的に切り替えることも可能だ。

 Gaudi 3には各ダイに12基の200Gbpsイーサネットポートを備えており、合わせて24基のイーサネットポートを利用できる。競合のNVIDIAではスケーリングを独自規格で行うのに対し、Gaudi 3は汎用性が高く、スイッチ/ハブも比較的手頃なイーサネットでスケーリングできることを強みとしている。

 同様に、各ダイには1基ずつ「メディアエンジン」も搭載されている。合わせて2基を同時に利用することも可能だ。

 逆に、各ダイに搭載されているにもかかわらず、同時利用できないのがPCI Express 5.0 x16インタフェースだ。「もったいないなぁ」と思うかもしれないが、現状のPCI Express規格では、最大バス幅は16レーン(x16)で、その2倍の32レーン(x32)で接続する手段が実用化されていない。そのため、意図的に片方を無効化しているようだ。

●TPCとMMEに焦点を当てて、一層深掘り

 Gaudi3のDCOREには、16基のTPCと2基のMMEが搭載されている。つまり、TPCは合計64基、MMEは合計8基利用できることになる。

TPCについて

 先述の通り、TPCは「Tensor Processor Core」の略だ。これを聞くとNVIDIAのGPUにおける「Tensor Core」を想起してしまうが、Tensor Coreが事実上の行列演算器なのに対して、TPCはベクトル演算器である。モノとして全然違う。

 Gaudi 3のTPCは、2048bit(256byte)のSIMD演算器となっており、FP32/BF16/FP16/FP8/INT32/INT16/INT8のデータ形式に対応する。FP8は指数項4bit/仮数項3bitの「E4M3形式」と、指数項5bit/仮数項2bitの「E5M2形式」の両方に対応し、どちらを使うかは演算器側で自動選択される。この仕組みはNVIDIA GPUと同様だ。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください