1. トップ
  2. 新着ニュース
  3. IT
  4. パソコン

ハイエンドスマホ向け新型SoC「Snapdragon 8 Elite」にみるAI半導体の進化

ITmedia PC USER / 2024年11月28日 19時40分

 しかし、昨今のAI処理では大量の行列(Matrix/Tensor)演算が発生する。行列演算とは、すなわち大量のMAC演算でもある。ゆえに、昨今のHexagonはAIにおける推論実行に最適化するチューニングが施されている。

 先に紹介したホワイトペーパーでは、文中でHexagonがどのようなチューニングを施されてきたのか紹介している。例えば2022年12月に発表されたハイエンドスマホ向けSoC「Snapdragon 8 Gen 2」のHexagonでは、AI推論の実行におけるレイヤーが10層以上になっても、実行単位である「Microtile(マイクロタイル)」内でScalar演算/Vector演算/Tensor演算を独立して演算処理できるようにした。これにより、メインメモリへのアクセス回数が減少し、結果的に実効性能の大幅な引き上げに成功したという。

 またAI推論では「浮動小数点」ではなく「整数演算」が主に用いられるが、実行する推論の内容によっては必ずしも高精度でなくても構わない。そこでSnapdragon 8 Gen 2のHexagonでは「INT4」演算をハードウェアレベルでサポートした。例えば「INT8」ならINT4の2倍の数を扱えるが、そこまでの精度を必要としない場合はINT8の演算器を「INT4×2」の演算器として運用することで、実効速度の向上と消費電力の削減を両立した。

 そして2023年10月に披露されたハイエンドスマホ向けSoC「Snapdragon 8 Gen 3」では、メインメモリとしてLPDDR5X-4800をサポートすることでメモリのアクセススピードを改善した。

 「AI推論とメモリって関係があるの?」と思うかもしれないが、LLMを実行する際には「モデル」がメモリ上に大量に展開されるため、NPUとメモリは頻繁にデータをやりとりする。言い換えると、メモリのアクセススピードが速ければ、その分だけLLMからの回答(レスポンス)も早く得られることになるため、メモリの容量とアクセススピードは重要なのだ。

 メモリのアクセス速度の改善は、少なくとも今後数年にわたってLLMの実行に必要十分なパフォーマンスが得られるよう志向した結果だと考えられる。現に、Snapdragon 8 Gen 3を搭載するスマホにおいて、オンデバイスである程度の規模のLLMを動作させる試みは行われている。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください