1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

AIネットワークについて知っておくべき5つのこと

マイナビニュース / 2024年10月16日 6時50分

2023年秋に開催されたOpen Compute Project(OCP)グローバル・サミットでは、参加者たちが次世代のAIインフラについて議論を交わしました。その中で、Marvell TechnologyのLoi Nguyen氏が「ネットワークが新たなボトルネックになっている」という問題を明らかにしました。

GPUは、演算の問題やワークロードを解くのに非常に効果的です。これらのシステムがタスクを達成する最速の方法は、すべてのGPUが同じワークロードを並行して処理することです。そのためには、GPUは作業対象の情報が必要で、互いに通信しなければなりません。GPUに必要な情報がない場合、あるいは結果の書き出しに時間がかかる場合、他のすべてのGPUは協調タスクが完了するまで待機しなければなりません。

技術的な用語では、ネットワークの輻輳が原因でパケット遅延やパケット損失が長くなると、パケットの再送信が発生し、ジョブ完了時間(JCT)が大幅に増加する可能性があります。つまり、数億円、数十億円ものGPUが遊休状態になり、収益に影響を及ぼし、AIの機会を活用したい企業にとっては、市場投入までの時間に影響を与える可能性があります。
5. AIネットワークの運用を成功させるにはテストが重要

効率的なAIクラスターを稼働するには、GPUがフル活用されているのを確認する必要があります。そうすれば、学習モデルのトレーニングを早期に終了し、投資収益率を最大化するために使用できます。そのためには、AIクラスターのパフォーマンスのテストとベンチマークが必要です(図2)。ただし、これは簡単な作業ではありません。GPUとネットワーク・ファブリックの間には、ワークロードのアーキテクチャで補完するべき多くの設定や相互関係があるためです。

このため、AIネットワークのテストには多くの課題があります。

コスト、機器の入手可能性、熟練したネットワークAIエンジニアの時間、スペース、電力、熱を考慮すると、完全な本番環境のネットワークをラボで再現するのは困難です。
本番環境のシステム上でテストすると、本番システムで使用可能な処理能力を低下させます。
ワークロードの種類やデータセットの規模や範囲が大きく異なる場合があるため、問題を再現するのは難しい。
GPU間で発生する通信の全体像を把握することも難しい。

これらの課題に対処する1つのアプローチは、ラボ環境で提案されたセットアップのサブセットをテストして、JCT、AI集団が達成できる帯域幅、ファブリックの利用率やバッファ消費量との比較などの主要パラメータをベンチマークすることです。このベンチマークは、GPU/ワークロードの配置とネットワークの設計/設定のバランスを見つけるのに役立ちます。コンピューティングアーキテクトとネットワークエンジニアは結果に満足したら、その設定を本番環境に適用し、新しい結果を測定することができます。
まとめ

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください