1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

NTT Com、分散データセンターにIOWN APNを用いて生成AI学習の実証に成功

マイナビニュース / 2024年10月7日 16時47分

画像提供:マイナビニュース

NTTコミュニケーションズ(以下、NTT Com)は10月7日、超高速かつ超低消費電力な通信の実現を目指すIOWN(Innovative Optical and Wireless Network)構想の主要技術であるAPN(All-Photonics Network)によって接続したデータセンターに、NVIDIA GPU搭載サーバを分散配置した環境で、生成AIモデル学習の実証実験に成功したことを発表し、記者向けの説明会を開いた。
○実証の取り組み背景

生成AIの利活用をはじめデータ分析や画像処理といった高度な技術によって、多くの計算資源が求められている。また、1台のGPUサーバでは搭載できるGPUの数に限りがあるため、複数台のGPUサーバを並べて同時に利用する「GPUクラスタ」を構築する例も増えている。

従来は単一のデータセンター内でGPUクラスタを構築し利用することが主流とされているが、その場合は生成AIのモデルサイズの増大など処理量の変動に応じてオンデマンドにGPUリソースを入手するのが難しい。さらに、利用者の拠点から移動できないような機密性の高いデータの取り扱いも課題となる。

これらの課題に対してNTT Comは、GPUクラスタの利用者や提供事業者を支援するためのコンセプトとして、「GPU over APN」を提案する。GPU over APNでは、IOWN APNの低遅延かつ大容量という特長を生かして複数のデータセンターを接続し、計算資源やデータの適切な分散配置を考慮した柔軟なGPUクラウドを実現するとしている。

NTT ComでIOWN推進室の担当部長を務める張暁晶(ちょう ぎょうしょう)氏は「GPU over APNを実現できれば、企業が抱えているデータを移動できない場合でも、既存のストレージを動かさずに計算のGPUクラスタだけ地理的に離れた場所のものを活用できるようになる。また、1つのデータセンターの床面積や電力供給能力に制限されずに計算資源を利用できるようになる」と利点を説明した。

加えて、他拠点に置いたストレージから高速にデータの読み書きを実施する場合にもIOWN APNは有効だという。

○実証実験の概要と結果

実証では、NVIDIA H100 GPU搭載サーバを約40キロメートル離れた三鷹と秋葉原のデータセンタに分散配置し、両拠点間を100ギガビット / 秒 回線のIOWN APNで接続した。各データセンターにはH100 2基の計4ノードを構築。分散学習に対応したNVIDIAの生成AIプラットフォーム「NVIDIA NeMo」を使用してモデルの学習を実施した。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください