NVIDIA、世界をリードする分析プラットフォームであるApache Spark を高速化

PR TIMES / 2020年5月15日 11時35分

オープンソースコミュニティが、NVIDIA GPU をネイティブサポートして Spark 3.0 を高速化
数百テラバイトのデータの ETL および SQL を超高速処理
Adobe が Databricks で Spark 3.0 を使い、モデルトレーニングで 7 倍のスピードアップを達成

[画像: https://prtimes.jp/i/12662/155/resize/d12662-155-761566-0.jpg ]

2020 年 5 月 14 日、カリフォルニア州サンタクララ — GTC 2020 — NVIDIA は本日、オープンソースコミュニティと連携し、全世界の 50 万人以上のデータサイエンティストが使用している、ビッグデータ処理のための分析エンジンである Apache Spark 3.0 に、エンドツーエンドの GPU アクセラレーションを提供することを発表しました。

晩春にリリースが予定されている Spark 3.0 にて、データサイエンティストや機械学習エンジニアは、SQL データベース操作を通じて広く行われている、ETL (抽出、変換、ロード) データ処理ワークロードに革新的な GPU アクセラレーションを初めて適用できるようになります。

また、ワークロードを別々のインフラストラクチャ上で別々のプロセスとして実行するのではなく、AI モデルのトレーニングを同じ Spark クラスタ上で処理できるようになります。これにより、データサイエンスパイプライン全体で高性能なデータ分析が可能になり、オンプレミスやクラウドで実行されている Spark アプリケーションに使われている既存のコードを変更することなく、データレイクからモデル学習までの数十から数千テラバイトのデータを高速処理できるようになります。

NVIDIA のエンタープライズコンピューティングヘッドのマヌバーダス (Manuvir Das) は、次のように述べています。「データアナリティクスは、現在のエンタープライズや研究者が直面している、ハイパフォーマンスコンピューティングにおける最大の課題です。ETL から学習、推論に至るまで、Spark 3.0 のパイプライン全体のネイティブな GPU アクセラレーションによって、ビッグデータの可能性と AI のパワーを最終的に結びつけるのに必要な性能とスケールを得られるようになります」

NVIDIA との戦略的 AI パートナーシップを結んでいる Adobe は、Databricks 上で動作する Spark 3.0 のプレビューリリースを実際に使用した、最初の企業の 1 つにです。同社は、Adobe Experience Cloud での製品開発やデジタルビジネスを強力にする機能のサポートのために、GPU で高速化されたデータ分析を使用し、初期テストで 7 倍の性能向上と 90% の費用削減を達成しました。

Spark 3.0 の性能向上により、科学者はより大規模なデータセットでモデルの学習を行えるだけでなく、より頻繁にモデルの再学習もできるようになるため、モデルの精度を引き上げることができます。これにより、毎日テラバイト単位の新しいデータを処理できるようになり、オンラインレコメンデーションシステムをサポートしたり、新しい研究データを分析したりするデータサイエンティストにとって、きわめて重要な意味を持ちます。さらに、処理が高速化されることで、結果を出すために必要とされるハードウェアリソースが減り、大幅な費用削減が可能になります。

Adobe の機械学習担当シニアディレクターのウィリアムヤン (William Yan) 氏は、次のように述べています。「NVIDIA のテクノロジで高速化された Spark 3.0 により、CPU で Spark を実行していたときと比べて性能が大幅に向上しています。このような革新的な GPU による処理能力の向上により、すべての Adobe Experience Cloud アプリケーションで AI を活用した機能を強化するための、まったく新しい可能性が生まれています」

Databricks と NVIDIA がもたらす、Spark のスピード向上
Apache Spark は元々 Databricks の創業者が生み出したもので、このクラウドベースの統合データ分析プラットフォームは、毎日 100 万台以上の仮想マシンで使用されています。NVIDIA と Databricks は、Databricks 向けのソフトウェアスイートであるRAPIDSTM で Spark を最適化するための取り組みを通じて、ヘルスケアや金融、小売りおよびその他の多くの業界で Databricks 上で実行されている、データサイエンスと機械学習のワークロードに GPU アクセラレーションを提供しています。

Apache Spark のオリジナルクリエイターであり、Databricks のチーフテクノロジストであるマテイザハリア (Matei Zaharia) 氏は、次のように述べています。「NVIDIA との継続的な取り組みにより、Apache Spark 3.0 および Databricks の RAPIDS による最適化によって性能が向上し、Adobe のような両社共通のお客様に利益をもたらしています。このような成果が、より高速なデータパイプライン、モデルの学習やスコアリングにつながり、データエンジニアやデータサイエンティストのコミュニティの多くのブレイクスルーと洞察に直結します。」

NVIDIA GPU による Spark での ETL とデータ転送の高速化
NVIDIA は、新しいオープンソースのRAPIDS Accelerator for Apache Spark を通じて、データサイエンティストがエンドツーエンドからパイプラインの性能を向上させるのを支援しています。このアクセラレーターは、これまで CPU で実行されていた機能を遮断し、その代わりに GPU を活用して以下のような利益をもたらします。

● コードを変更することなく Spark SQL と DataFrame の処理性能を大幅に向上させ、Spark での ETL パイプラインを高速化します。

● 同じインフラストラクチャ上でのデータ準備とモデルの学習を高速化します。機械学習とディープラーニング用の個別のクラスタは不要になります。

● Spark 分散クラスタ内のノード間のデータ転送性能を高速化します。これらのライブラリでは、UCF Consortium のオープンソースの Unified Communication X (UCX) フレームワークが活用されており、GPU メモリ間でデータを直接転送することで、レイテンシを最小化します。

Spark 3.0 のプレビューリリースは、Apache Software Foundation を通じて、現在入手可能となっており、一般提供は数か月後の予定です。詳しい情報は、www.nvidia.com/sparkをご覧ください。

企業プレスリリース詳細へ
 PR TIMESトップへ