NVIDIA、世界をリードする分析プラットフォームであるApache Spark を高速化
PR TIMES / 2020年5月15日 11時35分
オープンソース コミュニティが、NVIDIA GPU をネイティブサポートして Spark 3.0 を高速化
数百テラバイトのデータの ETL および SQL を超高速処理
Adobe が Databricks で Spark 3.0 を使い、モデル トレーニングで 7 倍のスピードアップを達成
[画像: https://prtimes.jp/i/12662/155/resize/d12662-155-761566-0.jpg ]
2020 年 5 月 14 日、カリフォルニア州サンタクララ — GTC 2020 — NVIDIA は本日、オープンソース コミュニティと連携し、全世界の 50 万人以上のデータ サイエンティストが使用している、ビッグデータ処理のための分析エンジンである Apache Spark 3.0 に、エンドツーエンドの GPU アクセラレーションを提供することを発表しました。
晩春にリリースが予定されている Spark 3.0 にて、データ サイエンティストや機械学習エンジニアは、SQL データベース操作を通じて広く行われている、ETL (抽出、変換、ロード) データ処理ワークロードに革新的な GPU アクセラレーションを初めて適用できるようになります。
また、ワークロードを別々のインフラストラクチャ上で別々のプロセスとして実行するのではなく、AI モデルのトレーニングを同じ Spark クラスタ上で処理できるようになります。これにより、データ サイエンス パイプライン全体で高性能なデータ分析が可能になり、オンプレミスやクラウドで実行されている Spark アプリケーションに使われている既存のコードを変更することなく、データ レイクからモデル学習までの数十から数千テラバイトのデータを高速処理できるようになります。
NVIDIA のエンタープライズ コンピューティング ヘッドのマヌバー ダス (Manuvir Das) は、次のように述べています。「データ アナリティクスは、現在のエンタープライズや研究者が直面している、ハイパフォーマンス コンピューティングにおける最大の課題です。ETL から学習、推論に至るまで、Spark 3.0 のパイプライン全体のネイティブな GPU アクセラレーションによって、ビッグデータの可能性と AI のパワーを最終的に結びつけるのに必要な性能とスケールを得られるようになります」
NVIDIA との戦略的 AI パートナーシップを結んでいる Adobe は、Databricks 上で動作する Spark 3.0 のプレビュー リリースを実際に使用した、最初の企業の 1 つにです。同社は、Adobe Experience Cloud での製品開発やデジタル ビジネスを強力にする機能のサポートのために、GPU で高速化されたデータ分析を使用し、初期テストで 7 倍の性能向上と 90% の費用削減を達成しました。
Spark 3.0 の性能向上により、科学者はより大規模なデータセットでモデルの学習を行えるだけでなく、より頻繁にモデルの再学習もできるようになるため、モデルの精度を引き上げることができます。これにより、毎日テラバイト単位の新しいデータを処理できるようになり、オンライン レコメンデーション システムをサポートしたり、新しい研究データを分析したりするデータ サイエンティストにとって、きわめて重要な意味を持ちます。さらに、処理が高速化されることで、結果を出すために必要とされるハードウェア リソースが減り、大幅な費用削減が可能になります。
Adobe の機械学習担当シニアディレクターのウィリアム ヤン (William Yan) 氏は、次のように述べています。「NVIDIA のテクノロジで高速化された Spark 3.0 により、CPU で Spark を実行していたときと比べて性能が大幅に向上しています。このような革新的な GPU による処理能力の向上により、すべての Adobe Experience Cloud アプリケーションで AI を活用した機能を強化するための、まったく新しい可能性が生まれています」
Databricks と NVIDIA がもたらす、Spark のスピード向上
Apache Spark は元々 Databricks の創業者が生み出したもので、このクラウドベースの統合データ分析プラットフォームは、毎日 100 万台以上の仮想マシンで使用されています。NVIDIA と Databricks は、Databricks 向けのソフトウェア スイートであるRAPIDSTM で Spark を最適化するための取り組みを通じて、ヘルスケアや金融、小売りおよびその他の多くの業界で Databricks 上で実行されている、データ サイエンスと機械学習のワークロードに GPU アクセラレーションを提供しています。
Apache Spark のオリジナル クリエイターであり、Databricks のチーフテクノロジストであるマテイ ザハリア (Matei Zaharia) 氏は、次のように述べています。「NVIDIA との継続的な取り組みにより、Apache Spark 3.0 および Databricks の RAPIDS による最適化によって性能が向上し、Adobe のような両社共通のお客様に利益をもたらしています。このような成果が、より高速なデータ パイプライン、モデルの学習やスコアリングにつながり、データ エンジニアやデータ サイエンティストのコミュニティの多くのブレイクスルーと洞察に直結します。」
NVIDIA GPU による Spark での ETL とデータ転送の高速化
NVIDIA は、新しいオープンソースのRAPIDS Accelerator for Apache Spark を通じて、データ サイエンティストがエンドツーエンドからパイプラインの性能を向上させるのを支援しています。このアクセラレーターは、これまで CPU で実行されていた機能を遮断し、その代わりに GPU を活用して以下のような利益をもたらします。
● コードを変更することなく Spark SQL と DataFrame の処理性能を大幅に向上させ、Spark での ETL パイプラインを高速化します。
● 同じインフラストラクチャ上でのデータ準備とモデルの学習を高速化します。機械学習とディープラーニング用の個別のクラスタは不要になります。
● Spark 分散クラスタ内のノード間のデータ転送性能を高速化します。これらのライブラリでは、UCF Consortium のオープンソースの Unified Communication X (UCX) フレームワークが活用されており、GPU メモリ間でデータを直接転送することで、レイテンシを最小化します。
Spark 3.0 のプレビュー リリースは、Apache Software Foundation を通じて、現在入手可能となっており、一般提供は数か月後の予定です。詳しい情報は、www.nvidia.com/sparkをご覧ください。
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
レノボ、NVIDIAを搭載した生成AIワークフロー向けのワークステーションを発表
PR TIMES / 2024年4月9日 15時15分
-
dotData、各製品の機能強化を発表
PR TIMES / 2024年4月4日 14時45分
-
DataRobot、NVIDIAと連携し、エンタープライズ向けAIソリューションを高速化
PR TIMES / 2024年3月27日 12時45分
-
Supermicro、最新NVIDIA GPU搭載の3種類の生成AI向けSuperClusterを発表
共同通信PRワイヤー / 2024年3月22日 15時43分
-
Cloudera、NVIDIAと協業して生成AI機能を拡張
PR TIMES / 2024年3月22日 12時45分
ランキング
-
1グリコ「チルド食品」出荷再開→再停止…システム障害で 乳製品・洋生菓子など、5月中旬の再開目指す【全文】
ORICON NEWS / 2024年4月19日 18時57分
-
2日本在留の外国人が日本で働きたくない理由 2位は「働く環境が悪い」、1位は?
ITmedia ビジネスオンライン / 2024年4月19日 17時15分
-
3東証、一時1300円安 大幅反落、2カ月ぶり安値水準
共同通信 / 2024年4月19日 12時5分
-
4東証大幅反落、終値1011円安 中東緊迫、3年2カ月ぶり下げ幅
共同通信 / 2024年4月19日 17時36分
-
5格安スマホの利用者は約4割 実際に支払っている月額利用料金の2位は「2000円台」、1位は?
ITmedia ビジネスオンライン / 2024年4月19日 17時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください