Infoseek 楽天

“メタデータ管理”もお任せ! 膨大なユーザーデータを企業のデータ基盤へ統合する「trocco®」

Techable 2021年12月10日 15時0分

膨大かつ多様なデータがあふれる現代において、多くの企業はユーザーデータを活用した事業戦略の必要性を感じています。しかし、形式も所在もバラバラのユーザーデータを“統合”するのは、一苦労。現状、希少なエンジニアによって手作業で実行されているケースが多い非効率な“データ統合”には、新たなソリューションが必要と言えるでしょう。

そんな中、株式会社primeNumberは、2018年11月にデータ統合自動化サービス「trocco®(トロッコ)」をリリース。データエンジニアリング領域をカバーした分析基盤構築・運用の支援SaaSとして、データエンジニアの業務をサポートしてきました。そうしたなか、2021年7月に「メタデータ管理機能」の第1弾を追加し、このたび第2弾となる「データカタログ機能」を追加しています。

点在するデータを1ヶ所に集める「trocco®」

まずは「trocco®」について簡単に紹介しておきましょう。

同サービスは、膨大かつ多様なユーザーデータを自動で統合し、データ活用を効率化するクラウド型サービス。プロのデータエンジニア水準の転送パイプラインを最短5分で展開するスピート感が魅力のひとつです。

データ転送には、パワフルな処理エンジン「Embulk」を採用し、ビッグデータ規模のデータも高速かつ安定して転送することができます。転送元のデータがファイル形式の場合、ファイルの圧縮形式・フォーマット・スキーマ(データ型)などを自動で推論することも可能です。

また、GUIから設定できる7種のテンプレートと任意のプログラミング言語で処理が書けるETL、DWH(データウェアハウス)上のログをビジネス活用しやすい状態に整備するSQLエディタ、DWH上のデータを柔軟にテスト・検証できる機能など、工数のかかるプロセスを効率化する機能を実装しています。

「メタデータ管理」を効率化

そんな「trocco®」を用いて統合したユーザーデータを自社のビジネス成長につながるように活用するには、「メタデータ管理」が非常に重要です。「メタデータ」とは、データの意味・状態・依存関係といったデータに付随する情報のことで、これをうまく管理できれば、ユーザーデータの理解や迅速かつ正確な分析が実現するといいます。

そこで同社は、2021年7月に「メタデータ管理機能」の第1弾として「データリネージ機能」を追加。これによりデータ同士の依存関係を可視化することで、データエンジニアは、障害発生時の影響範囲を迅速に確認したり、分析基盤の全体像を簡単に把握・共有したりできるようになりました。

そしてこのたび、「メタデータ管理機能」の第2弾として「データカタログ機能」を追加。これにより、データの集計・分析に関わるプロセスをサポートします。

具体的には、「データの選定」を効率化する“データ検索”と”ER図”によって、必要なデータの所在地とデータ同士の依存関係を表示したり、選定したデータのメタデータや統計データなどを表示し「データの理解」を促したり、“クエリエディタ”によってtrocco®上でテーブル・カラムメタデータを参照しながらクエリを書き「集計の実行」を効率化したり。

また、統計データを参照して欠損値やデータの分布を確認したり、昇順・降順で並べ替えたり、フィルタをかけたりしながら「集計結果を確認」することもできます。

「データカタログ機能」は今後、クエリの自動補完や自動修正提案ができる機能や、他の人が書いたクエリ一覧からお手本となるクエリを探すことができる機能、ビジネス用語や重要経営指標などの定義を記載した辞書を作成できる機能などを追加予定とのことです。

PR TIMES(1)(2)(3)
株式会社primeNumber

(文・Higuchi)

この記事の関連ニュース