データをこじらせて―モダーンDWHのすすめ

EnterpriseZine / 2013年12月25日 11時0分

困る②

 お久しぶりでございます。すっかり間が空いてしまったこのコーナーですが、まだまだ続きます。久しぶりにお会いした北川さんが訴えるのは、ビッグデータでもスモールデータでもなく、モダーンDWH。モダーン。

■腐データの哀しみ

 北川:僕ね、いま、データサイエンティストみたいなことをやっているんですよ。

 小泉:おお!流行りの。

 北川:でね、最近はビッグデータはもう面倒とか、スモールデータがいいとか、いろいろ言うでしょう。

 小泉:はい。スモールデータ、出てきましたね。

 北川:でね、僕ね、いま、データサイエンティストみたいなことをやっているんですけどね。

 小泉:それは聞きました。

 北川:なにをやっているかというと、DWHを持っているお客さまのところのデータをもらって、「御社でお持ちのデータで、こういうことできますよ」って、サンプルで試したりするんです。だいたい、お客さまのイメージとしては、DWHの中のデータを、もぞもぞ分析すれば、なんか出てくるんじゃないかと思ってるわけです。

 小泉:私もそんなイメージです。

 北川:でもね、お客さまからもらうデータがひどい!

 小泉:ひどいとは?

 北川:腐っている!

 小泉:腐っている!腐データ!

 北川:とにかく、きれいなモデルになったことがないんです。マスターとディテールというのがあります。商品マスター、得意先マスターをまるっともらって、受注データをもらいます。こちらとしては、モデルをつくって、「こんな分析ができます」「こうデータマイニングをかけるとこんな傾向わかりました」とやりたい。

 小泉:やったらいいじゃないですか。

 北川:ところが、ですよ!商品マスターに登録されていない商品が、売れていたりするんですよ!得意先マスターに登録されていない得意先にものを売ってたりするんですよ!どうしたらいいんですか!

 小泉:「マスターにないものがある」これが今回の問題ですね。

 北川:はい。これまで僕がおこなってきた分析では、かなりの高確率でヒットしますね。マスターにないもの。腐ってるレベルは、ちょっと傷んでいるレベルから、糸をひいているものレベルまでさまざまです。顧客マスターにない顧客からの受注や商品マスターにない商品の受注のレコードがある、とかね、もうどういうことなのかと。ひどい受注データをクレンジングして、なんとか乗り越えて、次のステップに進むとしましょう。次に出てくる問題は、商品マスターが分析したい軸がなく作られてる。商品の大分類中分類小分類できてない。べたーっと入っている。これが非常に困るわけです。

  • 前のページ
    • 1
    • 2
  • 次のページ
EnterpriseZine

トピックスRSS

ランキング