「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
クラウド上での実行
このSpark、素晴らしいソフトウェアなのですが、実際に複数の計算機を利用して解析したい場合は、そのセットアップにそれなりの時間がかかります。また、Sparkのノード(分散させた作業を実行させる計算機)として使える大量の計算機を自前で用意するのは、(規模にもよりますが)コストも膨大なものになります。こういった時に便利なのがAWSのような商用クラウドサービスです。AWSにはAmazon Elastic MapReduceという、Sparkのようなソフトウェアを実行できるように設定された計算機群(クラスタと呼ばれます)を時間貸ししてくれるサービスがあります。ガーディアン社は今回このサービスを利用し、Sparkを使った解析をEMR上で実行しました。まるでAmazonの回し者のようですが、現実的な問題として、ここまでバラエティに富んだクラウドサービスをワンストップで提供している企業はAmazonをおいて他に無く、それが企業からマスコミ、研究機関まで幅広いユーザーを獲得するのに成功した理由だと思います。
さて、実際のタスクですが、今回は、AWS上にアップロードされたコメントデータベース、記事データベース、著者のデータに対し、ひたすらクエリを投げて必要な情報を切り出し、どの著者がもっとも多くの誹謗抽象・煽りコメントを受け取っているのかを集計していきました。このような大量のデータに対する比較的単純な作業の繰り返しはSparkの得意とするところで、テストプロジェクトとしては良い選択なのではないかと思います。実際に今回の作業は、パイロットプロジェクトというか、まだ彼らに取っても初の実験だったため、ソースコードにも試行錯誤のなごりが見て取れます。こうして得られた結果は、同じくAWSのS3上に書き出されていきました。この最終的な結果は、スプレッドシートなどで集計・図表化可能な程度の大きさのものだと考えて良さそうです。
また現在ガーディアン社のデータ解析チームは、将来的にこのような解析がより行いやすくなるようにPrestoと呼ばれるFacebook社を中心に開発されているオープンソース・ソフトウェアを使い、いわゆるデータレイク(これもバズワードに属するものだとは思いますが...)を構築しているようです。ここからも、彼らが自社で蓄積してきたデータに対する計算機による解析を、今後も進めていこうという姿勢が読み取れます。
この記事に関連するニュース
-
dotData Feature Factory 1.2を発表 - Snowpark上の特徴量自動設計がSnowflakeのデータの価値を最大化を実現
PR TIMES / 2024年7月22日 14時15分
-
日立、高速・低コストなデータ利活用基盤をAzure上に短期間で構築可能な超高速データベースエンジンHADBのベストプラクティス構成を提供
PR TIMES / 2024年7月11日 13時45分
-
PingCAP、クラウド導入実績2,500社以上のアイレットとパートナー契約を締結
PR TIMES / 2024年7月3日 13時40分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください