1. トップ
  2. 新着ニュース
  3. 国際
  4. 国際総合

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

ニューズウィーク日本版 / 2016年5月10日 20時8分

クラウド上での実行
 このSpark、素晴らしいソフトウェアなのですが、実際に複数の計算機を利用して解析したい場合は、そのセットアップにそれなりの時間がかかります。また、Sparkのノード(分散させた作業を実行させる計算機)として使える大量の計算機を自前で用意するのは、(規模にもよりますが)コストも膨大なものになります。こういった時に便利なのがAWSのような商用クラウドサービスです。AWSにはAmazon Elastic MapReduceという、Sparkのようなソフトウェアを実行できるように設定された計算機群(クラスタと呼ばれます)を時間貸ししてくれるサービスがあります。ガーディアン社は今回このサービスを利用し、Sparkを使った解析をEMR上で実行しました。まるでAmazonの回し者のようですが、現実的な問題として、ここまでバラエティに富んだクラウドサービスをワンストップで提供している企業はAmazonをおいて他に無く、それが企業からマスコミ、研究機関まで幅広いユーザーを獲得するのに成功した理由だと思います。

 さて、実際のタスクですが、今回は、AWS上にアップロードされたコメントデータベース、記事データベース、著者のデータに対し、ひたすらクエリを投げて必要な情報を切り出し、どの著者がもっとも多くの誹謗抽象・煽りコメントを受け取っているのかを集計していきました。このような大量のデータに対する比較的単純な作業の繰り返しはSparkの得意とするところで、テストプロジェクトとしては良い選択なのではないかと思います。実際に今回の作業は、パイロットプロジェクトというか、まだ彼らに取っても初の実験だったため、ソースコードにも試行錯誤のなごりが見て取れます。こうして得られた結果は、同じくAWSのS3上に書き出されていきました。この最終的な結果は、スプレッドシートなどで集計・図表化可能な程度の大きさのものだと考えて良さそうです。

 また現在ガーディアン社のデータ解析チームは、将来的にこのような解析がより行いやすくなるようにPrestoと呼ばれるFacebook社を中心に開発されているオープンソース・ソフトウェアを使い、いわゆるデータレイク(これもバズワードに属するものだとは思いますが...)を構築しているようです。ここからも、彼らが自社で蓄積してきたデータに対する計算機による解析を、今後も進めていこうという姿勢が読み取れます。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください