「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

ニューズウィーク日本版 / 2016年5月10日 20時8分

クラウド上での実行
　このSpark、素晴らしいソフトウェアなのですが、実際に複数の計算機を利用して解析したい場合は、そのセットアップにそれなりの時間がかかります。また、Sparkのノード（分散させた作業を実行させる計算機）として使える大量の計算機を自前で用意するのは、（規模にもよりますが）コストも膨大なものになります。こういった時に便利なのがAWSのような商用クラウドサービスです。AWSにはAmazon Elastic MapReduceという、Sparkのようなソフトウェアを実行できるように設定された計算機群（クラスタと呼ばれます）を時間貸ししてくれるサービスがあります。ガーディアン社は今回このサービスを利用し、Sparkを使った解析をEMR上で実行しました。まるでAmazonの回し者のようですが、現実的な問題として、ここまでバラエティに富んだクラウドサービスをワンストップで提供している企業はAmazonをおいて他に無く、それが企業からマスコミ、研究機関まで幅広いユーザーを獲得するのに成功した理由だと思います。

　さて、実際のタスクですが、今回は、AWS上にアップロードされたコメントデータベース、記事データベース、著者のデータに対し、ひたすらクエリを投げて必要な情報を切り出し、どの著者がもっとも多くの誹謗抽象・煽りコメントを受け取っているのかを集計していきました。このような大量のデータに対する比較的単純な作業の繰り返しはSparkの得意とするところで、テストプロジェクトとしては良い選択なのではないかと思います。実際に今回の作業は、パイロットプロジェクトというか、まだ彼らに取っても初の実験だったため、ソースコードにも試行錯誤のなごりが見て取れます。こうして得られた結果は、同じくAWSのS3上に書き出されていきました。この最終的な結果は、スプレッドシートなどで集計・図表化可能な程度の大きさのものだと考えて良さそうです。

　また現在ガーディアン社のデータ解析チームは、将来的にこのような解析がより行いやすくなるようにPrestoと呼ばれるFacebook社を中心に開発されているオープンソース・ソフトウェアを使い、いわゆるデータレイク（これもバズワードに属するものだとは思いますが...）を構築しているようです。ここからも、彼らが自社で蓄積してきたデータに対する計算機による解析を、今後も進めていこうという姿勢が読み取れます。

津波情報気象庁発表

地震情報

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

国際トピックス国際トピックスFeed

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

国際トピックス 国際トピックスFeed

国際トピックス国際トピックスFeed