「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
クラウド上での実行
このSpark、素晴らしいソフトウェアなのですが、実際に複数の計算機を利用して解析したい場合は、そのセットアップにそれなりの時間がかかります。また、Sparkのノード(分散させた作業を実行させる計算機)として使える大量の計算機を自前で用意するのは、(規模にもよりますが)コストも膨大なものになります。こういった時に便利なのがAWSのような商用クラウドサービスです。AWSにはAmazon Elastic MapReduceという、Sparkのようなソフトウェアを実行できるように設定された計算機群(クラスタと呼ばれます)を時間貸ししてくれるサービスがあります。ガーディアン社は今回このサービスを利用し、Sparkを使った解析をEMR上で実行しました。まるでAmazonの回し者のようですが、現実的な問題として、ここまでバラエティに富んだクラウドサービスをワンストップで提供している企業はAmazonをおいて他に無く、それが企業からマスコミ、研究機関まで幅広いユーザーを獲得するのに成功した理由だと思います。
さて、実際のタスクですが、今回は、AWS上にアップロードされたコメントデータベース、記事データベース、著者のデータに対し、ひたすらクエリを投げて必要な情報を切り出し、どの著者がもっとも多くの誹謗抽象・煽りコメントを受け取っているのかを集計していきました。このような大量のデータに対する比較的単純な作業の繰り返しはSparkの得意とするところで、テストプロジェクトとしては良い選択なのではないかと思います。実際に今回の作業は、パイロットプロジェクトというか、まだ彼らに取っても初の実験だったため、ソースコードにも試行錯誤のなごりが見て取れます。こうして得られた結果は、同じくAWSのS3上に書き出されていきました。この最終的な結果は、スプレッドシートなどで集計・図表化可能な程度の大きさのものだと考えて良さそうです。
また現在ガーディアン社のデータ解析チームは、将来的にこのような解析がより行いやすくなるようにPrestoと呼ばれるFacebook社を中心に開発されているオープンソース・ソフトウェアを使い、いわゆるデータレイク(これもバズワードに属するものだとは思いますが...)を構築しているようです。ここからも、彼らが自社で蓄積してきたデータに対する計算機による解析を、今後も進めていこうという姿勢が読み取れます。
この記事に関連するニュース
-
【産総研グループ/AIST Solutions】化学データ解析アプリ公開によるサービス提供を開始
PR TIMES / 2024年11月20日 17時45分
-
【年収1,181万円】2024年最新|AWS案件フリーランス副業調査
PR TIMES / 2024年11月13日 12時40分
-
レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
PR TIMES / 2024年11月7日 12時15分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
-
【東芝】少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」を開発 ~「骨格認識AI」と「動画認識AI」を組み合わせ、道具を使った作業を詳細に判別し製造現場のDX推進に貢献~
Digital PR Platform / 2024年10月28日 10時1分
ランキング
-
1パキスタン、元首相釈放求めデモ激化=首都に軍配備、衝突で死者も
時事通信 / 2024年11月26日 20時41分
-
2「フェンタニルは米国の問題」中国が反論 米中協力の「成果」を強調
産経ニュース / 2024年11月26日 23時4分
-
3政府が政労使会議開催、石破首相「今年の勢いで大幅な賃上げを」
ロイター / 2024年11月26日 13時46分
-
4米海軍哨戒機が台湾海峡飛行、中国軍は「大げさな宣伝」と反発
ロイター / 2024年11月26日 18時33分
-
5資金源も使途も非公開、米連邦政府を舞台にトランプ版「政治とカネ」劇場が始まった!?
ニューズウィーク日本版 / 2024年11月26日 19時5分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください