「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 22時31分
仮説検証のための技術
今回の分析では、複雑な統計解析は行われていません。最終的に得られたデータを可視化して、それを使って仮説が正しいかどうかざっと眺めるような作業になっています。基本的な流れとしては、手元にあるデータに欠けている情報を追加し、複数のデータセットを統合し、フィルタリングし、ブラウザ上で可視化するというものです。これは可視化を伴う分析を行う場合の最も基本的な作業です。ただし今回は比較的大きなデータを使っていますので、一部は商用クラウドサービス上でSpark(後述)を利用しています。ここからは実際に使われたデータやツール、手法について詳しくみていきます。
可視化を目的にする場合の典型的な作業の流れ。基本的に、大量のデータを人間が把握できる大きさまで「濃縮」する作業と言い換えることができる。
使われた技術
今回使われたツールは、データ分析を業務として行っている方々にはおなじみのものばかりです。例を挙げると:
・テキスト処理のためのPerlスクリプト
・Amazon Web Service (S3, Redshift, EMR)
・Apache Spark
・PostgreSQL
・D3.js
・HTML5
などです。これらのツールは以下のように分類できます。
・データを蓄積して検索可能にする技術: PostgreSQL, S3, Redshift
・データを加工するプログラム: Perlスクリプト
・大規模なデータを複数の計算機で処理する技術: Spark
・それらを実行するための環境を提供する技術: AWS全般, EMR
・最終的なユーザー(今回のケースでは読者)がデータをわかりやすく見られるようにする技術: D3.js, HTML5
これらが実際にはどう使われたのかは後ほど見ていきます。
データセット
今回解析の対象となったコメントデータは以下のような特徴を持ちます:
コメントデータベース
・1/4/1999 ~ 3/2/2016の間にガーディアン紙のサイトにて書き込まれたコメント。ソーシャルメディアなどでの記事への言及は含まない
・コメント総数7,000万件
・うち22,000件が2006年以前に書き込まれた。つまりほとんどがそれ以降のもの
・コメント欄は通常三日間オープンとなり、その間に読者が書き込める。それ以後は読むことのみ可能。したがって、ニュースに対する比較的初期のレスポンスがコメントとして集まる
・コメントは、モデレータにより「ブロックされたもの」と「通常のコメント」に分類されている
・実際のデータはPostgreSQLデータベースに格納
・解析にあたり、実際に新聞社のサイトで使われているデータベースをコピーしてAWS上にアップロード
この記事に関連するニュース
-
熊本大など、データベースを更新し疾患を引き起こすゲノム状態を“地図化”
マイナビニュース / 2024年5月17日 22時22分
-
AWS、高機能な生成 AI アシスタント Amazon Q の一般提供を開始、ソフトウェア開発の迅速化と社内データ活用を支援
PR TIMES / 2024年5月2日 11時45分
-
AWS、高機能な生成 AI アシスタント Amazon Q の一般提供を開始、ソフトウェア開発の迅速化と社内データ活用を支援
Digital PR Platform / 2024年5月2日 10時49分
-
ローカスブルー株式会社の株式取得(子会社化)に関するお知らせ
PR TIMES / 2024年4月27日 12時40分
-
株式会社ゼンリンによる当社株式の取得(子会社化)に関するお知らせ
PR TIMES / 2024年4月26日 12時45分
ランキング
-
1「悪魔崇拝者」250人超逮捕 イラン
AFPBB News / 2024年5月18日 14時58分
-
2ウクライナ、追加動員準備整う 「一部が前線で戦う過去終わる」 規模・時期、国民焦点に
産経ニュース / 2024年5月18日 18時32分
-
3ニュース裏表 峯村健司 中国監視船内に2カ月拘留中の台湾軍人…軍事行動・スパイ活動の嫌疑「意図的に拘束」か 台湾有事〝最前線〟金門島ルポ・第2弾
zakzak by夕刊フジ / 2024年5月18日 10時0分
-
4米テキサス州ヒューストンでハリケーン並み暴風雨、4人死亡
日テレNEWS NNN / 2024年5月18日 11時12分
-
5北朝鮮の孤児院で乳幼児7人が栄養失調で死亡 職員らが子どもに与える食糧を横領していたとして逮捕、食糧事情の悪さが浮き彫りに
NEWSポストセブン / 2024年5月18日 7時15分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください