「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 22時31分
仮説検証のための技術
今回の分析では、複雑な統計解析は行われていません。最終的に得られたデータを可視化して、それを使って仮説が正しいかどうかざっと眺めるような作業になっています。基本的な流れとしては、手元にあるデータに欠けている情報を追加し、複数のデータセットを統合し、フィルタリングし、ブラウザ上で可視化するというものです。これは可視化を伴う分析を行う場合の最も基本的な作業です。ただし今回は比較的大きなデータを使っていますので、一部は商用クラウドサービス上でSpark(後述)を利用しています。ここからは実際に使われたデータやツール、手法について詳しくみていきます。
可視化を目的にする場合の典型的な作業の流れ。基本的に、大量のデータを人間が把握できる大きさまで「濃縮」する作業と言い換えることができる。
使われた技術
今回使われたツールは、データ分析を業務として行っている方々にはおなじみのものばかりです。例を挙げると:
・テキスト処理のためのPerlスクリプト
・Amazon Web Service (S3, Redshift, EMR)
・Apache Spark
・PostgreSQL
・D3.js
・HTML5
などです。これらのツールは以下のように分類できます。
・データを蓄積して検索可能にする技術: PostgreSQL, S3, Redshift
・データを加工するプログラム: Perlスクリプト
・大規模なデータを複数の計算機で処理する技術: Spark
・それらを実行するための環境を提供する技術: AWS全般, EMR
・最終的なユーザー(今回のケースでは読者)がデータをわかりやすく見られるようにする技術: D3.js, HTML5
これらが実際にはどう使われたのかは後ほど見ていきます。
データセット
今回解析の対象となったコメントデータは以下のような特徴を持ちます:
コメントデータベース
・1/4/1999 ~ 3/2/2016の間にガーディアン紙のサイトにて書き込まれたコメント。ソーシャルメディアなどでの記事への言及は含まない
・コメント総数7,000万件
・うち22,000件が2006年以前に書き込まれた。つまりほとんどがそれ以降のもの
・コメント欄は通常三日間オープンとなり、その間に読者が書き込める。それ以後は読むことのみ可能。したがって、ニュースに対する比較的初期のレスポンスがコメントとして集まる
・コメントは、モデレータにより「ブロックされたもの」と「通常のコメント」に分類されている
・実際のデータはPostgreSQLデータベースに格納
・解析にあたり、実際に新聞社のサイトで使われているデータベースをコピーしてAWS上にアップロード
この記事に関連するニュース
-
【産総研グループ/AIST Solutions】化学データ解析アプリ公開によるサービス提供を開始
PR TIMES / 2024年11月20日 17時45分
-
【年収1,181万円】2024年最新|AWS案件フリーランス副業調査
PR TIMES / 2024年11月13日 12時40分
-
レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
PR TIMES / 2024年11月7日 12時15分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
-
【東芝】少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」を開発 ~「骨格認識AI」と「動画認識AI」を組み合わせ、道具を使った作業を詳細に判別し製造現場のDX推進に貢献~
Digital PR Platform / 2024年10月28日 10時1分
ランキング
-
1パキスタン、元首相釈放求めデモ激化=首都に軍配備、衝突で死者も
時事通信 / 2024年11月26日 20時41分
-
2米海軍哨戒機が台湾海峡飛行、中国軍は「大げさな宣伝」と反発
ロイター / 2024年11月26日 18時33分
-
3政府が政労使会議開催、石破首相「今年の勢いで大幅な賃上げを」
ロイター / 2024年11月26日 13時46分
-
4ウクライナ軍、3日間で2度にわたり米国製「ATACMS」でロシア領内攻撃 ロシア国防省
日テレNEWS NNN / 2024年11月26日 23時28分
-
5イスラエル、ベイルート中心部に初の避難命令 郊外にも空爆
ロイター / 2024年11月27日 2時59分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください