1. トップ
  2. 新着ニュース
  3. 国際
  4. 国際総合

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

ニューズウィーク日本版 / 2016年5月10日 20時8分

 このような「時間貸し計算機」のサービスは、現在の大量のデータを生み出す社会の中で重要な役割を果たしています。AWSやその他の大手クラウドコンピューティングサービスは世界中のあらゆる企業によって使われています。また企業ばかりではなく、私の職場のような非営利の研究機関でもこのサービスは利用されています。大量の塩基配列情報を処理するのに、安い時間帯(AWSは、時間によって値段の変動するオークション形式も採用しています)に一気に多数の計算機を借りて解析を実行する、というようなことも始まっています。

ガーディアン社でのAWSの利用
 ここでガーディアン社の使っているAmazon Redshiftと呼ばれるサービスは、いわゆるデータウェアハウスを外部に構築する際に使われるものです。新聞社にとって命とも言える記事のデータを全てここに格納し、解析や検索が行える状態になっています。社内の解析チームが直接使っているものとは異なると思いますが、この記事データベースは一般の方にも開放されています。英語ですが使い方も書いてありますので、興味のある方は遊んでみてはどうでしょう。ちょっと試すだけなら、ブラウザからもアクセスできます。



このデータベースに対して適切な検索条件を送信することにより、著者のデータも得ることができます。今回は「最低2回はガーディアン紙上に記事を書いたことのある人」という条件で著者名のリストを得ました。その総計はおよそ12,000人でした。しかしここで問題が一つあります。今回の仮説は男女の差に関わるものなのに、著者の性別はデータベースには存在しないのです。この問題を彼らはどう解決したのでしょうか?


著者の性別の判定

 今回、最終的に検証したい仮説が性別に基づくバイアスなので、著者の性別がわかっていないとどうにもなりません。この問題を解決するために彼らが行ったのは、ある意味とても原始的な作業でした。しかし技術的には高度でないにもかかわらず、この類の作業というのがデータ解析を行うときに最も面倒で時間のかかる作業であるケースも非常に多いです。つまり、一定のエラーを含みながらも必要な結果を得られる程度には正確な、形成されたデータを作るという作業です。

名前から性別を判定するワークフロー (Cytoscape 3.3にて作成)


 今回の具体的な作業は上の図のようになります。まず12,000人の著者名を、無償で公開されている男女別の人名リストと比較するスクリプトを実行します。おそらくここではファーストネームの完全一致による単純な判別を行っていると思われます。これにより、11,098人分のデータが男女別に分類され、1,268人が性別不明として残りました。性別不明になる原因は色々と考えられるのですが、そもそも名前がリストにない場合はわかりませんし、名前の英語表記の揺れなども原因になります。例えば、下のスクリーンショットは今回使われた名前のリストからの抜粋ですが、日本人名の「ケンイチ」という名前は、正しく男性名に分類されていますが、表記がKEN'ICHIであるため、KENICHIという表記との単純一致だと取りこぼしてしまいます。このような名前や住所といったものの表記ゆれは厄介な問題で、バラバラにデータベース化された情報を統合する時に様々な問題を引き起こします。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください