「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 22時31分
names.csv. KENという語で検索をかけた例
さて、この時点で不明の1,268人分のデータの性別を判定するために、今度は以下の人名判定サービスにPerlスクリプト(この場合は、Perlというプログラミング言語で作業工程を記述した小さなプログラムのことです)で送信します:
・genderize.io: Determine the gender of a first name
このサービスを利用した後の時点で何名ぐらいが性別不明だったかはわかりませんが、なんとか人力で判定、つまり人名辞典やネット検索で人間が一つ一つ判定するのも不可能ではない程度の量にまで不明の数が減っていたので、残りは実際にそういう作業で仕分けされています。「データサイエンス」という言葉の響きとは対極にあるような作業ですが、現実はこんなものです。
ともあれ、この作業で一定のエラーは含まれているが、それなりに大きい数の男女別著者リストが得られたので、そのファイル(CSV)をAWSのS3というストレージサービスにアップロードしました。ここからはAWS上の計算機での作業になります。
Sparkでの分析
ガーディアン社はかねてより、こういった比較的大きなデータを分析することによる調査報道をやりたかったらしく、大規模な分散処理ではスタンダードな地位にあるApache Sparkを実際に使うプロジェクトを探していました。今回の解析はテストケースとして丁度良いものだったため、実際に利用しています。
Sparkとは何か?
Apache Sparkとはオープンソースで開発が続いている「並列分散処理のためのフレームワーク」です。これだけでは一体なんなのか分かりにくいと思いますが、要するに複数の計算機を利用して、巨大なデータを効率よく同時に処理するためのソフトウェアのことです。今日のデータ分析で巨大なデータを扱う時に高性能な計算機が必要な場合、一台の高性能なマシンに大きな投資をして使うことは稀で、基本的には比較的安価な計算機をたくさん集めて処理を分散させて行います。この作業を行う時には、一台の計算機で処理を行う際に比べてはるかに高度な技術が必要になります。この複雑な部分の面倒を見てくれるソフトウェアと考えてもらって概ね問題ないです。
若干技術寄りの話になりますが、かつてこのソフトウェアを使う時にはScalaという言語でRDDと呼ばれる比較的抽象度の低いデータ構造を使う必要があったのですが、最近ではRとDataFrame(スプレッドシートのシートのような感覚で各種データを扱えるデータ構造)という、データ解析を行う人々には馴染み深い、かなり抽象度の高いものを利用できるようになってきました。現時点でもScalaを使える人がもっともこのソフトウェアを効率よく使いこなすことができますが、そうでない人にも今後は門戸を開いていくという方針のようなので、大規模データ分析の世界ではSparkのさらなる普及が予想されます。
この記事に関連するニュース
-
FRONTEO、医学論文探索AIシステム「KIBIT Amanogawa」、あすか製薬株式会社で導入
PR TIMES / 2024年6月3日 17時15分
-
クラスメソッド、データウェアハウスからのデータ抽出を簡単・迅速にできる「CSアナリティクス Downloader」を提供開始
PR TIMES / 2024年5月31日 17時40分
-
ZenmuTechとアーリーワークス、協業開始 - 秘密分散とブロックチェーンによりさらなる安心・安全なデジタル社会の実現 -
@Press / 2024年5月30日 13時30分
-
FRONTEO、医学論文探索AIシステム「KIBIT Amanogawa」に類似性・関連性の高い遺伝子や疾患のリストを提示する新機能を追加
PR TIMES / 2024年5月21日 16時15分
-
熊本大など、データベースを更新し疾患を引き起こすゲノム状態を“地図化”
マイナビニュース / 2024年5月17日 22時22分
ランキング
-
1ウクライナの無人機87機撃墜、夜間攻撃で ロシア発表
AFPBB News / 2024年6月14日 17時38分
-
2ロシア宇宙基地でフランス人の遺体発見 「極限の観光」で不法侵入か
AFPBB News / 2024年6月14日 13時45分
-
3バイデン氏、次男に「恩赦も減刑もしない」と明言
AFPBB News / 2024年6月14日 9時16分
-
4深層韓国 佐渡島金山の世界遺産登録で「反日」再燃のきざし 日本政府はオドオド…申請対象「江戸時代まで」の小細工も 全歴史を示す好機に
zakzak by夕刊フジ / 2024年6月14日 6時30分
-
5中国の「領海」侵入で外国人を最長60日拘束可能に…フィリピンなど周辺国で警戒強まる
読売新聞 / 2024年6月14日 20時31分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください