1. トップ
  2. 新着ニュース
  3. 国際
  4. 国際総合

「パナマ文書」解析の技術的側面

ニューズウィーク日本版 / 2016年4月12日 18時25分


実際のグラフ構築

 「機械可読なグラフデータを構築する」と書くと大変仰々しいのですが、実はそれほど複雑なことではありません。基本的に、ありとあらゆるエッジは以下の形式で表現可能です:
 Node A, Edge Type, Node B


 つまりこのような形のテキストで関係性を記述できれば、あらゆるグラフはデータベースや可視化ソフトで使うデータとして利用できます。具体的には、こういったグラフは単なるCSV形式のテキストテーブルとして公開されることも多いです。実際、パナマ文書より前の流出事件であるオフショア・リークス事件の時のものは、この形式でグラフデータが出回っています。どのくらい単純なものかを知っていただくために実際に作ってみましょう。データとしては前章で例として使った架空のデータである「ケイマン諸島の怪しい紳士たち」の例を使います。あの文章をグラフとして表現すると以下のような感じになります:

X ceo_of A
Y founder_of A
Y board_member_of B
Y sending_emails_to Z
α address_of A
β address_of B
α sub_address_of γ
β sub_address_of γ
Z owner_of γ


 これをテキストファイルとして保存し、Cytoscapeに読み込み可視化するとこのようなものが見られます。


 複雑なプロットのミステリー小説などでこのようなものを手書きで作ってあるのを目にした方も多いと思います。本質的には同じなのですが、大きな違いは、機械的にこのようなデータを作り出す仕組みを整えれば、凄まじい量のデータであってもキーワードで検索したり関係性を機械に描かせて人間が理解しやすい形にできる、という点です。今回の目的とは外れますので手法の詳細は述べませんが、このような可視化を試してみるには、テキストエディタとCytoscapeのようなオープンソースソフトウェアで簡単に行えます。今回使ったデータはここに置いておきます:

・Sample Cytoscape Session File


 では、今回のデータのグラフ化はどのような作業だったのでしょうか。実際のデータが公開されていませんので、この部分の詳細は予想も混じりますが、幾つかヒントはあります。非常に小さな部分グラフですが、この記事にインタラクティブに操作できるLinkuriousの埋め込みビューアが掲載されています。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください