「パナマ文書」解析の技術的側面
ニューズウィーク日本版 / 2016年4月12日 18時25分
実際のグラフ構築
「機械可読なグラフデータを構築する」と書くと大変仰々しいのですが、実はそれほど複雑なことではありません。基本的に、ありとあらゆるエッジは以下の形式で表現可能です:
Node A, Edge Type, Node B
つまりこのような形のテキストで関係性を記述できれば、あらゆるグラフはデータベースや可視化ソフトで使うデータとして利用できます。具体的には、こういったグラフは単なるCSV形式のテキストテーブルとして公開されることも多いです。実際、パナマ文書より前の流出事件であるオフショア・リークス事件の時のものは、この形式でグラフデータが出回っています。どのくらい単純なものかを知っていただくために実際に作ってみましょう。データとしては前章で例として使った架空のデータである「ケイマン諸島の怪しい紳士たち」の例を使います。あの文章をグラフとして表現すると以下のような感じになります:
X ceo_of A
Y founder_of A
Y board_member_of B
Y sending_emails_to Z
α address_of A
β address_of B
α sub_address_of γ
β sub_address_of γ
Z owner_of γ
これをテキストファイルとして保存し、Cytoscapeに読み込み可視化するとこのようなものが見られます。
複雑なプロットのミステリー小説などでこのようなものを手書きで作ってあるのを目にした方も多いと思います。本質的には同じなのですが、大きな違いは、機械的にこのようなデータを作り出す仕組みを整えれば、凄まじい量のデータであってもキーワードで検索したり関係性を機械に描かせて人間が理解しやすい形にできる、という点です。今回の目的とは外れますので手法の詳細は述べませんが、このような可視化を試してみるには、テキストエディタとCytoscapeのようなオープンソースソフトウェアで簡単に行えます。今回使ったデータはここに置いておきます:
・Sample Cytoscape Session File
では、今回のデータのグラフ化はどのような作業だったのでしょうか。実際のデータが公開されていませんので、この部分の詳細は予想も混じりますが、幾つかヒントはあります。非常に小さな部分グラフですが、この記事にインタラクティブに操作できるLinkuriousの埋め込みビューアが掲載されています。
この記事に関連するニュース
-
アライン株式会社、生成AIを利用したファイル検索サービス「デジタルライブラリ」を提供開始
PR TIMES / 2024年7月23日 13時15分
-
モルフォAIソリューションズ、国立情報学研究所から学術論文用のAI-OCR開発を受託
PR TIMES / 2024年7月10日 12時15分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
NTT開発のアルゴリズム、スパコン「富岳」の大規模グラフ探索性能を約20%向上
マイナビニュース / 2024年6月25日 15時51分
-
DATAFLUCT、データプラットフォーム「AirLake」のデータ連携コネクタを拡充。HULFT Squareとの連携で、SalesforceやBoxのデータも自動で分析可能に
PR TIMES / 2024年6月25日 11時0分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)