「パナマ文書」解析の技術的側面
ニューズウィーク日本版 / 2016年4月12日 18時25分
しかし、今回のデータにはおよそ215,000もの会社(おそらく多くがペーパーカンパニー)が含まれており、そこを流れるカネを分析するためにはもう一工夫が必要です。ある会社の会計報告や登記簿を読んでいる場合、その会社の関係者、そしてその会社に関連する他の企業などのつながりを見られるようになれば、カネの流れを把握するのに大いに役立ちます。もちろんこれは文章でも表現できます。例えば専門家は今回の文書を実際に読むことにより以下のような情報を得たとします:
・A社の現在の社長はx氏
・A社はB社の取締役であるY氏によって設立された
・Y氏は『A社』というキーワードが大量にヒットするメールをZ氏に頻繁に送っている
・αという住所にA社があり、B社の所在地はβである
・αとβはグランドケイマン島の、γビル内の同じフロアに存在する
・Z氏はγビルのオーナーである
このレベルのつながりならば、ここから
X氏とY氏にはA社の創業者とその後継者という繋がりがあり、B社はA社と何らかの繋がりがある。そして会社の登記には名前がないが、Z氏とA社にはY氏を介しておそらく何らかの関係性が存在する。そして両社の所在地から、これらは同一ブローカーが関与して設立されたペーパーカンパニーの可能性がある。そのブローカーはZ氏の可能性がある。
というような推論が人間にも可能です。ところがこのような繋がりが数十万、数百万というレベルで存在するとどうでしょう。もはやその全体像を人間がこのように文章に書き下して一つづつ把握するのは不可能です。そのために彼らはデータのグラフ化を選択しました。
グラフとは何か?
「グラフ」という言葉を聞くと、折れ線グラフや棒グラフといった、いわゆる「ダイアグラム」とか「チャート」と英語で呼ばれる図表を思い浮かべる方が多いと思います。しかしここで言うグラフは、数学用語のグラフです。厳密には、以下のような定義になります
グラフGは、接点の集合Vと辺の集合Eからなる順序対であり、G = (V, E)とあらわせる。
小難しいですが、何て事はない、ただの「繋がり」、もしくは「ネットワーク」の数学の世界での呼び名にすぎません。百聞は一見に如かずで、以下の図を見ていただければ一目瞭然だと思います。
Protein-Protein interactions of yeast. Generated with R, igraph, and Cytoscape. By K. Ono. CC BY 4.0
この記事に関連するニュース
-
アライン株式会社、生成AIを利用したファイル検索サービス「デジタルライブラリ」を提供開始
PR TIMES / 2024年7月23日 13時15分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
NTT開発のアルゴリズム、スパコン「富岳」の大規模グラフ探索性能を約20%向上
マイナビニュース / 2024年6月25日 15時51分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
-
DATAFLUCT、データプラットフォーム「AirLake」のデータ連携コネクタを拡充。HULFT Squareとの連携で、SalesforceやBoxのデータも自動で分析可能に
PR TIMES / 2024年6月25日 11時0分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)