1. トップ
  2. 新着ニュース
  3. 国際
  4. 国際総合

「パナマ文書」解析の技術的側面

ニューズウィーク日本版 / 2016年4月12日 18時25分

しかし幸運なことに、今回のデータは画像ファイルを除けば(これも最近「インテリジェントな」解析技術が飛躍的に向上していますがここでは触れません)、ほぼすべてが機械で比較的低コストで処理できる形式のファイルです。ここで計算機の出番になります。ここから先は、先の記事から読み取れる技術的な背景について解説していきたいと思います。

データの前処理

 このような膨大な数のファイルを解析する場合、必ずデータの前処理が必要になります。今回のデータセットは大きく二つのタイプに分けることができます:

1. RDB形式(いわゆるデータベース)の機械で容易にアクセスできるファイル
2. 人が読むことを前提にした文書ファイル。テキストと画像、PDFを含む

 今回解析に当たったICIJのデータ解析班は、まず比較的ハードルの低いひとつ目のデータに取り組みました。要するに、データベースを容易に検索できる形に再構築することです。これは専門家の手により数ヶ月で終えることができたそうです。しかし二つ目のデータはそうはいきません。

テキストデータへの変換

 この記事によれば、画像の多くは紙の書類をスキャンしたものだったようで、そこから文字情報を引き出そうとする場合、OCRという技術が必要になります。OCRとは要するに画像から文字を認識して切り出す技術です。日本でもユーザーの多いEvernoteなどでも利用されている技術です。写真に写った飲み物のラベルの文字が文字列検索で引っかかることがあると思いますが、あの技術のことです。最近はラップトップと家庭用スキャナの組み合わせでも行うことができる、広く普及した技術です。ただし今回は画像の数が膨大なため、時間を短縮するために、商用クラウドコンピューティングサービス(要するに計算機の時間貸し屋さんです)であるAmazon Web ServiceのEC2を使ったようです。どのインスタンスタイプかまでは確認できませんでしたが、30台から40台のEC2インスタンスを用いて、ひたすら画像データを文字情報に変換する作業をまず行いました。

データのグラフ化

 OCRによるテキスト化を行うと、ひとまず計算機上での扱いは容易になります。極端な事を言えば、テキストで保存してある限り、それをエディタで開いて文字列検索することでも、ある程度は何が書いてあるかを読めるようになります。しかし詳細な調査には最終的にはスキャンされた書類や会計報告などを専門家が読み込む必要があり、人や企業のネットワークから、キーワード検索でさらに詳細を調べられるようにしなくてはなりません。それを構築するために用いられるのが全文検索エンジンと呼ばれるものです。実際に使われたものはApache Solrで、メタデータやテキストの切り出しにはTikaが使われました。これらを利用し、彼らはまずファイルの集合からメタデータを切り出しました。ここでいうメタデータとは、ファイルタイプやタイムスタンプなどで、これをインデックス化することにより大量のファイルがより検索しやすくなります。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください