「パナマ文書」解析の技術的側面
ニューズウィーク日本版 / 2016年4月12日 18時25分
しかし幸運なことに、今回のデータは画像ファイルを除けば(これも最近「インテリジェントな」解析技術が飛躍的に向上していますがここでは触れません)、ほぼすべてが機械で比較的低コストで処理できる形式のファイルです。ここで計算機の出番になります。ここから先は、先の記事から読み取れる技術的な背景について解説していきたいと思います。
データの前処理
このような膨大な数のファイルを解析する場合、必ずデータの前処理が必要になります。今回のデータセットは大きく二つのタイプに分けることができます:
1. RDB形式(いわゆるデータベース)の機械で容易にアクセスできるファイル
2. 人が読むことを前提にした文書ファイル。テキストと画像、PDFを含む
今回解析に当たったICIJのデータ解析班は、まず比較的ハードルの低いひとつ目のデータに取り組みました。要するに、データベースを容易に検索できる形に再構築することです。これは専門家の手により数ヶ月で終えることができたそうです。しかし二つ目のデータはそうはいきません。
テキストデータへの変換
この記事によれば、画像の多くは紙の書類をスキャンしたものだったようで、そこから文字情報を引き出そうとする場合、OCRという技術が必要になります。OCRとは要するに画像から文字を認識して切り出す技術です。日本でもユーザーの多いEvernoteなどでも利用されている技術です。写真に写った飲み物のラベルの文字が文字列検索で引っかかることがあると思いますが、あの技術のことです。最近はラップトップと家庭用スキャナの組み合わせでも行うことができる、広く普及した技術です。ただし今回は画像の数が膨大なため、時間を短縮するために、商用クラウドコンピューティングサービス(要するに計算機の時間貸し屋さんです)であるAmazon Web ServiceのEC2を使ったようです。どのインスタンスタイプかまでは確認できませんでしたが、30台から40台のEC2インスタンスを用いて、ひたすら画像データを文字情報に変換する作業をまず行いました。
データのグラフ化
OCRによるテキスト化を行うと、ひとまず計算機上での扱いは容易になります。極端な事を言えば、テキストで保存してある限り、それをエディタで開いて文字列検索することでも、ある程度は何が書いてあるかを読めるようになります。しかし詳細な調査には最終的にはスキャンされた書類や会計報告などを専門家が読み込む必要があり、人や企業のネットワークから、キーワード検索でさらに詳細を調べられるようにしなくてはなりません。それを構築するために用いられるのが全文検索エンジンと呼ばれるものです。実際に使われたものはApache Solrで、メタデータやテキストの切り出しにはTikaが使われました。これらを利用し、彼らはまずファイルの集合からメタデータを切り出しました。ここでいうメタデータとは、ファイルタイプやタイムスタンプなどで、これをインデックス化することにより大量のファイルがより検索しやすくなります。
この記事に関連するニュース
-
アライン株式会社、生成AIを利用したファイル検索サービス「デジタルライブラリ」を提供開始
PR TIMES / 2024年7月23日 13時15分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
NTT開発のアルゴリズム、スパコン「富岳」の大規模グラフ探索性能を約20%向上
マイナビニュース / 2024年6月25日 15時51分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
-
DATAFLUCT、データプラットフォーム「AirLake」のデータ連携コネクタを拡充。HULFT Squareとの連携で、SalesforceやBoxのデータも自動で分析可能に
PR TIMES / 2024年6月25日 11時0分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)