世界中で「データサイエンス」が普及し始めた理由

ZUU online / 2019年10月24日 6時15分

写真

(画像=LinGraphics/Shutterstock.com)

(本記事は、中澤公貴氏の著書『データ分析チームの作り方』秀和システム2019年9月18日刊の中から一部を抜粋・編集しています)

データサイエンスが飛躍した四つの要因

データサイエンスが世界中で普及し始めた理由は、「機械学習分野の研究」「コンピューター処理速度」「クラウドコンピューティングとビッグデータ処理技術」「データ解析分野のオープン化」の四つの分野が大きく寄与していると言われています。それぞれ見ていきましょう。

機械学習分野の研究

まずは、深層学習など様々な分野の機械学習研究の発展があげられます。例えば、深層学習は、モデルの隠れ層を増やすことでデータの複雑なパターンの学習が可能となります。

また、これまで特定分野の研究者が手間ひまかけて機械学習用の特徴量(※1)を開発していましたが、その一部が機械学習モデルに内包された点も発展に寄与しているでしょう。

例えば、画像解析で、犬の画像と猫の画像を分類することを目的としたモデルを開発するとします。その場合、深層学習の研究が発達する以前は、画像解析のスペシャリストが、犬と猫の特徴(犬は舌が垂れ下がっている、猫は耳が三角形など)を表す機械学習用のデータを作り、モデルに学習させていました。その工程に人の手を使う必要がなくなったのです。

コンピューター処理速度

ニューラルネットワークというアルゴリズムの場合、モデルの隠れ層を増せば増すほど膨大な演算量になります。現在では、様々な構造をしたモデルが提唱され開発されていますが、例えば、モデルの学習時に欠かせない誤差逆伝播法(※2)(Backpropagation)という手法は、すでに1970年には提唱されていました。

そして、深層学習の研究に大いに貢献してきたジェフリー・ヒントン(Geoffrey Hinton)氏らによって、深層学習に誤差逆伝播法が応用されたのも1985年のことでした。今から30年以上も前の話です。ただ、近年まで深層学習が飛躍的に成長できなかったのは、モデルを十分に学習させられない、ということが一つの大きな問題となっていたからです。コンピューターの処理速度が主なボトルネックとなっていたのです。

データサイエンティストならよく体験することですが、少し隠れ層を増やした深層学習モデルをノートPC上のCPU(※3)で学習させようとするだけで、ほかのモデルと比にならないほどの時間がかかってしまいます。そういったモデルを業務で使うことを考えると、より強力なコンピューターが必要でした。ただ深層学習に誤差逆伝播法が応用され、30年ほど経過した現在、個人でも気軽にクラウド上のGPU(※4)にアクセスできたり、最近では例えばグーグルが独自に機械学習用途のTPU(※5)を開発するなど、膨大な演算量であっても高速な処理が可能となりました。

この記事に関連するニュース

トピックスRSS

ランキング