柴犬と焼いたマシュマロをどう見分けるのか　Google レンズの機能と仕組みをプロダクトマネージャーが解説

ガジェット通信 / 2019年10月9日 13時30分

「It’s a long journey（それは長い旅路である）」と書かれた1枚のスライド。その横には、柴犬が写った写真と、柴犬に見えるけど実は“焼いたマシュマロ”の写真が混ざって並べられています。こちらはGoogleがカメラを通してみた風景や写真から、何が写っているのかを教えてくれる「Google レンズ」を解説する際に用いられたスライドで、正確にモノを見分ける機能の開発は短期間でできるものではなく、「長い旅路」になると説明する資料。Googleは10月8日、Google レンズのメディアセミナーを開催し、グループプロダクトマネージャーのLou Wang氏からGoogle レンズの機能と仕組みが解説されました。

Google レンズは最新のコンピュータービジョン技術とAIを活用し、周囲にあるモノや見ているモノをそのまま検索できる機能。AndroidとiOSの「Google フォト」や「Google 検索」、「Google アシスタント」、Google スマートフォンのカメラアプリから利用でき、商品や動植物を調べたり、テキストのコピー＆ペーストや翻訳ができます。

たとえばカメラをかざしてダリアを写すと、認識されたポイントを円で表示。検索ボタンをタップするとダリアの情報が表示されます。

英語のスピーチを考えると、辞書には18万語の言葉が収録されているのに対して、日常で話す会話で使うのは3000語程度。それに対して、身の回りにあるモノを見分けるには、何十億もの品物、動植物が存在する中から認識する能力が求められます。これを実現するのが機械学習。

Google レンズの機械学習には「Classification（分類）」「Detection（検出）」「Embeddings（分散表現）」「Model Training（モデル学習）」の4種類の技術が用いられているとのこと。

Classificationは、数百万の画像を利用した学習結果を用いて、画像内のモノにラベルをつけ、そのラベルの確からしさを算出する技術。誕生日ケーキのロウソクを吹き消す男の子が写った写真からは、「ケーキ」「誕生日」「冠」「風船」「誕生日ケーキ」といったラベルがつけられ、それぞれに確からしさが算出されていることが例示されました。Google レンズはプライバシーを重視し、個人の顔は検出していないとのこと。

Detectionは、オブジェクトが画像のどこにあるかを検出し、ユーザーに対して「ここに面白いものがあるよ」と注意を促したり、タップして検索する動作が可能になります。先ほどの誕生日の写真では、ケーキ、冠、風船がそれぞれどの位置にあるかを四角いマーカーで表示し、検出ができていることが示されました。

Embeddingsは重要な概念で、直感的にオブジェクトがどういう意味で特徴があるのかをベクトルで表現する方法。これにより、ある画像と他の画像がどれぐらい似ているかを算出できます。自動車が写った3枚の写真から、色違いで向きも異なる同じタイプの自動車が「似ているもの」と認識されていることが例示されます。

Model Trainingは、機械学習モデルの学習プロセス。従来、モデルの学習には大量のハードウェアと時間が必要だったのに対して、機械学習のためにGoogleが開発した集積回路の「Tensor Processing Unit」を用いることで処理が高速に。月単位で時間がかかっていた処理が数時間程度で終了するようになったとのこと。

ユーザーの身の回りにあるものを理解できるようにすることがGoogleの使命だと語るWang氏。ハイエンド端末だけでなく、ローエンド端末で動作するAndroid Goでも対応していることを挙げ、皆さんに使って欲しいとコメント。Android Go版はまずテキストの読み取り機能にフォーカスし、識字率の低い新興市場で、適切な教育が受けられない人たちが文章を理解するのに役立てたいとしています。

―― やわらかニュースサイト『ガジェット通信(GetNews)』