1. トップ
  2. 新着ニュース
  3. 社会
  4. 社会

なぜiPhoneは人間の顔を見分けられるのか…脳とコンピュータの意外な違いと共通点

プレジデントオンライン / 2022年2月23日 9時15分

※写真はイメージです - 写真=iStock.com/Zephyr18

iPhoneの「Face ID」など、いまでは日常生活のさまざまな場面で顔認証技術が用いられている。NECフェローの今岡仁さんは「顔認証の仕組みは人間の脳にも備わっている。コンピュータによる認証の仕組みは、脳の仕組みと共通な部分が多く、決してブラックボックスではない」という――。

※本稿は、今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)の一部を再編集したものです。

■パスポートの顔写真と本人を見分ける顔認証システムの仕組み

顔認証システムとは何かについて、その構成要素を定義し、仕組みを簡単に説明します(図表1)。

【図表1】「顔認証システム」の構成
出所=今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)

たとえば、空港の出入国管理では、国境を通過しようとしている人がパスポートに記された氏名・国籍の人物と「同一人物であるか否か」を確認します。このとき、顔認証システムは、国境を通過しようとしている人物の顔画像を撮影し、パスポートに埋め込まれた顔画像と比較し、同一人物であるか否かを判定します。

したがって、顔認証を行うためには2枚の画像が必要になります。1枚目は、国境を通過しようとする際に国境に置かれている認証端末で人物を撮影した画像です。これは「照合画像」と呼ばれ、顔画像の「照合」のために国境を通過しようとする度に撮影されます。もう1枚は、パスポートにあらかじめ埋め込まれている顔画像である「登録画像」です。

照合画像は、国境(出入国審査場)に置かれている「認証端末」という装置で撮影します。

■顔を探し出し、特徴を取り出し、比較する

顔認証には、同一人物であるか否かをAI(人工知能)が人間に代わって判定する「顔認証アルゴリズム」も必要です。

さらに顔認証アルゴリズムには、「顔検出」「特徴量抽出」「顔照合」という3つの重要な機能があります。

第1の機能である顔検出は、登録画像や照合画像に写っている顔を探し出し、顔の位置を特定します。

第2の機能である特徴量抽出は、照合画像や登録画像に写っているバラエティに富む個人の顔の違いを、たとえば、(0.5,0.2,0.3,……,0.2,0.7)のような数百から数千の要素の数値列(特徴量)として取り出します。

これは、画像を画像のままコンピュータが扱うと「同一人物か否かの判断」に多大な時間を要し、スピーディな本人確認が実現できないからです。そのため情報量を圧縮し判定を容易にするために、顔画像を数値データとしての特徴量に置き換えるのです。この特徴量の設計次第で、顔認証システムの精度とスピードが大きく変わってきます。

そして、第3の機能である顔照合は、照合画像から抽出された特徴量と、データベース上の登録画像から抽出された特徴量を比較し、同一人物であるか否かを最終判定します。

■パスポート写真には朝刊1日分の情報量が含まれる

顔認証では、本人の顔とデータベースにある顔画像とを照合して、同一の本人かどうかを判定することについてはすでに述べたとおりですが、この顔画像には、どのくらいの情報が詰まっているのでしょうか。顔画像の情報量を考えてみましょう。

たとえば、パスポート用の写真を例に取ると、サイズは3.5cm×4.5cmです。画像の解像度(画像が細かいか、粗いかを表す尺度)によってもデータ量はかなり違ってきます。

画像を拡大していくと、たくさんの点が並んでいることがわかります。解像度は、こうした点が1インチ(2.54cm)の範囲にいくつ詰まっているかを表す「dpi(ドット・パー・インチ、インチ当たりのドット数)」で示します。

この解像度を仮に300dpi(1インチに300個の点が並ぶ細かさの画像)とします。すると、3.5cmには413個、4.5cmには531個の点が並ぶことになります。したがってパスパート用写真のサイズの画像には、413×531=21万9303個の点が詰まっていることになります。この点を「画素」もしくは「ピクセル」と呼びます。

一つひとつの画素は、白か黒かだけでなく、色もあります。色は赤、緑、青の3原色を混ぜ合わせて作られます。1色の濃淡が256段階あるとするのが一般的ですから、1画素ごとに、赤256×緑256×青256=約1677万色以上の中のどれかになります〔1画素の色を表す(赤=128、緑=255、青=196)の数字の組み合わせを「画素値」といいます〕。通常、私たちがフルカラーと呼んでいるのは、この約1677万色以上を指します。

これほど多くの色の違いを区別するためには、約1677万通りに表現できる情報量が必要になります。単なる黒い点があるかないかだけなら、2通りの表現で事足りますが、フルカラーの画素となると、約1677万通りの表現が必要なのです。その情報量は、コンピュータ用語で言えば3バイトが必要です。

でもこれは、たった1つの「点」の話です。先ほど見てきたように、パスパート用写真のサイズには、この点が21万9303個入っているので、結局、3バイト×21万9303=65 万7909バイト。漢字やひらがなは、1文字で2バイト必要ですから、約33万文字相当の情報量が顔には詰まっていることになります。新聞朝刊1日分が40万字ほどですから、それよりは少ないですが、それでも顔の画像にはずいぶん多くの情報が詰まっているのです。

現在の顔認証は、画像そのもの、具体的には、先ほど赤・緑・青の組み合わせのところで触れた画素値を利用しています。

■脳は人の顔を似顔絵のように簡略化して処理している

コンピュータによる「顔認証」と、人間による顔の認証の方法に本質的な共通点はあるのでしょうか。また、コンピュータにしかできないことは何なのでしょうか。

脳の表面には大脳皮質と呼ばれる薄い層があります。「脳」と言われて多くの人が思い浮かべるような多くのしわや溝がある部分です。その厚さは部位によって違いますが、2.3~2.8mmなので、思ったよりも薄いかもしれません。大脳皮質には100億以上の神経細胞があり、高次の認知機能が営まれています。部位ごとに特定の機能がピンポイントで配置されていると言われています。そのような機能のひとつに視覚をつかさどる視覚野があります。

【図表2】脳の図
出所=今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)

網膜から視覚情報を受け取った一次視覚野(V1)の役割は、局所領域ごとに線分を検出することです。

顔の場合、たとえば目、鼻、口、頬など、それぞれの領域で線分があるかどうかを検出したり、その線分の傾きを検出します。もう少し簡単に言うと、顔を似顔絵のような線画に変換して、局所ごとの線分やその傾きで、検出しているということです。

人が絵画を見たときに、微妙な線の傾きの違いを認識できるのは、一次視覚野のおかげかもしれません。

脳の視覚処理でこうした線分検出が行われているもう一つの理由として、脳で処理すべきデータ量を大幅に削減することで脳の活動を省力化したり、より重要なタスクにリソースを割り当てたりするためではないかと考えられています。すなわち、線分が抽出できない領域は何も情報がない領域と見なして、処理を休むようにしていると考えられています。

ちなみに、一昔前の顔認証でも、この局所的な線分検出が利用されていました。線分の処理は、たくさんの情報の中から、相対的にあまり重要でない情報を捨て去り、本質的な属性だけを情報として保持でき、後に続く処理をなるべく単純化できるというメリットがあります。

■サルの脳とも共通する情報処理プロセス

実はサルの脳にもこれに相当する領域があり、詳しい情報処理プロセスの研究が進められています。この領域を「顔パッチ」と呼びます。

顔パッチには、さらに6つの領域があり、以下の順番で情報が処理されます。

1つめは、「目」に反応する領域です。目を手がかりとして顔情報の処理を行います。輪状のフィルタを用いて目を検知すると言われています。

2つめから5つめの領域は、顔の向きに反応する領域です。顔が正面から何度ずれているのか、正面から見て左右どちらに傾いているかを判断します。

6つめの領域には、誰の顔かを最終的に識別する機能があります。

コンピュータによる顔認証でも、似たようなアプローチをとる場合があります。たとえば、輪状のフィルタを使って、目を探してから、顔を検出する方法があります。

また、本人認証する場合も、顔向きを検出してから、顔向きごとに処理を実行し、最後にその結果を統合する方法があります。実は、コンピュータと人の処理の仕方は似ているのかもしれません。

■サルの脳内にある、顔を識別するための「定規」

ここまで脳が顔をどのように知覚するのかをステップごとに説明しました。

では、脳が知覚した顔が「本人である」「他人である」「誰々である」と判断する方法は、どうでしょうか。この本の主題である顔認証を脳内ではどうやっているかについてです。脳とコンピュータでほぼ同じものなのか、それともまったく異なるものでしょうか。

これまで長年にわたって定説とされてきたのは、人間には特定の人を見ると特異的に反応する「顔細胞」があるため、顔細胞の反応によって個々の顔を見分けられるというものです。

ところが、最近の研究により、この定説を否定する見解が出てきました。これはサルの脳の研究に基づくものです。図表3を使って説明します。

【図表3】顔からどのサルかを判断する
出所=今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)

サルの脳では、記憶の中にあるさまざまな顔画像について、顔の特徴を区別するための定規のようなものがあるそうです。そして、目の前に現れた顔と、この定規が一致するのかどうかを判断しているらしいことがわかってきました。

先ほど「定規のようなもの」と書きましたが、通常の定規のように長さだけを測る道具ではなく、複数の数字を並べたベクトル量を測る定規と考えてください。たとえば、二次元座標に(x,y)=(1,1)をとれば、原点から右上45度の方向になります。

たとえば、あるサルは、別のサルAの顔に対しては、(1,1)という方向を持った定規、サルBの顔に対しては(-1,1)という同様の定規、サルCの顔に対しては(-1,-1)という定規をあらかじめ記憶に持っています。方向を持つ定規の軸(この例ではx軸、y軸)は個体差があり、共通のものではありません。

さて、この状態で、あるサルの顔を見かけたとします。すると、脳にある顔細胞が情報を加工して、たとえばこのサルの顔の特徴は(1.9,2.1)であると算出します。すでに記憶の中にサルA、サルB、サルCの定規があるので、これを当てはめていくと、サルAの定規が持つ方向と最も一致した場合、今見たサルはAであると考えられています。これが、サルの脳での処理であるとする説が有力視されている理由です。

■脳の視覚情報処理には未解明な部分も多い

実は、顔認証の仕組みもほぼ同じような数式(詳しく説明すると、三角関数「サイン」「コサイン」「タンジェント」の「コサイン」に似たもの)を用いて、本人確認を行っています。これも脳とコンピュータのよく似た部分です。

脳とコンピュータがそれぞれ本人認証をするときに用いる方法に共通する部分は何か、異なる部分は何かということを中心に説明しました。

視覚情報を処理する際の脳の働きには、未解明の部分が多く残されていますが、人やサルの研究を眺めてみると、コンピュータによる本人認証と多くの共通点があることに気づかれたのではないでしょうか。ブラックボックスだと思っていたコンピュータによる認証も、脳の仕組みと共通な部分が多いとわかると、より安心して利用できるのではないでしょうか。

----------

今岡 仁(いまおか・ひとし)
NECフェロー
1997年NEC入社。脳視覚情報処理の研究開発に従事したのち、2002年に顔認証技術の研究開発を開始。世界70カ国以上での生体認証製品の事業化に貢献するとともに、NIST(米国国立標準技術研究所)の顔認証ベンチマークテストで世界No.1評価を6回獲得。著書に『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)がある。

----------

(NECフェロー 今岡 仁)

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください