1. トップ
  2. 新着ニュース
  3. 国際
  4. 国際総合

Siriを超える音声認識の世界

ニューズウィーク日本版 / 2017年10月2日 16時25分

IBMがシアトル万国博覧会で同社初の音声認識システム「シューボックス」を披露したのは1962年。音声の指示で計算を行い、答えを印刷する。認識できる単語は16個で、0~9の数字と「プラス」「マイナス」など計算に関する指示のみだった。



70年代に入ると米国防総省傘下の防衛先端技術研究計画局(DARPA)が大規模な音声認識システムの開発に取り組み、約1000語を理解できるようになった。21世紀の現アメリカ大統領と似たような語彙力だが、実用化には程遠かった。

音声認識技術で知られるドラゴンシステムズは、90年に最初の消費者向け口述筆記ソフトを発売したが、値段は9000ドル。使うほどに不満がたまる代物だった。98年に私がIBMの研究チームに確認したときも、音声認識技術は日常生活で使うにはまだ不十分だった。

創造のプロセスが変わる

技術が大きく飛躍したのは07年以降だ。グーグルやアマゾンが運営する巨大なデータセンターが、携帯端末やクラウドサービスで交わされる膨大な量の会話を使って言語を「学習」できるようになった。

私たちが話し掛けるたびに、アレクサやワトソンは少しずつ人間の話し方を覚える。いずれ標準的な人間よりシステムのほうが、人間の話を理解できる日も来るだろう。

そこまで賢くなれば、世の中は劇的に変わる。買い物の習慣どころか、思考回路さえ変わるかもしれない。

私たちは数十年をかけて、キーボードとマウスを使って考えるようになった。ドラゴンシステムズのジョエル・グールドは98年に、「口(マウス)を使って考える」時代になれば「創造のプロセスが変わる」と予言している。

ある意味で、脳が本来の機能に立ち返るとも言える。人間は数千年の間、ペンもタイプライターもワープロも使わずに物事を考え、創造した。叙事詩『イリアス』を紡いだホメロスにキーボードは必要なかった。

音声認識が普及すれば、読み書きができなくても人並みの生活を送れるようになる。グーグルの音声認識サービスが途上国の言語に次々と対応しているのは、これまで手の届かなかった市場を見据えているからだ。

読み書きができないか、インターネットが使えない成人は全世界で7億8100万人。彼らは安価な携帯電話に話し掛けるだけで、公共サービスに登録し、銀行口座を開設して、猫の動画を見られるようになる。

さて、私はアレクサに「2つのターンテーブルと1つのマイクロホンって何のこと?」と質問した。答えは――「さあ、分かりません」。

ちなみに、正解はベックの90年代のヒット曲の歌詞。アイスクリームと間違えなかったことは褒めておこう。


【お知らせ】ニューズウィーク日本版メルマガリニューアル! ご登録(無料)はこちらから=>>

[2017.10. 3号掲載]
ケビン・メイニー(本誌テクノロジーコラム二スト)


この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください