ここまでできる日本語ディクテーション 「句読点自動認識」に「会話文書き起こし」、Microsoftの2つの「日本語認識」を試す

ITmedia NEWS / 2021年4月8日 9時58分

写真

Group Transcribe。利用は現状無料で、iOS版だけが公開されている。

 音声による日本語の認識は、過去に比べずいぶん進化してきた。日常的に使っている方も多いだろう。

 もちろん、まだまだ未成熟で、完璧ではない。使うシーンによっても精度はかなり変わる。だからこそ、「まだ使えるものではない」と思っている人も少なくなさそうだ。

 そんな中、最近「あれ、すごいぞ」と思ったのが、Microsoftの音声認識技術。特に、Wordに組み込まれた「ディクテーション」と、「Group Transcribe」というアプリだ。他のものと比較しつつ、これらがどうすごいのか、ちょっと紹介してみたいと思う。

●なぜ日本語の音声認識は難しいのか

 日本語の音声認識はなぜ難しいのか? 理由はシンプルにまとめると4つの要素がある、と筆者は考えている。

 1つ目は「データ量」。英語に比べ利用者が少ないので、どうしても不利にはなる。これはどうしようもない。とはいえ、全ての言語を見れば、トータル1億数千万人を超える日本語話者の数は上から数えた方が早いわけで、極度に悲観すべきものでもない。

 2つ目は「話し言葉と書き言葉のずれ」だ。日本語の話し言葉と書き言葉は、現代語においてもかなりのずれがある。英語における書き言葉と話し言葉の差よりも大きい。そのため、音声の書き起こしがそのまま「読むための文書」にはなりづらい。読む文章として不自然さが小さい文章を作るには、話された言葉をそのまま正確に文字にするだけではうまくいかない。「あのー」「えっと」といった邪魔な語句の存在も頭が痛い。

 3つ目は、「分かち書きがない」ことだ。分かち書きとは、語句と語句の分かれ目のこと。英語は単語の間にスペースを入れるが、日本語にはない。そして、適宜句読点を入れる。文章に句読点は必須だが、話し言葉から句読点を認識するのは難しい。

 そして4つ目が「同音異義語の多さ」。これはキーボードで文章を書く時でも課題となる。文脈解釈が重要になる部分だ。

 というわけで、英語に比べ日本語の音声認識は難しい。音を認識するテクノロジーそのものは、英語でも日本語でもそう変わらないらしいのだが、そこから文章に変えてわれわれが「自然な文章」と思えるものにするには、さまざまなテクノロジーの助けが必要なのである。

 このような事情があり、現状ではどんなサービスであっても、「日本語の完全な音声書き起こし」はできていない。今回紹介する機能も同様だ。だが、ちょっとした「変化の兆し」は生まれている。それが今回紹介する2つの機能だ。

この記事に関連するニュース

トピックスRSS

ランキング