Infoseek 楽天

「ハシ」などのイントネーションを使い分けられる音声合成のAIシステム開発

Techable 2021年6月16日 10時0分

大日本印刷株式会社(DNP)と株式会社DNPコミュニケーションデザイン(DCD)は、誤読やイントネーションおよびアクセントの間違いを減らし、人の間合いに近い自然な音声合成を自動生成できるAIシステムを開発しました。

正確率約85%以上

同システムには、単語の読みや発音において間違いのない音声データを機械学習させています。大きな特徴のひとつは、文章の文脈を加味してイントネーションとアクセントを自動生成できること。例えば、「橋」「箸」「端」などイントネーションによってまったく違うモノを表す言葉や、「行って」のように「いって」や「おこなって」など文脈によって読み方が違う言葉を正しく生成するようです。これにより、特に正しい読みやナレーションを重視する学校教材や電子書籍などに利用しやすくなるでしょう。

また、正確な読み仮名を自動付与できることも特徴のひとつです。これは、約款や契約書、自治体・行政機関の公式文書など文量や専門用語が多く、かつ正確な情報提示が必要な文書への利用に適しているでしょう。

同システムは、従来のDNPの音声合成の制作と比較して誤読やイントネーション間違いなどを約50~70%削減。現時点で、複数の生命保険会社の約款で汎用性の検証を実施したところ、「読み」「アクセント」「間」について約85%以上の正確性が確認されています。そして今後の追加学習によって読みの正確性やイントネーションなどの精度はさらに向上するとのことです。

同システムの紹介動画はこちら。

音声合成技術の進化

最近では、コエステ株式会社が、自分の声の分身を作れる「デジタルボイス・プレミアム」を2020年9月にリリース。最先端の音声合成技術によって、個人の声色や喋り方を学習し、作成された「コエ」で、入力したテキストを読み上げることができるというサービスです。

また、株式会社Yellstonは、AIが人間のような自然な音声を生成・読み上げる「CoeFont STUDIO」を2021年4月にリリース。30文字までのテキストなら誰でも気軽に音声合成を試せるサイトを公開しています(期間限定)。

他にも、短い動画とテキストデータから長尺の講義動画を生成するAIの登場や、文字などを読むことが困難な人のための国際標準規格DAISYに準拠したデジタル録音図書など音声合成技術は急速に進化中。その中でも課題のひとつとされていた「誤読」「イントネーション間違い」「話す間」などを改善する今回のAIシステムは、この領域で一線を画すものとなるかもしれません。

大日本印刷株式会社

(文・Higuchi)

この記事の関連ニュース