1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

声と話し方を好みのスタイルに一瞬で変える ~高音質かつ低遅延なリアルタイム音声変換~

Digital PR Platform / 2024年6月17日 10時0分

2.技術のポイント
(1) 高い変換性能
 特徴量変換器では、ある話者の音声特徴量を別の話者の音声特徴量へ変換します。変換モデルは2つのモジュール(EncoderとDecoder)で構成されており、Encoderは入力音声から中間特徴量を抽出し、Decoderは抽出された中間特徴量に目標話者の情報を付与することで変換音声の特徴量を生成します。ここで、Encoderの出力である中間特徴量が十分に汎化された特徴量であることが重要です。例えば、異なる2話者が同じ文章を発声した際には、同じ中間特徴量が抽出されるべきです。
 今回、従来の音声変換では、上述の場合に、同じ中間特徴量になっていないことを発見しました。中間特徴量に入力話者の話者情報が多く残留しており、変換性能の劣化が生じていたのです。そこで、入力音声と発話内容は同じですが話者情報が異なる音声(例えば、声の高さのみ低く加工した音声)を擬似的に生成し、入力音声の中間特徴量と、擬似的に作成された音声の中間特徴量とを近づける制約を新たに導入しました(図2)。これにより、従来法に比べて中間特徴量における話者情報の残留が1万分の1以下に低減されます。この話者依存性の低い音声表現の獲得により、結果として高品質な特徴量変換を実現しました。本技術で変換された音声特徴をNTTで独自に進めてきた軽量・高速動作可能な波形合成器に入力することで、最終的な変換音声の波形を得ることができます。


[画像2]https://digitalpr.jp/simg/2341/89983/700_267_20240614175757666c0615699c0.PNG

図2. 特徴量の変換方法

(2) 低遅延な変換処理
 会話する際に、人は自分の話し声を聞きながら喋っています。これをフィードバック音声と言いますが、「遅延聴覚フィードバック」研究では、フィードバック音声をわざと大きく遅らせると非常に発話しづらくなることが知られています。そのため、音声変換システムを通った変換音声を発話者が聞く状況下では、スムーズな発話のため、音声変換で生じる遅延を数十ミリ秒に抑えることが必要となってきます。
 一般的な音声変換では、変換精度を高めるため、多くの情報を入力として与えます。例えば、ある時刻の変換音声を生成する際に、当該時刻の入力音声フレームだけでなく未来の入力音声フレームも同時に用いる(non-causal)モデルを用いて変換を行います(図3)。一方で、未来フレームの入力を待つため、大きな遅延が生じてしまいます。
 今回のリアルタイム音声変換では、低遅延な動作を保証するため、未来フレームを一切使わず、当該時刻と過去の音声フレームのみから変換音声を生成する(causal)モデルを採用する必要があります。一方で、causalモデルを単純に適用すると、未来フレーム分の情報が入力から減ってしまうため、変換精度の劣化が生じます。今回、上で紹介したポイント(1)に示す技術と組み合わせることで高品質と低遅延を両立したリアルタイム音声変換を実現しました。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください