1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

声と話し方を好みのスタイルに一瞬で変える ~高音質かつ低遅延なリアルタイム音声変換~

Digital PR Platform / 2024年6月17日 10時0分

声と話し方を好みのスタイルに一瞬で変える
~高音質かつ低遅延なリアルタイム音声変換~

発表のポイント:

高音質と低遅延を両立した深層学習に基づくリアルタイム音声変換技術を開発しました
新規に考案した話者依存性の低い音声特徴量の抽出処理で高音質を担保できたため、従来法とは異なり未来の音声信号のバッファが不要なモデルを用いた低遅延処理も実現できました
本技術は対面や遠隔を問わず、様々な音声コミュニケーションでの音声変換を可能にし、例えば、web会議にて発話者の抑揚や声質を聞き取りやすい音声に変換するなど、誰もが物理的・能力的・心理的な制約にとらわれないコミュニケーションの実現に寄与します


 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、ある話者の声を、まるで他の話者が話しているかのように、高品質かつ低遅延に音声変換する技術を考案しました(図1)。これにより、Web会議やライブ配信などでのリアルタイム音声変換が可能になります。今後はスマートフォンやVRデバイス上での利用など、さまざまな場面での応用が期待されます。
 本成果は、6月24日より開催される、コミュニケーション科学基礎研究所オープンハウス2024に出展いたします。


[画像1]https://digitalpr.jp/simg/2341/89983/700_391_20240614175757666c061552b2a.PNG


図1. 音声変換によるコミュニケーション拡張

1.背景
 音声は、言語情報だけでなく話す人の抑揚や声質といった話者性など、非言語情報も伝達できるという大きな特徴を有し、利便性に特に優れたコミュニケーション媒体です。「もっと理想的な声で話したい・聞きたい」といったニーズはあるものの、手軽に実現できる技術はこれまで限られていました。音声変換は、言語内容を保持しつつ、声の特徴(声質、抑揚、リズムなど)を変更することで、ネイティブに近い英語の流暢な発音や、説得力のあるスピーチ、緊張による声の震えの解消など、物理的・能力的・心理的な制約にとらわれないコミュニケーションの実現に寄与します。その適用先は、プライバシー保護、エンターテインメント、医療、教育、ビジネスなど、多岐にわたります(図1)。
 これらの利用シーンに応じて、「声のどの特徴を変換するべきか?」「その変換のためにはどういった学習データを用意すべきか?」「変換はリアルタイムである必要があるか?」など、様々な前提条件が想定されます。NTTではこれまでに、元話者と変換先話者の同一発話音声のペアデータを用いて、声質だけでなく抑揚やリズムなど柔軟に変換できる特徴量変換技術や、収集が高コストな元話者と変換先話者の発話ペア音声を必要としないペアデータフリーな学習方式を用いた特徴量変換技術の研究にも取り組んできました。
 今回、これら音声の「特徴量変換技術」の研究成果と、独自に進めてきた音声特徴から音声波形を生成する「波形合成技術」の研究成果を融合し、Web会議を含むさまざまな音声コミュニケーションで使用可能である低遅延なリアルタイム音声変換技術を開発しました。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください