声と話し方を好みのスタイルに一瞬で変える ~高音質かつ低遅延なリアルタイム音声変換~
Digital PR Platform / 2024年6月17日 10時0分
[画像3]https://digitalpr.jp/simg/2341/89983/700_247_20240614175757666c061539a72.PNG
図3. 低遅延なモデル
3.実験の概要
従来法・今回の手法を用いて変換した音声の品質を、音質に関しては5段階(1: 非常に悪い、2: 悪い、3: 普通、4: 良い、5: 非常に良い)、目標話者との話者類似性に関しては、4段階(1: 違う、2: 多分違う、3: 多分同じ、4: 同じ)の評価尺度で聴取実験を行いました。特徴量変換器では、従来法に比べ、音質・話者類似性ともに従来法を大きく凌ぐ結果となり、発話者の違いにより生じる差異を明示的に小さくする今回の手法が有効であることがわかりました(図4)。
[画像4]https://digitalpr.jp/simg/2341/89983/700_275_20240614175757666c06154e221.PNG
図4. 実験の結果
5.今後の展開
本技術により、発声機能障がいへの活用(例えば、無喉頭音声の聞き取りやすさの改善)、ネイティブに近い流暢な英語の発音、説得力のあるスピーチ、緊張による声の震えの解消など、対面・遠隔を問わずビジネスや実生活の多様なシーンにおいて音声コミュニケーションを豊かにすることが期待されます。
今後は、実環境使用を想定した対雑音性向上や安定性向上などに取り組むと共に、なりすましへの対策などにも取り組み、より安心して好みの音声でコミュニケーションできる未来をめざします。
【用語解説】
※1.深層学習:機械学習の1種でディープラーニングとも呼ばれることもある、近年注目されている学習手法
※2.話者依存性:元話者の声や発音の特徴がどれだけ影響を与えるかを示す性質
※3.無喉頭音声:喉頭を使わずに発声された音声、例えば電気式人工喉頭を用いて発声された音声など
この記事に関連するニュース
-
「日本の声優のすばらしさ広めたい」アニメの世界観ごと輸出するAI吹き替え技術
ASCII.jp / 2024年6月26日 10時0分
-
スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
-
リアルタイム低遅延ボイチェンのポイントは“個性の制限”? NTTが研究成果を発表する「オープンハウス」が6月24日から大阪で開催
ITmedia PC USER / 2024年6月19日 6時0分
-
NTT、声と話し方を高音質かつ低遅延にリアルタイム音声変換する技術を開発
マイナビニュース / 2024年6月17日 13時58分
-
世界初、音の波をハイスピードカメラとAIで高精細に見える化 ~深層学習と光計測を組み合わせた高感度な音のイメージングを実現~
Digital PR Platform / 2024年6月17日 10時0分
ランキング
-
1関東「気動車王国」の離れ小島路線が面白い! 不思議な“右ハンドル”車両 3駅の路線に“スゴイ密度”であるものとは?
乗りものニュース / 2024年6月29日 15時12分
-
2意外な面倒さも? 財布いらずの「スマート支払い」、店側はどう思っているのか
ITmedia ビジネスオンライン / 2024年6月30日 8時10分
-
3「押しボタン式信号」なぜ“押してすぐ青”にならないケースが? 納得の理由があった!
乗りものニュース / 2024年6月29日 16時42分
-
4ウイスキーが「おじさんのお酒」から激変したワケ 市場復活に導いたサントリーのハイボール秘話
東洋経済オンライン / 2024年6月30日 8時20分
-
5ソニー宮城拠点、250人削減=ブルーレイ、生産縮小
時事通信 / 2024年6月29日 15時49分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)