1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

共同通信PRワイヤー / 2024年6月25日 14時0分

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

図3: 波形生成モデルのみを逐次合成することにより待ち時間短縮を実現

2024年6月25日

国立研究開発法人情報通信研究機構(NICT)


ポイント

■ 高品質かつ高速に動作する21言語のニューラル音声合成技術を開発

■ CPUコア一つで1秒の音声をわずか0.1秒で高速合成(既存モデルの約8倍の速さ)することが可能

■ ネットワークに接続されていないスマートフォン上でテキスト入力からわずか0.5秒の高速生成を実現

■ 多言語音声翻訳やカーナビなどの音声アプリケーションへの導入に期待


 国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー)、理事長: 徳田 英幸)は、ユニバーサルコミュニケーション研究所において、高品質かつ高速に動作する21言語のニューラル音声合成技術の開発に成功しました。本技術の開発により、CPUコア一つで1秒の音声をわずか0.1秒で高速合成することが可能となりました。これは既存モデルの約8倍の速さです。また、ネットワークに接続されていないミドルレンジスマートフォン端末上でテキスト入力からわずか0.5秒の高速生成が可能となりました(図1参照)。

 また、開発した21言語の音声合成モデルは、NICTが運用しているスマートフォン用の多言語音声翻訳アプリVoiceTra(ボイストラ)のサーバに搭載され、一般公開されています。今後は、商用ライセンス等を通じて多言語音声翻訳やカーナビを始めとする様々な音声アプリケーションへの導入が期待されます。

 なお、本成果は、2024年9月に、International Speech Communication Association (ISCA)が主催する国際会議INTERSPEECH 2024のShow & Tellにて発表されます。


【画像:https://kyodonewsprwire.jp/img/202406242584-O4-vl37aynG


【動画:https://www.youtube.com/watch?v=gD8HqE4lcbw


背景

 NICTのユニバーサルコミュニケーション研究所では、言語の壁を超えた音声コミュニケーションを実現するために多言語音声翻訳技術の研究開発に取り組んでおり、研究成果を音声翻訳実証実験のために運用しているスマートフォン用音声翻訳アプリVoiceTraで一般公開するとともに、商用ライセンスを通じた社会実装を行っています。翻訳されたテキストを人間の声として読み上げるテキスト音声合成技術は、音声認識及び機械翻訳と同様に、多言語音声翻訳技術の実現に非常に重要です。テキスト音声合成の音質は、ニューラルネット技術の導入により近年飛躍的に向上し肉声に匹敵するほどとなりましたが、膨大な計算量が大きな課題であり、ネットワークに接続されていないスマートフォンでの合成は到底不可能であるという課題がありました。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください