スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

共同通信PRワイヤー / 2024年6月25日 14時0分

　また、2024年3月から、VoiceTraの21言語※の音声には、この音声合成技術が用いられ、一般公開されています。

※21言語: 日本語、英語、中国語、韓国語、タイ語、フランス語、インドネシア語、ベトナム語、スペイン語、ミャンマー語、フィリピン語、ブラジルポルトガル語、クメール語、ネパール語、モンゴル語、アラビア語、イタリア語、ウクライナ語、ドイツ語、ヒンディ語、ロシア語

　本研究により開発した多言語合成音声は、2024年6月28日（金）～29日（土）のNICTオープンハウス2024における多言語同時通訳のデモ展示にて使用されます。

【画像：https://kyodonewsprwire.jp/img/202406242584-O3-D3Cns4N7】

今後の展望

　今後は、商用ライセンスを通して、多言語音声翻訳やカーナビを始めとするスマートフォンアプリ等への社会実装を行います。

論文情報

掲載誌: Proceedings of INTERSPEECH 2024

論文名: Mobile PresenTra: NICT fast neural text-to-speech system on smartphones with incremental inference of MS-FC-HiFi-GAN for low-latency synthesis

著者: Takuma Okamoto, Yamato Ohtani, Hisashi Kawai

これまでの成果

[1] T. Okamoto, Y. Ohtani, T. Toda and H. Kawai, "ConvNeXt-TTS and ConvNeXt-VC: ConvNeXt-based fast end-to-end sequence-to-sequence text-to-speech and voice conversion," in Proc. ICASSP, Apr. 2024, pp. 12456–12460.

[2] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga and H. Kawai, "Subband WaveNet with overlapped single-sideband filterbanks," in Proc. ASRU, Dec. 2017, pp. 698–704.

津波情報気象庁発表

地震情報

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス経済トピックスFeed

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed