スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
また、2024年3月から、VoiceTraの21言語※の音声には、この音声合成技術が用いられ、一般公開されています。
※21言語: 日本語、英語、中国語、韓国語、タイ語、フランス語、インドネシア語、ベトナム語、スペイン語、ミャンマー語、フィリピン語、ブラジルポルトガル語、クメール語、ネパール語、モンゴル語、アラビア語、イタリア語、ウクライナ語、ドイツ語、ヒンディ語、ロシア語
本研究により開発した多言語合成音声は、2024年6月28日(金)~29日(土)のNICTオープンハウス2024における多言語同時通訳のデモ展示にて使用されます。
【画像:https://kyodonewsprwire.jp/img/202406242584-O3-D3Cns4N7】
今後の展望
今後は、商用ライセンスを通して、多言語音声翻訳やカーナビを始めとするスマートフォンアプリ等への社会実装を行います。
論文情報
掲載誌: Proceedings of INTERSPEECH 2024
論文名: Mobile PresenTra: NICT fast neural text-to-speech system on smartphones with incremental inference of MS-FC-HiFi-GAN for low-latency synthesis
著者: Takuma Okamoto, Yamato Ohtani, Hisashi Kawai
これまでの成果
[1] T. Okamoto, Y. Ohtani, T. Toda and H. Kawai, "ConvNeXt-TTS and ConvNeXt-VC: ConvNeXt-based fast end-to-end sequence-to-sequence text-to-speech and voice conversion," in Proc. ICASSP, Apr. 2024, pp. 12456–12460.
[2] T. Okamoto, K. Tachibana, T. Toda, Y. Shiga and H. Kawai, "Subband WaveNet with overlapped single-sideband filterbanks," in Proc. ASRU, Dec. 2017, pp. 698–704.
この記事に関連するニュース
-
LINEヤフー、音声生成AI搭載の「Yahoo!カーナビ」提供開始
レスポンス / 2024年7月17日 14時30分
-
【Voice Space活用事例紹介】株主総会で音声AIサービスVoice Spaceのテキスト読み上げを活用(株式会社食研様)
PR TIMES / 2024年7月10日 15時45分
-
Algomaticが多言語動画翻訳サービス「DMM動画翻訳」を提供開始 生成AIにより高品質な翻訳を実現し、発注から最短1営業日で納品
PR TIMES / 2024年7月4日 15時45分
-
rinna、AI音声合成サービスKoemotionをアップデート
PR TIMES / 2024年6月24日 15時45分
-
国際会議や多言語教育、グローバルコミュニケーションに最適!Nottaから画期的な「二言語同時翻訳」新機能が登場!
PR TIMES / 2024年6月19日 17時40分
ランキング
-
1大谷翔平の新居「晒すメディア」なぜ叩かれるのか スターや芸能人の個人情報への向き合い方の変遷
東洋経済オンライン / 2024年7月16日 20時40分
-
2工学系出身者が「先進国最低レベル」日本の"暗雲" エンジニアを育てられない国が抱える大問題
東洋経済オンライン / 2024年7月16日 17時0分
-
3旅客機用の燃料不足で緊急対策 輸送船を増強、運転手確保へ
共同通信 / 2024年7月16日 23時42分
-
4申請を忘れると年金200万円の損…荻原博子「もらえるものはとことんもらう」ための賢者の知恵
プレジデントオンライン / 2024年7月17日 8時15分
-
5「再配達は有料に」 ドライバーの本音は
ITmedia ビジネスオンライン / 2024年7月17日 6時40分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)