スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

共同通信PRワイヤー / 2024年6月25日 14時0分

　また、NICTの今中長期計画では、多言語同時通訳技術の研究開発を行っていますが、同時通訳においては、話者の発話終了を待たずに次々と翻訳音声を出力する必要があるため、音声認識や機械翻訳と同様、テキスト音声合成の更なる高速化が求められています。

今回の成果

　テキスト音声合成モデルは、入力テキストを中間特徴量へと変換する「音響モデル」と、中間特徴量を音声波形へと変換する「波形生成モデル」から構成されます。

　ニューラル音声合成の「音響モデル」では、機械翻訳の分野や、音声認識やChatGPTを始めとする大規模言語モデル等にも幅広く使われているニューラルネット（Transformer型エンコーダ＋Transformer型デコーダ）が主流でしたが、近年画像識別の分野で新たに使われ始めた高速・高性能なニューラルネット（ConvNeXt型エンコーダ＋ConvNeXt型デコーダ）を音響モデルに導入し、従来方式と比較して、品質を損なわず3倍の高速化を達成しました[1]。

　また、肉声に匹敵する音声を合成可能な従来の「波形生成モデル」（HiFi-GAN）を発展させる形で、信号処理方式[2-4]を学習可能なニューラルネットとして表現するモデル（MS-HiFi-GAN）を2021年に導入し、合成品質を損なわず合成速度を2倍にすることに成功しました[5]。そして、2023年には同モデル（MS-HiFi-GAN）を更に高速化するモデル（MS-FC-HiFi-GAN）の開発に成功し、従来方式（HiFi-GAN）と比較して、品質を損なわず合成速度を4倍にすることを実現しました[6,7]。

【画像：https://kyodonewsprwire.jp/img/202406242584-O2-ek3Aaw9F】

　これらの成果の集大成として、上記で開発した「音響モデル（Transformer型エンコーダ＋ConvNeXt型デコーダ）」と「波形生成モデル（MS-FC-HiFi-GAN）」を用いた新しい高速・高品質なニューラル音声合成モデルを開発しました（図2参照）。これにより、CPUコア一つで1秒の音声をわずか0.1秒で高速合成することが可能となりました。これは、既存モデルの約8倍の速さです。さらに、「波形生成モデル」のみを逐次合成する方式を実装することで（図3参照）、合成品質を一切損ねることなく、ネットワークに接続されていないミドルレンジスマートフォン端末上でも、テキスト入力からわずか0.5秒の高速生成が可能となりました。これにより、これまでのサーバ経由での合成が不要となり、インターネット通信を必要とせず、通信コストを抑えたスマートフォンやPC等での高品質ニューラル音声合成が可能となります。また、逐次合成処理により、多言語同時通訳においても翻訳テキストを即座に合成することが可能となりました。

津波情報気象庁発表

地震情報

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス経済トピックスFeed

スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発

この記事に関連するニュース

トピックスRSS

ランキング

経済トピックス 経済トピックスFeed

経済トピックス経済トピックスFeed