NTTテクノクロス株式会社は、2006年より音声合成ソリューション「FutureVoice(フューチャーボイス)」を提供しています。同サービスは、NTT人間情報研究所開発の深層学習を活用した音声合成技術と、40年以上にわたる研究開発の歴史の中で蓄積した音声のデータベースにより、少量の音声データからでも人間の声と遜色ない肉声感・明瞭感のある自然な音声を合成 することができるのが特徴です。
そしてこのたび、同サービスをバージョンアップし、2021年8月4日より提供を開始。最新のAI技術を活用してさらに自然な音声を実現するとともに、直感的かつ効率的に利用できるようにUIを刷新しています。
より自然に、より使いやすく今回のバージョンアップには、同研究所が開発した最先端AI技術のニューラル波形生成型音声合成技術を活用。この技術は、声色・発声リズム・イントネーションなどの声の特徴に対して、音声波形生成処理にニューラルネットワークを適用し、従来の信号処理では実現が困難だった肉声感の向上、微小なノイズを軽減する技術です。
これにより、デジタル処理による機械的な音を極限まで削減し、さらに自然な音声を実現。特に著名人の音声合成では、声の再現性が一層高まり、活用シーンが一段と広がるとのことです。また、独自の高速音声波形生成アルゴリズムによって、一般的なCPUでも実用的な処理性能を実現しています。
刷新されたUIは、カラーデザインや表示形式(パターン表示やタグ付など)で、直感的な操作を誘導。長文の音声を作成する際には、セリフ単位で管理することが可能となり、作業の効率化を図れるといいます。さらに、声の高さの部分的な上げ下げや長さの調整を行う機能も実装し、理想的な音声制作をサポートするとのことです。
音声合成はどこで聞ける?「FutureVoice」はこれまで、東日本電信電話株式会社のクラウド型ロボットプラットフォーム「ロボコネクト」の対応した第1号ロボット「Sota」の声や、RKB毎日放送株式会社が独自開発したバーチャルアナウンサー「百道桃(ももちもも)」の声などに活用されてきました。今後も、ゲームやスマートフォンアプリ、電子書籍、サイネージでの案内業務、ナレーション代行など幅広い領域での活用が期待されているようです。
近年、AI技術の発展や音声コンテンツなどへの注目の高まりなどを背景に、音声合成への需要が伸長。最近では、人間のような自然な音声を生成・読み上げる「CoeFont STUDIO」や短時間・低コストでユーザーの声をAI音声合成化する「CoeFont CLOUD」、アクセント推定技術「tdmelodic」を初めて実用化したAI音声合成「カタリテ」などさまざまなサービスがリリースされています。Techable(テッカブル)では、音声合成に関する記事を複数公開しているので、興味のある方はこちらからどうぞ。
NTTテクノクロス株式会社
(文・Higuchi)