大規模言語モデルに個人の発話を効率よく再現させる個人性再現対話技術を開発～NTT版LLM”tsuzumi”への適用により、本人のデジタル分身を低コストに生成可能～

Digital PR Platform / 2024年1月17日 15時6分

[画像2]https://user.pr-automation.jp/simg/2341/81528/700_360_20240110112648659e0068171bc.JPG

・Zero/Few-shot音声合成技術
　従来技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する（収録に要する時間はその数倍）必要があり、万人の音声を再現したり、キャラクタの多彩な口調を実現するにはコストが高くなってしまう問題がありました。
　我々は、より少ない音声データからでも高品質かつ多様な表現の生成を可能にする2つの技術を実現しました。1つ目は、多忙な方や声を失った方など極少量の音声しか得られない方を含む万人の音声の簡易な再現をめざし、声を再現したい話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成する「Zero-shot音声合成技術」です。2つ目は、著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分〜10分程度の音声データから音声合成モデルを学習し、従来に比べ必要な音声データ量を大きく削減しながらも再現性の高い音声を合成可能な「Few-shot音声合成技術」です。
　これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要としますが、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術を用いた音声合成サービスの運用コストを低く抑えることを実現しています。

[画像3]https://user.pr-automation.jp/simg/2341/81528/700_295_20240110112648659e00681805d.JPG

3．技術の効果
　これら技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになります。その主な適用先として我々が考えているのがメタバースのような新たなデジタルコミュニケーションサービスです。サービスを使いこなして物理空間では会えない様々な人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情です。それに対して本技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC（Non-Player Character）として他のユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有します。そうすることで、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られます。また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することができます。有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待できます。
　このようなデジタル分身のプロトタイプをＮＴＴドコモのメタコミュニケーションサービス「MetaMe」上に実装し、2024年1月17日から東京国際フォーラムにて開催されるdocomo Open House’24(※6)にて展示予定です。