Infoseek 楽天

リアルタイム低遅延ボイチェンのポイントは“個性の制限”? NTTが研究成果を発表する「オープンハウス」が6月24日から大阪で開催

ITmedia PC USER 2024年6月19日 6時0分

 NTT(日本電信電話)は6月24日から26日まで、NTT WEST i-CAMPUS(大阪市都島区)において「NTT コミュニケーション科学基礎研究所 オープンハウス2024」を開催する。入場は無料で誰でも参加可能だが、公式サイトからの事前登録が必要となる。

 本イベントの開催に先立ち、同社は6月17日に東京都内で報道関係者向けの説明会を開催した。イベントの概要と共に、その模様をお伝えする。

●イベントの概要

 本イベントは、NTTの社内研究所の1つ「コミュニケーション科学基礎研究所(CS研)」の研究成果を一般公開するもので、今回は例年よりも1日多い3日間に渡り開催される他、4年ぶりに現地開催の講演も行われる(※1)。会場はNTT WEST i-CAMPUSにある「PRISM」「QUINTBRIDGE」の各棟の1階で、こちらも従来よりも大規模だという。

(※1)講演会は全て、後日Webを通してオンデマンド配信される

 CS研は、NTTの研究開発(R&D)部門の1つである「先端技術総合研究所」の傘下にある。その名の通り“コミュニケーション”に関する基礎研究を広く行っており、現在は「人間科学」「メディア処理」「多様脳科学」「データと機械学習」の4分野に注力しているという。

 本イベントでは、CS研が取り組んでいる研究のうち、22個の成果が展示される。報道関係者向けの説明会では、そのうち7つが展示された。特に注目すべきものを紹介する。

手足の器用さをスマホでチェックできるソリューション

 人間には「利き手」「利き足」があるといわれる。通常、利き手や利き足の方が“器用”に使えるとされているが、そうでない手足との器用さの差をチェックするには、一定の手間と時間がかかる。

 そこでCS研では、スマートフォンのモーションセンサーを使って手足の器用さを計測できる手法(ソリューション)を開発した。手足の器用さと、左右の器用さの差分(運動のばらつき)を定量的に比較できるという。

 やり方は、手の場合はスマートフォンを持ち、足の場合は足首の外側にスマートフォンをバンドを介して装着して、音のテンポに合わせてクルクル回すだけとシンプルだ。結果はすぐにグラフとして表示される。

 このソリューションは今後、スポーツジムや部活動、リハビリ施設などでの導入を目指していくという。

超低遅延のリアルタイムボイスチェンジャー

 各種契約や問い合わせにおいて、Webベースの方法が充実してきた。一方で、Webベースの方法では対応がなかなか難しい人もいるため、電話(音声)窓口の重要性は衰えてはいない。しかし、通話をする人が互いの声をうまく聞き取れないということもある。

 一方で、最近はWeb動画のライブ配信やメタバース空間において音声を使ったコミュニケーションも盛んだが、やはり話者の声がうまく聞き取れないということもある。もっというと「自分の声を変えたい」というニーズも存在する。

 そんな背景を踏まえて、CS研ではリアルタイムかつ低遅延に声を変換するボイスチェンジャーの研究を進めている。「ボイスチェンジャーってもうあるよね?」という疑問もあるかもしれないが、CS研が追求しているのは低遅延、つまりコミュニケーションに支障を起こさない短時間での音声変換である。

 低遅延のボイスチェンジャーを実現するには、話者の声の特性(個人性)を徹底的に除去して汎用(はんよう)的な音声表現とし、音声変換をするタイミングで個人性を再度付与できるのが理想だという。しかし、その実現で壁となるのが「汎用的な音声表現」で、現状のボイスチェンジャーでは、中間処理の段階でどうしても個人性を取り除き切れないのだという。

 そこでCS研では、中間処理における個人性に“制限”を設け、しきい値以上の個人性を除去する処理を行うことでリアルタイム性を確保した。個人性の再付与には話者ごとの個人性を考慮した深層生成モデルを使うことで、バッファー(=未来方向のデータ)を使わずに変換処理を行うことも、リアルタイム性の向上に寄与している。

 音声のリアルタイム変換は、簡単な文章を読めばすぐに使い始められる。イベントのデモ展示では、「ずんだもん」や「つくよみちゃん」を含む4種類の声で実際にボイスチェンジを体験できる。

 なお、本研究はスマートフォンでも稼働することが既に確認されている。なりすまし対策と合わせて、実用化を前提として今後も研究を進めていくそうだ。

安価なディスプレイで実現できる「巨大3D投影」

 最近、巨大な建物や構造物に映像を投影する「プロジェクションマッピング」が流行している。また、VR(仮想現実)/AR(拡張現実)といった没入感を高める映像ソリューションもB2B/B2B2C市場を中心に広がりを見せている。ただ、これらのようなソリューションを導入するには、規模にもよるが、それなりの出費が避けられない。

 そこでCS研は、巨大な3D映像の空間投影を手頃に実現する手段として、手持ちのディスプレイを複数並べて巨大な3D映像を映し出すソリューションの研究を行っている。

 「手持ちのディスプレイ」は、メーカーやサイズを問わない。また、設置に当たってはある程度の“隙間”を許容できる上、向きも問わない。カメラを使ってキャリブレーションを行った後に、投影が開始される。

 投影される映像は、少し昔の3D空間投影と同様に赤と青の色フィルターの入ったメガネで見ると立体視可能だ。

 この技術は、人間の「目の錯覚」をうまく活用しつつ、映像の“色味”や“明るさ”を工夫することで、ディスプレイのサイズや間隔が不均衡でも立体視できるようにしている。

 他にも、オープンハウス2024では興味深い展示が多くある。興味のある人は、足を運んでみて損はないだろう。

この記事の関連ニュース