リアルタイム低遅延ボイチェンのポイントは“個性の制限”？　NTTが研究成果を発表する「オープンハウス」が6月24日から大阪で開催

ITmedia PC USER / 2024年6月19日 6時0分

　一方で、最近はWeb動画のライブ配信やメタバース空間において音声を使ったコミュニケーションも盛んだが、やはり話者の声がうまく聞き取れないということもある。もっというと「自分の声を変えたい」というニーズも存在する。

　そんな背景を踏まえて、CS研ではリアルタイムかつ低遅延に声を変換するボイスチェンジャーの研究を進めている。「ボイスチェンジャーってもうあるよね？」という疑問もあるかもしれないが、CS研が追求しているのは低遅延、つまりコミュニケーションに支障を起こさない短時間での音声変換である。

　低遅延のボイスチェンジャーを実現するには、話者の声の特性（個人性）を徹底的に除去して汎用（はんよう）的な音声表現とし、音声変換をするタイミングで個人性を再度付与できるのが理想だという。しかし、その実現で壁となるのが「汎用的な音声表現」で、現状のボイスチェンジャーでは、中間処理の段階でどうしても個人性を取り除き切れないのだという。

　そこでCS研では、中間処理における個人性に“制限”を設け、しきい値以上の個人性を除去する処理を行うことでリアルタイム性を確保した。個人性の再付与には話者ごとの個人性を考慮した深層生成モデルを使うことで、バッファー（＝未来方向のデータ）を使わずに変換処理を行うことも、リアルタイム性の向上に寄与している。

　音声のリアルタイム変換は、簡単な文章を読めばすぐに使い始められる。イベントのデモ展示では、「ずんだもん」や「つくよみちゃん」を含む4種類の声で実際にボイスチェンジを体験できる。

　なお、本研究はスマートフォンでも稼働することが既に確認されている。なりすまし対策と合わせて、実用化を前提として今後も研究を進めていくそうだ。

安価なディスプレイで実現できる「巨大3D投影」

　最近、巨大な建物や構造物に映像を投影する「プロジェクションマッピング」が流行している。また、VR（仮想現実）／AR（拡張現実）といった没入感を高める映像ソリューションもB2B／B2B2C市場を中心に広がりを見せている。ただ、これらのようなソリューションを導入するには、規模にもよるが、それなりの出費が避けられない。

　そこでCS研は、巨大な3D映像の空間投影を手頃に実現する手段として、手持ちのディスプレイを複数並べて巨大な3D映像を映し出すソリューションの研究を行っている。

　「手持ちのディスプレイ」は、メーカーやサイズを問わない。また、設置に当たってはある程度の“隙間”を許容できる上、向きも問わない。カメラを使ってキャリブレーションを行った後に、投影が開始される。

　投影される映像は、少し昔の3D空間投影と同様に赤と青の色フィルターの入ったメガネで見ると立体視可能だ。

　この技術は、人間の「目の錯覚」をうまく活用しつつ、映像の“色味”や“明るさ”を工夫することで、ディスプレイのサイズや間隔が不均衡でも立体視できるようにしている。

　他にも、オープンハウス2024では興味深い展示が多くある。興味のある人は、足を運んでみて損はないだろう。