マイクロソフト、AIで3秒間の音声データから真似た音声を再現「VALL-E」を発表
ASCII.jp / 2023年1月11日 9時0分
マイクロソフトは1月5日(現地時間)、3秒間の声のサンプルを使用するだけで、その人の声を真似た音声を合成できる言語モデリングアプローチ「VALL-E」を発表した。
しゃべらせたいテキストと3秒間のお手本音声を入力するだけ
![](https://ascii.jp/img/2023/01/10/3475634/x/f56fcbc6c5f4445e.jpg)
「ニューラルコーデック言語モデル」と呼ばれるVALL-Eは、Metaが2022年10月に発表した「EnCodec」というAIを使った音声圧縮技術をベースにしている。
論文によると、しゃべらせたいテキスト(Text Prompt)と、お手本となる3秒間のサンプル音声データ(Acoustin Prompt)を入力すると、事前にトレーニングされたデータを使って分析し、その声が3秒間のサンプル以外のフレーズを話した場合にどう聞こえるかをAIが予測し、まるでお手本を録音した人がしゃべったかのようにテキストを再生できる。
トレーニングは、やはりMetaが作成した7000人以上の話者による6万時間を超える英語の音声ライブラリ「LibriLight」を使用して実施されており、サンプル音声がトレーニングデータの音声に近いものであればあるほどよい結果をもたらしてくれるという。
「怒った声」や「電話越しの声」も再現できる
![](https://ascii.jp/img/2023/01/10/3475632/x/dfeee40a395adab1.png)
それでは実際に合成された音声を聞いてみよう。マイクロソフトが用意したデモページには、Metaが作成した音声データセット「LibriSpeech」を使ったサンプルデータを聞くことができる。
一番左の「TEXT」がしゃべらせたいテキスト、その右にある「Speaker Prompt」がお手本となる3秒間の音声だ。この2つを元に生成される音声が一番右の「VALL-E」だ。
「Ground Truth」は、お手本と同じ話者がそのフレーズを発声した既存の録音、つまり正解となる。「VALL-E」と聴き比べてみると、サンプルによって出来不出来はあるが、声の音色だけではなく、アクセントやスピードなども再現されていることがわかる。
なお、「Baseline」は従来の音声合成方式による合成例だ。「VALL-E」と比べるとかなり平坦に聞こえる。
![](https://ascii.jp/img/2023/01/10/3475631/x/ad57f8ca499dc87c.png)
また、生成時に必要なパラメーターを変えることで、トーンやアクセントなどが異なる多様性のあるサンプルを複数生成できる。
![](https://ascii.jp/img/2023/01/10/3475630/x/9392ad5e49b756b6.png)
さらに、サンプル音声の「音響環境」を再現することも可能。例えばサンプル音声が電話越しに録音された音声だった場合、電話の音響特性や周波数特性が合成された音声にも適用される。
![](https://ascii.jp/img/2023/01/10/3475629/x/7a0c622b15bedf7c.png)
同じ文章を「怒っている」、「眠い」、「普通」、「楽しい」、「ダルい」といった様々な感情を持ったサンプル音声を使って生成した例。AIは感情まで模倣できるようになったのだ。
犯罪に利用される可能性もあるため公開は微妙
このように、たった3秒のサンプルデータで驚くべき音声合成精度を持つVALL-Eだが、もちろんまだ進化の余地はある。単純に、手本となるサンプルデータや事前学習データの量を増やすだけでも、よりリアルな音声を合成できるだろう。
また、GPT-3のような言語生成モデルと組み合わせることで、「自分の声でしゃべるAIボット」を作成することもできるようになるだろう。
とは言え、現状利用できるのは英語のみ、多言語に対応するためには英語以外の学習用データセットが充実する必要があるだろう。
現時点でVALL-Eは一般公開されていない。ディープフェイク動画などと組み合わせることでなりすまし詐欺など犯罪に利用される可能性が高いからだろう。
このような倫理的問題に関してマイクロソフトは、「実用化の際にはサンプルデータを提供する話者の同意を得る仕組み、合成されたデータを検出するシステムなどのコンポーネントを提供する必要がある」と声明を出している。
少なくともこの準備が整うまでは一般公開されることはないだろう。
この記事に関連するニュース
-
「日本の声優のすばらしさ広めたい」アニメの世界観ごと輸出するAI吹き替え技術
ASCII.jp / 2024年6月26日 10時0分
-
スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
-
rinna、AI音声合成サービスKoemotionをアップデート
PR TIMES / 2024年6月24日 15時45分
-
NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
ITmedia NEWS / 2024年6月16日 7時51分
-
AIは今後も急速に進化する? 進化が減速し始めた?
ニューズウィーク日本版 / 2024年6月5日 12時40分
ランキング
-
1老後の趣味で気軽に“塗り絵”を始めて1年後…… めきめき上達した70代女性の美麗な水彩画に「本当にすごい…」「感動です」
ねとらぼ / 2024年6月29日 22時0分
-
2「ロンハー」有吉弘行のヤジに指摘の声「酷かった」「凄く悲しい言葉」 42歳タレントが涙浮かべる
ねとらぼ / 2024年7月2日 15時31分
-
3シャオミ、ペンを発売 「書き心地は良いが、タブレットとペアリングはできません」と公式
ITmedia NEWS / 2024年7月3日 8時30分
-
4坂本龍馬はそんなこと言わない! 居酒屋で発見された“ウソすぎる名言”が話題「おもろすぎる」「せめて土佐弁で」
ねとらぼ / 2024年7月2日 20時30分
-
5マイナポータルで障害、一部機能が利用しづらくなった
ASCII.jp / 2024年7月2日 16時35分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)