MetaのAudioboxを試す、指定の効果音や音声読み上げを文章から作れる生成AI

ASCII.jp / 2024年2月25日 17時0分

　Metaが音声や効果音などを生成するAI「Audiobox」をリリースした。

　Audioboxは一般ユーザーでもデモ版の使用が可能だ。いままでこうしたAIのデモ版はAIコミュニティーなどにアップロードされた不安定なものが多かったが、Audioboxでは自前のサーバーを使用しているのか、動作がが安定しており、使用方法の案内も整備されているのが特徴だ。ただし、現状は対応言語も説明もすべて英語のみ。

効果音やナレーションの作成などを想定した研究中の生成AI

　Audioboxを使用すると自然言語のプロンプトを使用して、生成したい効果音や音声の種類を記述できる。Metaは昨年初めに編集機能など音声生成タスクを実行できる最先端のAIモデル「Voicebox」を開発している。これは特別にトレーニングされていない音声を生成AIで扱えるというものであった。Audioboxはその後継版として音声だけではなく、犬の吠え声、車のクラクション、雷のひび割れなどの効果音や環境音を生成できる。

　Audioboxの特徴は、特定の応用分野が考えられていることだ。単に基礎研究の成果発表的なものではない。その分野とは、例えば映画、ポッドキャスト、オーディオブック、ビデオゲームなどだ。また、ASMR的な応用もできるだろう。

　Metaによると、上記の分野でコンテンツを制作する際、サウンドライブラリへのアクセスやサウンドエンジニアリング、声優といった最適な結果を得るための専門家が必要であった。その困難な作業の障壁を下げ、誰もがオーディオコンテンツクリエイターになることを容易にするのがAudioboxを開発した動機だという。Audioboxは従来の技術に比べて、FAD(音声忠実度の指標)が5割近く改善されていて高品質だという。

読み上げについての演技指導も

　Audioboxを試してみた。Sound Effects(効果音)のページでは、自然言語の文章に従って効果音を生成できる。ここで「the flow of the river can be heard faintly in the distance, and the chirping of birds can be heard loudly nearby」（川の流れがかすかに聞こえ、近くでは鳥の声が大きく聞こえる)と入力した。確かに、川の音は小さく生成され、鳥の声では大きく生成されている。川の音や鳥の声もなかなかリアルに聞こえる。波形図を見ても川の音のパートでは小さく、鳥の声が入るところでは大きく音量が生成されている。

　Audioboxは入力した文章を、特定の人物の声あるいは録音した自分の声で、読み上げられる。しかも、指示された文章に応じてその音声を変化させられる。

　「Audiobox is a new foundational research model.」(Audioboxは新しい基礎研究モデル)という文章は、あらかじめ入力した自分の声で読み上げられるのはもちろん、「ビーチの水しぶきをバックにしたニュートラルな声」や「教会の中で響き渡る中年男性の声」といった自然言語で指定できる。また、自分の音声の入力は困難な場合は、プリセット音声を使用して試せる。ただし、試した範囲ではメロディーをつけて歌わせるということはできなかった。

　音声に関しては最近の生成AIの水準からするとやや人工的な感じもするが、生成データのサンプルレートもかなり低いと思われるので、理由は明確に判断できない。

　デモ機能の一環として、作成した音声を組み合わせてストーリーを作る機能もある。これは先に述べたAudioboxの適用分野である映像や音声コンテンツの作成をシミュレートしている。また画面設計の作りからすると、子供の教育的ツールな要素もあるのかもしれない。

使い勝手は洗練されており、実用性は高い

　いろいろと試してみると、指示文(プロンプト)の自然言語解析に関しては今ひとつで、距離や環境について理解できないこともあった。しかし、これは画像生成AIなども同様である。おそらく現時点においては、自然言語解析には専用のAIが必要で、こうした音声などの生成には、また別の専用AIが必要なのだろう。そして、専門的なAIを掛け合わせていくことでより汎用的なAIが生まれていく。

　また、これまで紹介した音楽生成AIは動作が不安定なものが多かった。どれも研究室からそのまま出してきたようなものだった。しかし、Audioboxはスムーズな動作でストーリー作成ツールも含めて、実用的に作られている印象を持った。つまり、AIもそれだけ社会に受け入れられつつあるということを作り手側も意識してきたのだろう。

　Audiobox自体はデータ品質もまだ低く、短時間しか生成できないものの、新しい生成AIの普及に向けて時代が着実に進んでいるとも感じた。

津波情報気象庁発表

地震情報

MetaのAudioboxを試す、指定の効果音や音声読み上げを文章から作れる生成AI

効果音やナレーションの作成などを想定した研究中の生成AI

読み上げについての演技指導も

使い勝手は洗練されており、実用性は高い

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed