MetaのAudioboxを試す、指定の効果音や音声読み上げを文章から作れる生成AI
ASCII.jp / 2024年2月25日 17時0分
Metaが音声や効果音などを生成するAI「Audiobox」をリリースした。
Audioboxは一般ユーザーでもデモ版の使用が可能だ。いままでこうしたAIのデモ版はAIコミュニティーなどにアップロードされた不安定なものが多かったが、Audioboxでは自前のサーバーを使用しているのか、動作がが安定しており、使用方法の案内も整備されているのが特徴だ。ただし、現状は対応言語も説明もすべて英語のみ。
効果音やナレーションの作成などを想定した研究中の生成AI
Audioboxを使用すると自然言語のプロンプトを使用して、生成したい効果音や音声の種類を記述できる。Metaは昨年初めに編集機能など音声生成タスクを実行できる最先端のAIモデル「Voicebox」を開発している。これは特別にトレーニングされていない音声を生成AIで扱えるというものであった。Audioboxはその後継版として音声だけではなく、犬の吠え声、車のクラクション、雷のひび割れなどの効果音や環境音を生成できる。
Audioboxの特徴は、特定の応用分野が考えられていることだ。単に基礎研究の成果発表的なものではない。その分野とは、例えば映画、ポッドキャスト、オーディオブック、ビデオゲームなどだ。また、ASMR的な応用もできるだろう。
Metaによると、上記の分野でコンテンツを制作する際、サウンドライブラリへのアクセスやサウンドエンジニアリング、声優といった最適な結果を得るための専門家が必要であった。その困難な作業の障壁を下げ、誰もがオーディオコンテンツクリエイターになることを容易にするのがAudioboxを開発した動機だという。Audioboxは従来の技術に比べて、FAD(音声忠実度の指標)が5割近く改善されていて高品質だという。
読み上げについての演技指導も
Audioboxを試してみた。Sound Effects(効果音)のページでは、自然言語の文章に従って効果音を生成できる。ここで「the flow of the river can be heard faintly in the distance, and the chirping of birds can be heard loudly nearby」(川の流れがかすかに聞こえ、近くでは鳥の声が大きく聞こえる)と入力した。確かに、川の音は小さく生成され、鳥の声では大きく生成されている。川の音や鳥の声もなかなかリアルに聞こえる。波形図を見ても川の音のパートでは小さく、鳥の声が入るところでは大きく音量が生成されている。
![](https://ascii.jp/img/2024/02/24/3691285/x/2d5990e8f8f0a65d.png)
Audioboxは入力した文章を、特定の人物の声あるいは録音した自分の声で、読み上げられる。しかも、指示された文章に応じてその音声を変化させられる。
「Audiobox is a new foundational research model.」(Audioboxは新しい基礎研究モデル)という文章は、あらかじめ入力した自分の声で読み上げられるのはもちろん、「ビーチの水しぶきをバックにしたニュートラルな声」や「教会の中で響き渡る中年男性の声」といった自然言語で指定できる。また、自分の音声の入力は困難な場合は、プリセット音声を使用して試せる。ただし、試した範囲ではメロディーをつけて歌わせるということはできなかった。
音声に関しては最近の生成AIの水準からするとやや人工的な感じもするが、生成データのサンプルレートもかなり低いと思われるので、理由は明確に判断できない。
デモ機能の一環として、作成した音声を組み合わせてストーリーを作る機能もある。これは先に述べたAudioboxの適用分野である映像や音声コンテンツの作成をシミュレートしている。また画面設計の作りからすると、子供の教育的ツールな要素もあるのかもしれない。
使い勝手は洗練されており、実用性は高い
いろいろと試してみると、指示文(プロンプト)の自然言語解析に関しては今ひとつで、距離や環境について理解できないこともあった。しかし、これは画像生成AIなども同様である。おそらく現時点においては、自然言語解析には専用のAIが必要で、こうした音声などの生成には、また別の専用AIが必要なのだろう。そして、専門的なAIを掛け合わせていくことでより汎用的なAIが生まれていく。
また、これまで紹介した音楽生成AIは動作が不安定なものが多かった。どれも研究室からそのまま出してきたようなものだった。しかし、Audioboxはスムーズな動作でストーリー作成ツールも含めて、実用的に作られている印象を持った。つまり、AIもそれだけ社会に受け入れられつつあるということを作り手側も意識してきたのだろう。
Audiobox自体はデータ品質もまだ低く、短時間しか生成できないものの、新しい生成AIの普及に向けて時代が着実に進んでいるとも感じた。
この記事に関連するニュース
-
会話型ホログラフィックツインを即座に作成、本人の表情・声・動きを再現|米国Proto、AIホログラムツールをリリース
Techable / 2024年7月23日 18時0分
-
「あはは」も再現? 味気ないAIとのおしゃべりを豊かにする音声対話技術
ASCII.jp / 2024年7月19日 10時0分
-
生成AIやLLMにより高度化するフィッシング、どう対抗するか 第1回 企業の生成AI活用におけるメリットとリスクとは
マイナビニュース / 2024年7月16日 9時52分
-
【Voice Space活用事例紹介】バッグ・アパレル展示会における商品説明動画のナレーションを音声AIで作成。(クローム・インダストリーズジャパン合同会社様)
PR TIMES / 2024年7月4日 15時15分
-
スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
ランキング
-
1小1の子どもに「オシャレノート」を買い与えたら“まさかの号泣”…… 納得の理由が「そりゃあ仕方ない」と810万回表示
ねとらぼ / 2024年7月24日 7時45分
-
2これは尊い……! 5カ月の赤ちゃんがアンパンマンに変身 “冷蔵庫にあるもの”でできるナイスアイデアに「天才」「買いに行く!!」
ねとらぼ / 2024年7月24日 7時15分
-
3“高難易度ゲーム”でやられるたびに鶴を折ったら…… 特殊なチャレンジの結果が壮絶にして壮観
ねとらぼ / 2024年7月23日 20時0分
-
4プロが本気で“アンパンマンの塗り絵”をしたら…… 衝撃の仕上がりが360万再生「凄すぎて笑うしかないww」「チーズが、、、」
ねとらぼ / 2024年7月18日 22時0分
-
5ヤマト運輸偽るフィッシング詐欺の報告が26倍に急増
マイナビニュース / 2024年7月23日 8時20分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)