音楽生成AI「Stable Audio」を試すが、道はまだまだ長そうだ
ASCII.jp / 2023年10月22日 9時0分
現在のAIブームのきっかけは、画像生成AIがブレークしたことだ。
あまりにもリアルで人間が描いたものを凌駕するような絵画をAIが描いたことで話題を呼んだ。今では様々な画像生成AIが登場しているが、その中心は「Stable Diffusion」という画像生成AIだ。複数の研究者によって開発され、Stability AIという会社が提供したものだが、そのStability AIが今度は「Stable Audio」という音楽生成AIを発表した。つまり話題の画像生成AIの大手が手がけた音楽生成AIということになる。
![](https://ascii.jp/img/2023/10/15/3621718/x/fc18bd332555c63a.jpg)
1万9500時間以上の音楽データから学習した音楽生成AI
Stable Audioは、グーグルの「MusicLM」やメタの「MusicGen」のように、プロンプト(指示文)に基づいて音楽を作り出す本格的な生成AIだ。Diffusionは拡散モデルを意味し、浮き上がるようなステップを経て、徐々に画像を生成するのが特徴だ。ただし、音楽は時間の要素があるので、そう簡単ではないらしい。
何かと問題となる学習元の音楽はサイトに明記されている。データセットはAudioSparxと契約し、「音楽、効果音、単一楽器のステム、および対応するテキストメタデータ」など80万以上のオーディオファイル、1万9500時間以上のオーディオデータを使用したそうだ。
MusicLMやMusicGenが、ベータ版や研究成果として開放されているのに対して、Stable Audioは有料課金モデルを採用しているのも面白い。Freeプランでは非商用で45秒までの曲を1ヵ月に20曲生成できる。月額11.99ドルのProfessionalプランでは商用ライセンス付きで90秒までの曲を1ヵ月に500曲生成できる。
Freeプランの20回はすぐに消費してしまう
さっそくFreeプランを試用してみた。
比較のため、MusicGenの記事で生成に使ったのと同じプロンプト「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」を打ち込んでみた(作例1)。
MusicGenでは一発でクリムゾンを思わせるプログレ曲ができたが、Stable Audioの生成結果にはちょっと首を捻ってしまった。プログレというジャンルはシンフォニックのようなロックだと思うが、結果はシンフォニック風の曲とロックのドラムが混在しているだけに思える。「AIがどう解釈したのか」という点では面白い結果だと思うが、さすがに音楽としてはおかしい。サイト上のサンプル曲はなかなか悪くないように思えるので、少し調べてプロンプトを改良してみることにした。
Stable AudioのプロンプトではMusicGenのように自然言語で打ち込むよりも、ジャンルや楽器、ムード、テンポ、コード進行など単語を列挙して特徴を示していくほうが良さそうだ。具体的にはJazz、Drum、Bass、Up-Lifting、BPMなどである。ここも画像生成AIのプロンプトと似ているのが面白い。グーグルやメタのように自然言語処理に優れた会社よりはStable Diffusionの会社らしいという意味だ。
サンプルを手本にしながらシンプルな曲にするアプローチを考えて、次のようなプロンプトを作った。「Minimal Piano solo, Chord progression minor key, uplifting, 90BPM(ミニマルのピアノソロ、コード進行マイナーキー、高揚感、テンポ90BPM)」。これは現代音楽のミニマル風ピアノ曲を意識している(作例2)。
結果は期待に近いものとなった。
繰り返すミニマル風のパターンをもとにして曲が作られ、きちんと45秒で終わるように製作している。上手にいくよう、キーワードをいろいろと探すといいのかもしれない。この過程も、良い絵が描けるように様々なキーワードを探す画像生成AIに似ている。
生成AIでは「ガチャ」とも言われるランダム要因があるので、何回も繰り返し生成させて良いものを選ぶ作業が必要だ。ランダム要因が入るのは、AIが同じ指示に対して同じ結果を出すのを避ける工夫でもあるが、繰り返していると、Freeプランの20曲分をあっという間に消費してしまう。
聞きたい曲がすぐ生成される時代はまだ遠い
画像生成AIやChatGPTのようなチャットボットが、いきなり「人間に近い」もしくは「人間を越える」ようなクオリティで登場したことに比べると、音楽生成AIのクオリティはまだどれも低いように思える。ちなみに「Female Vocal(女性ヴォーカル)」というキーワードも試してみたが、呪いの言葉のようになるのでお勧めしない。
いま私たちは、通勤や通学時にスマホでApple Musicを立ち上げて自由に音楽を再生する。近い未来では、その代わりに音楽生成AIを立ち上げて「今日は女性ヴォーカル入りで明るくアップテンポな曲を再生して」と話しかけるようになるとは思うが、それはまだまだ先のことなのかもしれない。
この記事に関連するニュース
-
生成AI「リートン」、6月28日に「Stable Diffusion 3」をweb・iOS版アプリ両方でリリース
PR TIMES / 2024年6月28日 16時45分
-
AIが作る3Dモデルの完成度が上がってきた 毎回異なるモンスターが生成されるゲームも実現か
ASCII.jp / 2024年6月17日 7時0分
-
Microsoftが「Recall」機能に関する追加情報を公開 プライバシーに配慮/iOS版「フォートナイト」が2025年後半に復活
ITmedia PC USER / 2024年6月16日 6時5分
-
「Stable Diffusion 3」が一般公開。20億パラメータの“Medium”版、NVIDIA向けに最適化したバージョンも
マイナビニュース / 2024年6月13日 18時43分
-
AIによる画像生成がさらにリアルに、美しく。ファッション業界向け生成AIツール「MaisonAI」がアップデート
PR TIMES / 2024年6月12日 17時45分
ランキング
-
1「赤ちゃんのお世話がしたいニャ!」ベビーサークル越しに愛を訴える猫ちゃん
おたくま経済新聞 / 2024年7月8日 7時0分
-
2「どう見てもセガのアレ」 コンビニうどんの容器トレーが「圧倒的既視感」「コントローラーの抜け殻」と話題
ねとらぼ / 2024年7月7日 17時0分
-
3モトローラが日本市場で急成長している理由 1年で出荷台数2倍以上、「edge」「razr」の販路拡大がカギに
ITmedia Mobile / 2024年7月6日 11時45分
-
4一度植えたら、自動で増殖&毎年収穫を目指せる野菜5種とは? 自然農のエキスパートが伝授する方法に反響
ねとらぼ / 2024年7月8日 9時0分
-
5「わろてる」 人気VTuberが部屋で“でかめのやらかし”をした様子を公開し話題に 「どうなってんのこれw」「想像以上」
ねとらぼ / 2024年7月7日 18時0分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)