音楽生成AI「Stable Audio」を試すが、道はまだまだ長そうだ

ASCII.jp / 2023年10月22日 9時0分

　現在のAIブームのきっかけは、画像生成AIがブレークしたことだ。

　あまりにもリアルで人間が描いたものを凌駕するような絵画をAIが描いたことで話題を呼んだ。今では様々な画像生成AIが登場しているが、その中心は「Stable Diffusion」という画像生成AIだ。複数の研究者によって開発され、Stability AIという会社が提供したものだが、そのStability AIが今度は「Stable Audio」という音楽生成AIを発表した。つまり話題の画像生成AIの大手が手がけた音楽生成AIということになる。

１万9500時間以上の音楽データから学習した音楽生成AI

　Stable Audioは、グーグルの「MusicLM」やメタの「MusicGen」のように、プロンプト(指示文)に基づいて音楽を作り出す本格的な生成AIだ。Diffusionは拡散モデルを意味し、浮き上がるようなステップを経て、徐々に画像を生成するのが特徴だ。ただし、音楽は時間の要素があるので、そう簡単ではないらしい。

　何かと問題となる学習元の音楽はサイトに明記されている。データセットはAudioSparxと契約し、「音楽、効果音、単一楽器のステム、および対応するテキストメタデータ」など80万以上のオーディオファイル、1万9500時間以上のオーディオデータを使用したそうだ。

　MusicLMやMusicGenが、ベータ版や研究成果として開放されているのに対して、Stable Audioは有料課金モデルを採用しているのも面白い。Freeプランでは非商用で45秒までの曲を1ヵ月に20曲生成できる。月額11.99ドルのProfessionalプランでは商用ライセンス付きで90秒までの曲を1ヵ月に500曲生成できる。

Freeプランの20回はすぐに消費してしまう

　さっそくFreeプランを試用してみた。

　比較のため、MusicGenの記事で生成に使ったのと同じプロンプト「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」を打ち込んでみた（作例1)。

　MusicGenでは一発でクリムゾンを思わせるプログレ曲ができたが、Stable Audioの生成結果にはちょっと首を捻ってしまった。プログレというジャンルはシンフォニックのようなロックだと思うが、結果はシンフォニック風の曲とロックのドラムが混在しているだけに思える。「AIがどう解釈したのか」という点では面白い結果だと思うが、さすがに音楽としてはおかしい。サイト上のサンプル曲はなかなか悪くないように思えるので、少し調べてプロンプトを改良してみることにした。

　Stable AudioのプロンプトではMusicGenのように自然言語で打ち込むよりも、ジャンルや楽器、ムード、テンポ、コード進行など単語を列挙して特徴を示していくほうが良さそうだ。具体的にはJazz、Drum、Bass、Up-Lifting、BPMなどである。ここも画像生成AIのプロンプトと似ているのが面白い。グーグルやメタのように自然言語処理に優れた会社よりはStable Diffusionの会社らしいという意味だ。

　サンプルを手本にしながらシンプルな曲にするアプローチを考えて、次のようなプロンプトを作った。「Minimal Piano solo, Chord progression minor key, uplifting, 90BPM(ミニマルのピアノソロ、コード進行マイナーキー、高揚感、テンポ90BPM)」。これは現代音楽のミニマル風ピアノ曲を意識している(作例2)。

　結果は期待に近いものとなった。

　繰り返すミニマル風のパターンをもとにして曲が作られ、きちんと45秒で終わるように製作している。上手にいくよう、キーワードをいろいろと探すといいのかもしれない。この過程も、良い絵が描けるように様々なキーワードを探す画像生成AIに似ている。

　生成AIでは「ガチャ」とも言われるランダム要因があるので、何回も繰り返し生成させて良いものを選ぶ作業が必要だ。ランダム要因が入るのは、AIが同じ指示に対して同じ結果を出すのを避ける工夫でもあるが、繰り返していると、Freeプランの20曲分をあっという間に消費してしまう。

聞きたい曲がすぐ生成される時代はまだ遠い

　画像生成AIやChatGPTのようなチャットボットが、いきなり「人間に近い」もしくは「人間を越える」ようなクオリティで登場したことに比べると、音楽生成AIのクオリティはまだどれも低いように思える。ちなみに「Female Vocal（女性ヴォーカル)」というキーワードも試してみたが、呪いの言葉のようになるのでお勧めしない。

　いま私たちは、通勤や通学時にスマホでApple Musicを立ち上げて自由に音楽を再生する。近い未来では、その代わりに音楽生成AIを立ち上げて「今日は女性ヴォーカル入りで明るくアップテンポな曲を再生して」と話しかけるようになるとは思うが、それはまだまだ先のことなのかもしれない。

津波情報気象庁発表

地震情報

音楽生成AI「Stable Audio」を試すが、道はまだまだ長そうだ

１万9500時間以上の音楽データから学習した音楽生成AI

Freeプランの20回はすぐに消費してしまう

聞きたい曲がすぐ生成される時代はまだ遠い

この記事に関連するニュース

トピックスRSS

ランキング

ITトピックス ITトピックスFeed