1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

Metaによる音楽生成AIを試す「Meta MusicGen」

ASCII.jp / 2023年7月6日 17時0分

音楽の世界でも広がる生成AI

 生成AIが注目される流れは、画像や文章だけではなく音楽にも波及している。例えば、5月にSpotifyがAIで生成された数万曲を削除したというニュースがあった。これは著作権のほかにも、ビジネスモデル的な課題があるということを示している。

 実際探してみると、AIが音楽を作成するというサービスは意外に多い。しかし先日紹介したグーグルの「MusicLM」のように長いプロンプト(指示文)を使用して曲の生成を指示できる音楽生成AIは探してみてもあまり見つからない。MusicLMはベータ版の運用を拡大しているが日本は対象外だ。

 そうした中で、先日メタ(旧フェイスブック)が、MusicLMに似た音楽の生成AIプラットフォーム「Meta MusicGen」を発表した。メタも、(アップルを除く)ほかのテックジャイアント同様、AIに焦点を合わせてきている。その一環でもあるのだろう。

MusicGenの特徴

 GitHubやHugging Face(AIコミュニティ)でのメタの解説によると、MusicGenは自己回帰トランスフォーマーモデルを使用しているとある。これはChatGPTと同じトランスフォーマー型AI、つまり生成AIのことであり、自己回帰型というのは生成AIにおいて出力を次のステップの入力とすることで長い出力を生成できるタイプのことを言う。ChatGPTで小説のような長い出力が可能な理由は自己回帰型だからである。MusicGenも同様に長い音楽を生成可能と思われるが、現在は12秒に制限されている。

 学習に関しては、32kHz EnCodecトークナイザーを使用して訓練したとある。ChatGPTがテキストを用いて学習するのと同様に、MusicGenでは32kHzのトークン(最小単位)にエンコードされた音楽データを学習したということになる。よくAIでは「学習データがそのまま出てくる」と言われることもあるが、普通はデータ量を削減するために、元データをそのまま使うことはない。例えば画像生成AIなどでは元画像の中央の矩形領域のみを学習に使用するのが一般的だ。これは画像生成AIが4隅の生成に弱いとされる理由でもある。

 MusicGenにおいても元データはおそらく44kHzか48kHzだと思われるが、データ量の関係で32kHzにエンコードしているのかもしれない。あるいはダウンサンプルするのは著作権対策のためとも考えられる。

 どういうデータを用いて学習したかということが注目ポイントの一つであるが、「MusicGen」では2万時間に及ぶライセンスされた音楽を使用したとある。このライセンスされた音楽というのは、具体的にいうと「ShutterStock」や「Pond5」のようなストック音楽を提供するサービスのようだ。

テキストでの指示に加え、音楽サンプルの添付もできる

 MusicGenのユニークな点は、文章でのプロンプト指示のほかに音楽自体をプロンプトとして使用できるという点だ。例えば「重厚なドラムとシンセパッドをバックにした、80年代のドライビングポップソング」を“バッハのメロディ”で作成するということができる。この場合、バッハの音楽はMP3ファイルなどをアップロードする。

 MusicGenのコードなどの詳細はGitHubで公開されているが、デモとしてHugging Faceのウェブページで簡単に使用することができる。これは日本からも使用ができる。先にも書いたように現在「MusicGen」は12秒の音楽を生成することができ、出力はMP4形式となる。

Meta MusicGen
MusicGenの画面

 実際に試しに使ってみた。サンプルとして用意された「重厚なドラムとシンセパッドをバックにした、80年代のドライビングポップソング」とバッハのメロディを組み合わせたものと、テキストプロンプトのみの出力結果を挙げる。注記しておくとこれはMusicLMのようにあらかじめ用意されたサンプルではなく、私がMusicGenに指示を出して出力した結果だ。

参考音源付きの生成結果

テキストプロンプトのみの生成結果

 ちなみに両出力結果とも同じテキストプロンプトから生成しているが、曲自体が異なるのは、MusicGenがほかの生成AIのようにランダム性を持っているからだと推測できる。ChatGPTにおいて同じ質問をしても同じ回答はしないのと同じだ。

 次に独自の文章指示プロンプトを試してみるため、「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」といささかマニアックな指示をしてみた。出力結果がこれだ。

プログレ風の楽曲を指示した生成結果

 聞いてみるとたしかにプログレっぽいのが分かる。12秒に過ぎないが、静かなパートと力強いパートも交互に現れている。曲調はキング・クリムゾンを思わせるが、もしかすると元のストック音楽データにはクリムゾンフォロワーのようなバンドが多いのかもしれない。しかし、これは推測に過ぎない。

 音楽生成AIでは著作権問題がもっとも問題になると思われるが、学習する際にライセンスに問題がない音源を使用すること、ダウンサンプリングをしているらしいこと、生成にランダム性が加わることでこの問題には一定の対策は打てているように思う。

 メタはAIに注力していて、最近ではチャットGPTなどの生成AIを過去のものにするという斬新なアーキテクチャを持った「I-JEPA」というモデルを公開している。

 I-JEPAはいわゆる究極のAIと呼ばれるAGIではないが、普通の生成AIよりも汎用性が高く、学習にノイズを使用しないという点が新しい。つまり細部ではなく、大まかな点に着目して学習して、推測するというモデルのようだ。

 こうした成果も取り入れながらも、音楽生成AIが更なる進化を遂げる日もそう遠い将来ではないのかもしれない。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください