グーグル、呪文や鼻歌から音楽を自動生成するAI「MusicLM」を発表したが一般公開せず
ASCII.jp / 2023年1月30日 13時50分
呪文や画像から音楽を自動生成
グーグルの研究部門Google Researchは1月26日(現地時間)、「ディストーションギターをバックに流れる落ち着いたバイオリンの旋律」といったテキストから新たな音楽を自動生成するAIモデル「MusicLM」の論文とデモページを発表。ただし一般公開する予定はないという。
論文によるとMusicLMは、条件付き音楽生成プロセスを階層的な配列間モデリングタスクとして捉えることにより、24kHzで数分間に渡って一貫性のある音楽を生成することに成功したという。
呪文(プロンプト)は、「melodic techno」、「swing」といったジャンル名や「grand piano」、「flute」といった楽器名、「club in the 80s」、「street performance」といった場所や年代、などのシンプルなもののほか、「レゲトンとEDMを合体させた、スペイシーで別世界のようなサウンド。宇宙に迷い込んだような体験を誘発し、不思議な感覚と畏敬の念を呼び起こすような音楽でありながらもダンサブル」といった複雑なものまで利用できる。
また、「瞑想」>「起床」>「運動」>「覚醒」の4パートを各15秒のパートで表現した組曲的なものを作成したり。「beginner piano player(ピアノ初心者)」と「crazy fast professional piano player(超絶プロピアニスト)」のようにテクニックの優劣を指示したりすることもできる。
さらに呪文にはテキストだけではなく、音楽や画像を含めることも可能。たとえば鼻歌のメロディーをギター、ピアノ、オペラ歌手といった別の楽器で演奏させたり、ダリの代表作「記憶の固執」にインスパイアされた音楽を生成することも可能なのだ。
曲というよりは曲の断片
肝心の出来栄えだが、「guitar」や「piano」といった楽器や音色に関するものは概ね再現できているが、やはりあくまで曲の断片であり、1曲まるごと作曲という粋には達していない。とくにボーカルやラップなどの歌詞はデタラメであり、あくまで雰囲気を模倣してみたというレベルだ。
また、「big beat」、「trap hip hop」など一部のジャンル名から生成されたものの中には首を捻らざるを得ないものもある一方、「east coast hip hop」や「grunge」など、「あれ?これ誰の曲だっけ?」と考えてしまうほど“らしい”曲もいくつかあった。試しにそれを「Shazam」に聞かせてみたところ反応しなかったので、まちがいなくAIが作ったオリジナル(?)曲である。
学習データは公開中
MusicLMは、「high pitched female vocal melody(高音の女性ボーカルメロディー)」といった音色や楽器名などを記述したアスペクトリストと、「A low sounding male voice is rapping over a fast paced drums playing a reggaeton beat along with a bass. (レゲトンビートを奏でる速いテンポのドラムとベースの上で、低い音の男性の声がラップしている)」といったアーティストによって書かれたフリーテキストのキャプションでラベル付けされた、5521個のYouTube動画から取得された音楽サンプルで学習されている。音楽サンプルのデータセットは「AudioSet」、ラベル付け用キャプションのデータセットは「MusicCaps」という名前でそれぞれグーグルから公開されている。
論文によるとMusicLMは音質と正確性の両方において、従来のシステムを凌駕しているが、トレーニングデータに存在する文化的バイアスや、学習に使われたオリジナル楽曲の著作権侵害といったリスクが存在し、生成した楽曲の1%に近似的一致(オリジナルの模倣)が確認できたとしている。
他のAIモデル同様にグーグルは慎重姿勢を崩しておらず、現時点でモデルを一般公開する予定はないとしているが、Youtube動画のBGMなど著作権をクリアした楽曲データのニーズは高いため、安全な運用が期待される分野だ。
この記事に関連するニュース
-
AI生成文章の検出モデルを開発 GPTシリーズで生成された日本語の文章を高精度に検出
PR TIMES / 2024年7月2日 10時0分
-
Aisho Nakajima が夏のHip-Hopトラック「Kitty Kush」をリリース
NeoL / 2024年6月29日 22時0分
-
NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
ITmedia NEWS / 2024年6月16日 7時51分
-
AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口
ASCII.jp / 2024年6月13日 10時0分
-
スチャダラパー、Championのストーリーをラップで表現!?
Entame Plex / 2024年6月6日 11時40分
ランキング
-
1迷惑メール転送すると送信元が行政処分される? Xでアドレス拡散、宛先の「迷惑メール相談センター」が明かす実情
J-CASTニュース / 2024年7月2日 11時0分
-
2新紙幣「一万円札と千円札の1の字が違う」SNSに違和感覚えるという声も…… 「1」のデザインが違う理由は?
ねとらぼ / 2024年7月3日 18時15分
-
3老後の趣味で気軽に“塗り絵”を始めて1年後…… めきめき上達した70代女性の美麗な水彩画に「本当にすごい…」「感動です」
ねとらぼ / 2024年6月29日 22時0分
-
4藤本美貴&庄司智春、真っ昼間に変装ゼロで“腕絡め”デート 大勢の注目浴びるも“モザイク9割”の結果で「笑った」
ねとらぼ / 2024年7月2日 15時1分
-
5中小企業の社内Wi-Fi接続、約半数が「つながりにくさ」を実感‐対処法は?
マイナビニュース / 2024年7月3日 11時50分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください