Google DeepMind、テキストプロンプトで"口パク"にも対応するサウンドトラック生成技術
マイナビニュース / 2024年6月19日 10時29分
Google DeepMindのジェネレーティブメディアチームは現地時間6月17日、ビデオ生成モデル「Veo」と組み合わせて、生成した無音動画に同期したオーディオビジュアルを生成する研究中のV2A(video to audio)技術の現状を公式ブログで発表、スリラー、ホラー、宇宙空間などのシチュエーションに合わせて生成されたサウンドトラックを公開している。
○ビデオ生成モデル「Veo」と動画から音声を作成するV2A技術でAIが音声付き動画を生成
チームが今回公開した研究は、「Veo」で生成された無声動画にAIでサウンドトラックを生成する技術で、V2A(video to audio)技術と呼ばれており、ビデオのキャラクターや雰囲気、環境、シチュエーションなどにマッチした音楽や会話、観客の歓声や足音、動物の鳴き声、ドラムの音、車のエンジン音やスリップ音などを生成する。またオプションで「ポジティブなプロンプト」と「ネガティブなプロンプト」を定義し、ある程度感性に合わせた制御も行うことも可能となっている
また、動画のリップシンク(口パク行為)に対応、入力されたトランスクリプト(会話テキスト)から音声を生成し、登場人物の唇の動きと同期させる技術も改善が進んでいる。Webサイトでは、プロンプトとそれによって作成されたサンプルが複数公開されている。
同技術はオーディオ生成に拡散(diffusion)モデルを採用、ビデオ入力を圧縮表現(compressed representation)にエンコードし、拡散モデルによりランダムノイズから画像入力と自然言語プロンプトに対応したオーディオを生成、繰り返しリファインを行い、デコード、波形変換と加工されビデオデータと結合される。オーディオ生成エンジンにはモデルが特定のサウンドを生成する機能を実装するため、AIトレーニングのプロセスでサウンドの詳細説明、AI生成の注釈など多くの情報を追加し、ビジュアルに合わせた関連付け学習を行っている。
気になるのが生成されるサウンドのセキュリティ面だが、生成されるコンテンツには、透かしを入れコンテンツを識別する技術「SynthIDツールキット」を組み込むことで技術の悪用から保護を行うという。より幅広い一般公開を検討する前に、クリエイターや映画製作者などからの多様な視点や洞察、フィードバックを得て、厳格な安全性評価とテストを行う旨を述べている。
(竹中貴一)
外部リンク
この記事に関連するニュース
-
チューナーレステレビが気になるけど良くわからない… それならヤマダの3D音響&4Kの50V型はいかが
&GP / 2024年6月23日 15時0分
-
オルツ、フランス拠点の生成AIベンチャーGladiaとの連携を発表
PR TIMES / 2024年6月10日 13時15分
-
オルツ、フランス拠点の生成AIベンチャーGladiaとの連携を発表
共同通信PRワイヤー / 2024年6月10日 11時0分
-
ネット動画も快適! パナソニック「Fire TV搭載ビエラ」の“進化と継承”
マイナビニュース / 2024年6月8日 6時0分
-
NVIDIA がデジタル ヒューマン マイクロサービスをリリース、生成 AI アバターの未来への道を開く
PR TIMES / 2024年6月3日 15時45分
ランキング
-
1老後の趣味で気軽に“塗り絵”を始めて1年後…… めきめき上達した70代女性の美麗な水彩画に「本当にすごい…」「感動です」
ねとらぼ / 2024年6月29日 22時0分
-
2「ロンハー」有吉弘行のヤジに指摘の声「酷かった」「凄く悲しい言葉」 42歳タレントが涙浮かべる
ねとらぼ / 2024年7月2日 15時31分
-
3シャオミ、ペンを発売 「書き心地は良いが、タブレットとペアリングはできません」と公式
ITmedia NEWS / 2024年7月3日 8時30分
-
4坂本龍馬はそんなこと言わない! 居酒屋で発見された“ウソすぎる名言”が話題「おもろすぎる」「せめて土佐弁で」
ねとらぼ / 2024年7月2日 20時30分
-
5マイナポータルで障害、一部機能が利用しづらくなった
ASCII.jp / 2024年7月2日 16時35分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)