Meta、音声付き高解像度動画の生成が可能なAIモデル「Movie Gen」発表

ITmedia NEWS / 2024年10月5日 8時1分

　米Metaは10月4日（現地時間）、テキストから高画質の動画と音声を生成する動画生成AIモデル「Movie Gen」を発表した。具体的なリリース時期、ライセンス、開発者向けの利用可能性については言及していないが、多数のサンプル動画を公開している。

●Movie Genでできること

　Movie Genは、テキスト、画像、動画、音声のマルチモーダルで、テキスト入力で動画と音声を生成できる。

生成できる動画は最長16秒

　テキストプロンプトを入力することで最長16秒、16フレーム／秒の動画を生成できる。物体の動きや物体同士の相互作用、カメラの動きを理解しているので、現実的な動きを再現できるとしている。

既存の動画の編集

　既存の動画を編集できる。例えばオブジェクトを追加したり、背景を変更したり、動画の一部を別の内容に置き換えたりできる。

　マーク・ザッカーバーグCEOは自身のInstagramアカウントでの投稿で、レッグプレスをしている自分の動画を、ローマ風の背景で兵士のような装束を着けた動画や穀物倉庫のような場所での動画に変換してみせた。

　サンプル動画では、例えばペンギンの動画で、ペンギンにドレスを着せたり、背景にビーチパラソルを追加したり、鉛筆画のようなタッチに変えたりする編集を紹介している。

自分が主役の動画を生成

　自分の画像を入力することで、動画内の人物を自分に変えることができる。

効果音やBGMの生成

　動画の内容に基づいて、シーンに合わせた効果音やBGMを生成できる。音声のスタイルや雰囲気もテキストで指定できる。泳いでいるペンギンが水を切る音や、ジャングルを這うヘビのシーンに不穏な音楽を合わせた例が紹介されている。

●Movie Genの優位性

　Metaは、Movie Genは複数のタスクで業界の類似モデルを凌駕していると説明している。テキストから動画を生成するタスクでは、Runwayの「Gen-3」、Luma Labsの「Dream Machine」、OpenAIの「Sora」を上回るパフォーマンスを示すとしている。

　Movie Genの特徴は、物理法則を尊重し、歪みのない一貫性のある動きで現実世界をシミュレートする能力という。

●悪用の可能性

　Metaは論文（PDF）で、オリジナル動画を編集したり、動画の人物の顔を変えたりできる技術が悪用の可能性をはらんでいることについても触れている。

津波情報気象庁発表