もはや実写と間違えるレベル　動画生成AI「Runway」の進化がすごい

ASCII.jp / 2024年10月21日 7時0分

　クラウド型の動画生成AI「Runway」がしばらく見ないうちに進化していました。7月に新世代となる「Gen 3 Alpha」をリリースしていましたが、その後、8月に高速版の「Gen 3 Alpha Turbo」をリリースし、劇的な生成速度の向上と、始点となる画像を指定できるようになりました。そして、9日に終点の画像も指定できるようになり、コントロールできる範囲が大きく広がりました。1月にこの連載に登場してから、何度も作例に使っているオリジナルキャラクターの「明日来子さん」が表情を変えて動き出すまでになりました。動画生成AIもこんなところまで来たのかと驚かされます。

▲明日来子さんが、横を向き、上目遣いのあと、伏し目がちになり、またこちらに顔を向けるまでの30秒の動画。画像はMidjouneyで作った1枚しか使っておらず、残りの部分はすべてGen 3 Alphaで作っている

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

破綻なく“10秒動画”が作れる

　Runway Gen3 Alpha Turboの性能の高さは本物です。まずは動画生成AIサービスの中では長時間にあたる10秒間の動画が生成できることです。一般的には5秒以内というのが標準です。それ以上生成すると、画像の一貫性を維持するのが難しくなってしまうのです。しかしRunwayは、始点となる画像を指定する必要がありますが、10秒間大きく崩れずに動画を生成できます。画像サイズは固定されているものの、横長だけでなく、縦長も選べます。

　グーグルの画像生成サービス「Image FX」で生成した日本風の階段を動画にしてみたところ、その世界に入り込んだような表現が実現できました（参照：AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質?）。階段がなだらかになっていたりするので完璧ではないのですが、それでも存在しない世界の映像が作り出されています。

　そして、Runwayが9月に新機能としてアピールしたのが「スタイル変更」という、ビデオを別の絵柄に変換する機能です。10秒という限定条件はつくのですが、全く違うスタイルの動画へと変換することができます。日本のお寺、サイバーパンク、3Dアニメ風、日本のアニメ風の違う動画を作成してみました。どうも階段の下りの生成が苦手なようで、途中から上りになってしまっていますが。

　女の子を登場させてみると、女の子が階段を下っていく様子が出てきました。動画生成AIではよく起きるタイプのミスのサイズ感が若干おかしかったりするのですが、それでもパッと見ただけでは見抜けないかもしれません。

▲女の子を出してみた動画。10秒以降が拡張したもので、だんだんと不思議の国のアリス状態になっていく

　生成した動画は、8秒間の拡張（延長）をすることができ、最大3回の34秒まで拡張することができます。ただし画像としてのディティールはどんどん飛んでしまい、画像は単純化されていき、始点画像とは別物へと変わっていってしまいます。もとの画像との一貫性を維持できないという課題は、動画生成AIでは一般的に見られます。

　しかし、この乖離をある程度抑える方法も出てきています。それが7月に登場したLuma AIの「Luma Dream Machine」の「キーフレーム」という機能です。ある程度似ている画像を始点と終点に指定すると、その間を補完する形で動画生成をさせることで一貫性が保てるのです。9日にGen3 Alpha Turboがこの機能に対応したことで、一貫性を実現しつつDream Machineの5秒という生成能力の2倍の10秒で生成できるようになったのです。

　非常に感心したのが、2枚の画像を使い、始点と終点を指定するもの。同じ人物の写真を別カットで撮ったものを使うことで、すごく自然に、正確に出てきます。アニメ風のキャラクターであっても、同じような格好をしているものであれば、ちゃんと動いてくれます。

▲VRMを使ってポーズを付けたスクリーンショットを4枚作成し、WebUI ForgeでFLUXを使ってアニメ的な絵柄にi2i（画像から画像）で変更し、Gen3で3つの動画を作成し1本の動画にしたもの。動きをスムーズにするため再生速度を2倍にしている

破綻させず長時間の動画を作る方法も

　一貫性を保ちながら、それなりの長さの動画を作るにはどうすればいいのか。冒頭の明日来子さんの動画は、最初の始点画像を指定して、最初の10秒の動画を作成して、その完成度が高かった場合には、動画の終点をスクリーンショットとして書き出し、今度はそれを始点画像として、新たに動画を作っています。それを繰り返し3回分の動画を作成します。ループさせるため、3回目の動画は、終点画像を最初の画像を指定します。

Gen 3 Alpha Turboの画面。同時に2個の動画まで生成できるため、生成の失敗が起きる前提で、2個の生成を指定しておくことが多い

　そして、何度も作り直して自然に見えるものを選び、動画編集ツールの「DaVinci Resolve」を使って結合しています。足音といった効果音も、効果音作成AIサービスの「ElevenLabs」を利用して作成して合わせています。

DaVinci Resolveでの編集画面。基本機能は無料で使えるため導入しやすい

　もちろん、この方法では10秒ごとにカメラの動きが変わってしまったり、動画の生成は質感がだんだんと単純化してしまうため、完全に問題がないとまでは言えません。いろいろ生成しているとわかりまが、キャラクターが突然後ろに歩きだしたり、オブジェクトの前後関係の認識は苦手な部分があったりと、動画生成AI特有のおかしな部分は残っています。

　ただ、当然こうした課題点をRunwayが認識していないとは考えにくく、そう遠くない将来に、1枚の画像から、1分なりの動画を、動画間のカメラワークをなだらかにしながら一貫性を保ちつつ生成する機能が実現されていくだろうと予測します。

　また、逆に、画像生成AIに応用していくやり方も可能ではないかと思えます。画像生成AIでは、キャラクターの顔や服装などの一貫性を維持することは、現在でも難しいですが、Gen3を使って生成した動画から画像を切り出し、ControlNetを使ったり、LoRAを作成することで、逆に応用していくという方法はあるだろうと思えます。

▲グーグル「ImageFX」で作った架空のアイドル画像1枚から、明日来子さんと同じ方法で3つの動画を生成して繋げたもの

風景の一貫性も強い。Midjouneyで廃墟イメージの画像を作り、生成したものをつなげたもの。画面内に存在しないものまで、一貫性を維持しつつ描けている。ただし、プロンプトで指定した鳥はオブジェクトサイズのミスが目立つ。音楽はSuno AIを利用

料金はプロ向け、使いこなすには月額95ドル（1万4600円）が必要

　ただ、Runwayは、値段の高さによる敷居の高さが課題としてあります。今後も利用者は限られていくのかもしれません。ポイントを消費して動画を生成する方式なのですが、一番安い月額15ドル（約2200円）のスタンダードプランでもらえるポイントでは、10秒の動画は12回ぐらいしか生成できません。月額35ドル（約5200円）のプロプランでも生成できるのは45回です。1回の生成で約0.8ドルかかっています。当然、生成に失敗することも少なくないので、やり直しをしていると、この回数では一瞬で使い尽くします。

　月額95ドル（約1万4600円）のアンリミテッドプランだと動画生成に制限がなくなるため、使いこなそうと思ったらこのプラン一択になってきます。とはいえ、使い始めると、この料金は決して高くないのかもしれないとも思います。試しに1ヵ月契約してみているのですが、今回の取材のために多用していたこともありますが、2週間あまりで、すでに500回以上生成しており、1回当たりのコストは約0.2ドルにまで下がっています。また、この回数を実現しているのが、Turboの生成速度の速さで、生成開始までの待ち時間もありはするのですが、完了まで2～3分程度なので、他社のサービスの半分以下だと感じます。

　一方で、リップシンクの動画生成機能などを使うとポイントを消費します。7分30秒分のポイントは付与されているものの、ある程度の長い動画を作るとなると、追加ポイントの購入は必要になってくるため、さらにコストがかかります。画像生成サービスに比べると動画生成サービスは高めに設定されている印象があります。処理のコストの差もあると思いますが、映像業界のプロ用途向けの料金設定になっているんだろうなと。

　9月には、大手映画スタジオのライオンズゲートとの提携を発表しており、映画制作への技術応用の展開に向けても動きを見せており、今後はよりプロ用途が強化されてくるのではないかと思われます。

競合と比べてもRunwayがずば抜けている

　1年前、動画生成は、数秒を超えると、ぐちゃぐちゃになるのが当たり前だったのですが、かなりクリアな映像が作れるようになっています。OpenAIの「Sora」は2月の発表時に一貫性が保たれているのが衝撃的でした。しかし、Runwayも、その後を相当追いかけていったんだろうという印象を受けます。現時点では競合と比べても、ずば抜けている状況です。

筆者紹介：新清士（しんきよし）

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』（NHK出版新書）がある。

津波情報気象庁発表

地震情報

もはや実写と間違えるレベル　動画生成AI「Runway」の進化がすごい

破綻なく“10秒動画”が作れる

破綻させず長時間の動画を作る方法も

料金はプロ向け、使いこなすには月額95ドル（1万4600円）が必要

競合と比べてもRunwayがずば抜けている

筆者紹介：新清士（しんきよし）

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed

もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい

破綻なく“10秒動画”が作れる

破綻させず長時間の動画を作る方法も

料金はプロ向け、使いこなすには月額95ドル（1万4600円）が必要

競合と比べてもRunwayがずば抜けている

筆者紹介：新清士（しんきよし）

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed

もはや実写と間違えるレベル　動画生成AI「Runway」の進化がすごい