例年恒例となっているAdobeが主催するクリエイティブの「祭典Adobe MAX 2024」が、10月14日から16日の間、米国マイアミにて開催された。2023年は米国に続いて日本でも11月、なんとInter BEE期間中の中日に開催されて幕張と東京ビッグサイト間をウロウロする羽目になったところだが、今回は日本での開催は24年2月の予定になっている。
動画関係者からみたホットな話題は、Adobe Premiere Proのβ版に搭載されたAI生成拡張機能だろう。24年4月には、AIを活用した動画関連の機能として、カットの続きを作る、不要なオブジェクトを消す、Bロール(インサートカット)を生成するといった技術が発表されていたところだが、このうちの「カットの続きを作る」機能が、Premiere Proのβ版に実装された。すでに現在配布中のβ版、バージョン25.1.0(ビルド47)には搭載されているということで、いろんなパターンで実験してみた。
●自然画に対する生成
現在の画像・動画生成系AIでは、言語によるコマンドの入力によって生成させるという方法がとられている。それが一番柔軟に対応できる方法だからだろう。だがどういう結果となっても構わない自由生成に対し、カットの続きを生成するといった特定の生成では、条件を細かく指定しなければならない。こうした条件を文章で入力するのはなかなか困難なので、そこはUIでカバーする必要がある。
Premiere Proがとったアプローチは、タイムライン上に配置したクリップの最終地点に対して、生成拡張ツールを使って後ろ側にドラッグするという方法である。これだけで、そこまでのカットの状況を参照し、この先どうなるべきかを考えて続きを生成してくれる。
ただ現在のβ版で生成可能な動画にはいくつか条件がある。解像度が720pもしくは1080pであること、フレームレートが30fpsであること、参照するカットの長さは3秒以上あること、音声は最大2chまで、生成される動画の長さは2秒までとなっている。ただこうした条件は、正規版になるにつれて徐々に緩和されていくだろう。
●さまざまな動画の「続き」を生成してみた
まずは望遠で撮影したヨットの動画の続きを生成してみた。このカットは、本当にこれ以上先がない動画である。どこからがAI生成なのか分かりやすくするために、テロップを入れてある。生成にかかかる時間は、さまざまな条件によって変動はあるとは思うが、筆者がテストした限りではだいたい2分程度で完了するようだ。
動画を流しで見ると、AI生成部分は若干フォーカスが甘い感じがするものの、一見違和感がないように見える。ただよく見ると、波のパターンが単純な横線になっている。フォーカスが甘くなったように感じるのは、画面の大部分を占める海面のディテールが減ったからだろう。またヨットの操縦者の頭がなくなってしまうのは、AIがこの部分を人間だと認識できなかったからだろう。
その一方で、手前の岩のディテールはほとんど変化がない。またヨットの形状にも変化はない。固定されたディテールや形状には強いという事だろう。動画生成のポイントは、画面の中で人がどこに注目しているか、である。そのポイントのディテールを外さない限り、多くの人は他の部分に違いがあっても、気が付かない。
では、アウトフォーカスされた部分はどのように生成されるのか。手前の花にフォーカスが合い、後ろがボケている動画の続きを生成してみた。
これも手前の花やベンチの手すりなどのディテールが変わらないため、ほとんど生成した部分との違いが分からない。被写界深度によってボケたテーブルや草むらのディテールも変わっていない。こうしたディテールが分からないぼんやりとした部分も、うまく生成できるようだ。
奥に見える男性の歩きも自然で、最後にちょっと駆け出すようなモーションも感じられるところだが、この部分がオーバーラップの「のりしろ」になるとすれば、分からなくなるだろう。若干コントラストが強くなっていく傾向も見られるが、AIが実写より適正な露出へ向かおうとしているのは、興味深いところだ。
●人の動きはどう生成されるか?
こうしたフィラーのような風景カットの生成は、編集においてはそれほど喫緊の問題にはなりにくい。どうしてもそのカットでなければならないような、明確な動機が薄いからだ。
一方人物が写っているカットの場合は、他に代わるものがなく、この続きが欲しいという動機が強い。実際に多く使用されるのは、人物の動きに対してであろう。
そこで女性が1回ターンする動画を途中でカットし、生成AIがどのようにこの動画の続きを作るのかを観察してみた。このカットにはオリジナルの続きがあるが、あえてターンの途中でカットして、続きを生成させるという方法をとった。
生成された動画を見てみると、人がターンするというアクションをAIが理解しており、その続きが生成されている。ただ、2回転するとは思わなかった。実際の動画と比較してみると、面白い。AIからすれば、1回転するだけという動きに、意味が見いだせなかったのだろう。
実物と比較すると、背後の風景はかなり解像感が落ちる。このあたりは生成できないというより、背景に対してどれぐらいの精度でどれぐらいのマシンパワーを裂くのが現実的なのかという、アルゴリズムの問題だろう。
なおオリジナルの動画は、150%のハイフレーム撮影である。こうしたハイフレーム動画に対しても生成できるのか試してみたところ、問題なく生成できるようだ。
トレーナーのお腹の部分が、遠心力によって膨らんでいるが、これは変というよりも、そういうこともあり得ると考えさせられる。
将来的には、モデルが着用している服の柄などから類推して、市販されている服のデータを参照し、その伸縮率を取得してくるということも可能になるかもしれない。
では逆にタイムラプス撮影したものはどうなるのか。こちらは途中でガクンと解像度が落ちるのでどこからがAIなのか分かりやすい。映像的に速く流れ去る地面や草むらのディテールを再現するのは難しそうだが、空の雲はほとんど変わらない。このあたりも、どれぐらいのマシンパワーを使ってディテールを再現するかの閾値の問題のように見える。
ただこの動画の見どころは、参照可能な最終フレームの画像から、このさき道が2又に分かれており、そのどちらかに進むはずだという推測ができている点である。本物の映像は左側に進むのだが、AIはおそらく映像の傾きから、右側に進むだろうと推測したというわけだ。この判断は、理にかなっている。
●編集に必要なAI生成とは何か
AI生成の最初のステップとして、映像の続きを作るという機能が最初にフィーチャーされたわけだが、これは比較的実現可能性が高いからという理由だろう。
その一方で、この機能がどれぐらい有用なのかという点では、評価が分かれるところだ。筆者が40年に及ぶ映像編集者生活において、本当にカットの長さが少し足りなくて困ったという経験がどれぐらいあるのかと言えば、実際にはそうした機会はほとんどない。足りないのがあと数フレームであれば、分からないぐらいの速度でスピードダウンするという方法も使えるわけで、既存の技術でどうにかしてきた。
1秒も2秒も足りないのであれば、それはそんなところでカメラを止めるヤツが悪いという話になる。撮影者も自分なのであれば自分を責めるしかないが、プロのカメラマンであれば、必要なカットの数秒前から数秒後まで、のりしろ部分やステカット部分まで含めて撮影するというのは、「基本のキ」である。
アクションカメラなど、途中でクラッシュして電源が落ちてしまった場合も考えられるが、そうした映像の価値は、本当にそうなった「真実性」にある。後半は生成AIですみたいなことがアリなコンテンツは、映画などフィクションの制作に限られる。
今後、映像編集にあったらいいなと思える生成AIは、通常撮影からハイスピード撮影したようなスローモーション生成だろう。実際、昨年のInter BEEでは、AWSがAIを使ってスーパースローモーションを作るというデモを行った。全ての映像がスーパースローにできるのならば、映像の世界は大きく変わる可能性がある。
現時点でもAI動画生成をコンテンツの中に使うにはまだ課題は多いところだが、存在しない絵を作る機能はそれほど求められていない。むしろ今ある映像の加工精度の向上や、手作業の軽減といったところが重要視される。見たことない絵を作ってくれるのはアマチュアは大喜びだが、動画のマスク切りやクロマキーのカラーマッチングを手伝ってくれた方がプロは助かるわけである。AIは絵なんか描いてないでオレの確定申告手伝ってくれ、みたいな話と似ている。
人がやって欲しいことをどう実現するか。そこがクリエイティブツールメーカーがAIを使う、一番の使命だろう。