AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口

ASCII.jp / 2024年6月13日 10時0分

研究実施者：塩原楓（東京大学大学院）
研究テーマ：動画と自然言語を繋ぐ基盤モデルの創成
担当PM：牛久祥孝（オムロンサイニックエックス株式会社プリンシパルインベスティゲーター）

動画生成AIが難しい理由

　ChatGPTやStable Diffusionに代表される生成AIは、公開からわずか1年半ほどの間で急速に進化し、さまざまなサービスに活用されるようになった。生成AIは、大規模な事前学習済みモデル（基盤モデル）がベースとなっている。文章生成AIでは、LLM（Large Language Models：大規模言語モデル）と呼ばれる基盤モデルが、画像生成AIでは、画像と言語の対応関係を学習した画像-言語基盤モデルが使われている。例えば、OpenAIが開発した「CLIP」は画像とテキストの内容の類似性を評価できる画像-言語基盤モデルだ。学習済みのCLIPに猫の画像を与えると、「cat」が含まれるテキストと内容が類似していると判断してくれる。CLIPは画像と言語の意味的な関係性を理解したモデルとして、さまざまな画像認識AIや画像生成AIに利用されている。

　動画でも同じような仕組みはできないのだろうか。画像-言語基盤モデルを動画-言語基盤モデルに拡張しようとする試みは世界中で行われているものの、現状ではあまりうまくいっていないという。「動画と自然言語を繋ぐ基盤モデルの創成」という研究テーマで覚醒プロジェクトに採択された東京大学大学院博士課程の塩原楓さんは、現行の動画-言語基盤モデルの問題点についてこう説明する。

「動画を動画として認識するのは、とても難しい。画像認識であれば、どのようなフィルターを使ったら犬と猫を分類できるか、ということをデータから学習していく仕組みになっています。これまで、画像では縦方向と横方向の2次元のフィルターをかけていたので、動画ではそれに加えて時間方向にもフィルターをかければいいのではないか、というシンプルで分かりやすい発想が試されてきました。ところが、この方法ではうまく認識できません。実際にはフレーム間で物がどう動くかという時間的情報を学習せず、各フレームに何が写っているかという空間的情報だけを学習しているからです。ニューラルネットワークは基本的に最小限の努力しかしないので、訓練データとして与えたデータの分類精度が上がればいいというだけなら、動画の時間方向をきちんと見てくれない。だから、動画として未知のデータが来たときに、うまくそれを認識するのは難しいのが現状です」（塩原さん）

真に「動き」を理解した動画-言語基盤モデル

　そこで塩原さんは、真に「動き」を理解した動画-言語基盤モデルの開発に取り組んでいる。実現すれば、テキストからの動画生成といった、時間的表現能力が求められる難易度の高いタスクが実行できる。加えて、人の行動予測や、動画から現地の状況を高精度に認識できる災害用自立型ロボットなどへの応用も考えられる。

　塩原さんが提案している基盤モデルは、動画をエンコードするVideo Encoderと自然言語をエンコードするText Encoderで構成されており、動画と対応するキャプションの特徴量ベクトルを近づける対照学習を行なう、CLIPと似た構造である。ただし、現行の基盤モデルで用いられているVideo Encoderとは異なり、時間的情報（隣接フレームで物体や背景がどう動いたか）によりフォーカスした構造を提案し、動画の認識・理解を高める狙いがある。

　ただし、時間的情報の表現を獲得するためのVideo Encoderが実現できても、それだけでは不十分だと塩原さんは言う。

「訓練のためのデータセットがとても重要だと思います。これまで私が取り組んできた顔認識などの研究では、データを変えることでうまくいったケースもありました。データの力は大きいと思います。要は、時間的情報を学習するのに適したデータセットを与えて、モデルを賢くしようということです。動画を新たに撮影するのは大変なので、対応するキャプションを工夫することで、時間的情報を効率的に学習できるようなデータセットを作ります。これはChatGPTのようなLLMを使って、ある程度自動化できる目処が立っています」

　例えば、バスケットボールをドリブルしている動画があったときに、「ドリブルしているか座っているかの二択問題」よりも「ドリブルしているかシュートしているかの二択問題」の方が答えるのが難しく、モデルにとってより学習しがいのある問題になる。

「このような細かい動きの違いを訓練することが重要ではないかと考えています」

大容量の動画データを扱うためABCIを活用

　塩原さんの覚醒プロジェクトにおける目標は、「動画をよく認識できるモデルを作る」ということだ。「覚醒」の研究実施期間は2024年7月までだが、まずは既存のモデルよりも高い精度で動画を認識できるモデルを作り、最終的にはその動画認識モデルを広く公開して、さまざまな人に使ってもらうことを目指している。

「研究成果は論文としてまとめて、年末にはコンピュータービジョンの国際学会に投稿したいと考えています」

　覚醒プロジェクトの研究実施者には、産総研が所有するAI開発向けのスーパーコンピューター「ABCI（AI橋渡しクラウド）」を利用できるメリットがある。塩原さんの研究では大容量のデータを扱うため、モデルの学習に多くの計算資源が必要だ。研究を進める上で、ABCIの利用は必要不可欠だと塩原さんは話す。

「真に『動き」を理解するVideo Encoderの構築フェーズでは、ABCIの計算リソースのうち、最大8枚のA100/V100を用いて開発する予定です。構築後の基盤モデルの学習フェーズでは、さまざまな設定で基盤モデルを並列に学習させる必要があるため、最大64枚のA100を使いたいと考えています」

技術が実際に社会実装されるようになることが目標

　最後に、塩原さんに将来的な目標についてたずねてみた。

「これまで大学では主に人物画像生成やディープフェイクの検出について研究してきましたが、そうした技術をどう実社会に応用していくかにも非常に興味があります。世の中にはいろいろな研究がありますが、どんなにすごいものができても研究で止まってしまうことが多いと感じています。

　技術を社会実装することは研究とはまったく違う難しさがあると思いますし、特にコンピュータービジョンの分野では難しいことだと認識しています。社会実装だけで研究の価値を測ることはできませんが、いかに社会に良い影響を与える研究ができるかというのは今後考えていきたいことの一つです」

■覚醒プロジェクト公式Webサイト http://kakusei.aist.go.jp/

津波情報気象庁発表

地震情報

AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口

動画生成AIが難しい理由

真に「動き」を理解した動画-言語基盤モデル

大容量の動画データを扱うためABCIを活用

技術が実際に社会実装されるようになることが目標

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

ITトピックス ITトピックスFeed