AIに難しい「時間的な動き」の理解、動画-自然言語モデルで目指す突破口
ASCII.jp / 2024年6月13日 10時0分
- 研究実施者:塩原 楓(東京大学大学院)
- 研究テーマ:動画と自然言語を繋ぐ基盤モデルの創成
- 担当PM:牛久祥孝(オムロンサイニックエックス株式会社プリンシパルインベスティゲーター)
動画生成AIが難しい理由
ChatGPTやStable Diffusionに代表される生成AIは、公開からわずか1年半ほどの間で急速に進化し、さまざまなサービスに活用されるようになった。生成AIは、大規模な事前学習済みモデル(基盤モデル)がベースとなっている。文章生成AIでは、LLM(Large Language Models:大規模言語モデル)と呼ばれる基盤モデルが、画像生成AIでは、画像と言語の対応関係を学習した画像-言語基盤モデルが使われている。例えば、OpenAIが開発した「CLIP」は画像とテキストの内容の類似性を評価できる画像-言語基盤モデルだ。学習済みのCLIPに猫の画像を与えると、「cat」が含まれるテキストと内容が類似していると判断してくれる。CLIPは画像と言語の意味的な関係性を理解したモデルとして、さまざまな画像認識AIや画像生成AIに利用されている。
動画でも同じような仕組みはできないのだろうか。画像-言語基盤モデルを動画-言語基盤モデルに拡張しようとする試みは世界中で行われているものの、現状ではあまりうまくいっていないという。「動画と自然言語を繋ぐ基盤モデルの創成」という研究テーマで覚醒プロジェクトに採択された東京大学大学院博士課程の塩原 楓さんは、現行の動画-言語基盤モデルの問題点についてこう説明する。
「動画を動画として認識するのは、とても難しい。画像認識であれば、どのようなフィルターを使ったら犬と猫を分類できるか、ということをデータから学習していく仕組みになっています。これまで、画像では縦方向と横方向の2次元のフィルターをかけていたので、動画ではそれに加えて時間方向にもフィルターをかければいいのではないか、というシンプルで分かりやすい発想が試されてきました。ところが、この方法ではうまく認識できません。実際にはフレーム間で物がどう動くかという時間的情報を学習せず、各フレームに何が写っているかという空間的情報だけを学習しているからです。ニューラルネットワークは基本的に最小限の努力しかしないので、訓練データとして与えたデータの分類精度が上がればいいというだけなら、動画の時間方向をきちんと見てくれない。だから、動画として未知のデータが来たときに、うまくそれを認識するのは難しいのが現状です」(塩原さん)
真に「動き」を理解した動画-言語基盤モデル
そこで塩原さんは、真に「動き」を理解した動画-言語基盤モデルの開発に取り組んでいる。実現すれば、テキストからの動画生成といった、時間的表現能力が求められる難易度の高いタスクが実行できる。加えて、人の行動予測や、動画から現地の状況を高精度に認識できる災害用自立型ロボットなどへの応用も考えられる。
塩原さんが提案している基盤モデルは、動画をエンコードするVideo Encoderと自然言語をエンコードするText Encoderで構成されており、動画と対応するキャプションの特徴量ベクトルを近づける対照学習を行なう、CLIPと似た構造である。ただし、現行の基盤モデルで用いられているVideo Encoderとは異なり、時間的情報(隣接フレームで物体や背景がどう動いたか)によりフォーカスした構造を提案し、動画の認識・理解を高める狙いがある。
ただし、時間的情報の表現を獲得するためのVideo Encoderが実現できても、それだけでは不十分だと塩原さんは言う。
「訓練のためのデータセットがとても重要だと思います。これまで私が取り組んできた顔認識などの研究では、データを変えることでうまくいったケースもありました。データの力は大きいと思います。要は、時間的情報を学習するのに適したデータセットを与えて、モデルを賢くしようということです。動画を新たに撮影するのは大変なので、対応するキャプションを工夫することで、時間的情報を効率的に学習できるようなデータセットを作ります。これはChatGPTのようなLLMを使って、ある程度自動化できる目処が立っています」
例えば、バスケットボールをドリブルしている動画があったときに、「ドリブルしているか座っているかの二択問題」よりも「ドリブルしているかシュートしているかの二択問題」の方が答えるのが難しく、モデルにとってより学習しがいのある問題になる。
「このような細かい動きの違いを訓練することが重要ではないかと考えています」
大容量の動画データを扱うためABCIを活用
塩原さんの覚醒プロジェクトにおける目標は、「動画をよく認識できるモデルを作る」ということだ。「覚醒」の研究実施期間は2024年7月までだが、まずは既存のモデルよりも高い精度で動画を認識できるモデルを作り、最終的にはその動画認識モデルを広く公開して、さまざまな人に使ってもらうことを目指している。
「研究成果は論文としてまとめて、年末にはコンピュータービジョンの国際学会に投稿したいと考えています」
覚醒プロジェクトの研究実施者には、産総研が所有するAI開発向けのスーパーコンピューター「ABCI(AI橋渡しクラウド)」を利用できるメリットがある。塩原さんの研究では大容量のデータを扱うため、モデルの学習に多くの計算資源が必要だ。研究を進める上で、ABCIの利用は必要不可欠だと塩原さんは話す。
「真に『動き」を理解するVideo Encoderの構築フェーズでは、ABCIの計算リソースのうち、最大8枚のA100/V100を用いて開発する予定です。構築後の基盤モデルの学習フェーズでは、さまざまな設定で基盤モデルを並列に学習させる必要があるため、最大64枚のA100を使いたいと考えています」
技術が実際に社会実装されるようになることが目標
最後に、塩原さんに将来的な目標についてたずねてみた。
「これまで大学では主に人物画像生成やディープフェイクの検出について研究してきましたが、そうした技術をどう実社会に応用していくかにも非常に興味があります。世の中にはいろいろな研究がありますが、どんなにすごいものができても研究で止まってしまうことが多いと感じています。
技術を社会実装することは研究とはまったく違う難しさがあると思いますし、特にコンピュータービジョンの分野では難しいことだと認識しています。社会実装だけで研究の価値を測ることはできませんが、いかに社会に良い影響を与える研究ができるかというのは今後考えていきたいことの一つです」
■覚醒プロジェクト 公式Webサイト http://kakusei.aist.go.jp/
この記事に関連するニュース
-
朝日新聞社・東京科学大学・産総研グループによる産学連携
PR TIMES / 2024年11月16日 21時40分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
-
国内生成AI開発プロジェクト「GENIAC」の第2期に採択されたコトバテクノロジーズ、最先端の日本語音声生成モデルのプレイグランド、「Kotoba SpeechGen」β版をリリース
PR TIMES / 2024年10月29日 10時45分
-
押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
-
企業の膨大な内部データを学習可能とした独自大規模言語モデル(LLM)の開発に成功
PR TIMES / 2024年10月24日 13時15分
ランキング
-
1330円で買ったジャンクのファミコンをよく見ると……!? まさかのレアものにゲームファン興奮「押すと戻らないやつだ」
ねとらぼ / 2024年11月16日 8時30分
-
2発熱する「iPhone 12 mini」のバッテリー、よく見ると膨張……街中の修理店で交換した結果は?
ITmedia Mobile / 2024年11月17日 10時5分
-
3「完全にセーラームーンの世界」 三日月とスカイツリーが織りなす“絶景”…… この世のものとは思えない美しさに驚異の“68万いいね”
ねとらぼ / 2024年11月17日 21時30分
-
4楽天市場、2024年11月21日からBLACK FRIDAYを開催
ポイ探ニュース / 2024年11月17日 15時57分
-
5「全部が完璧」 水辺に女神が降臨した“奇跡の瞬間”に「凄すぎて既に神」「綺麗すぎて言葉取れたわ」
ねとらぼ / 2024年11月17日 12時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください