1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~

Digital PR Platform / 2024年4月12日 0時0分

3.研究の成果
 LLMの高い推論能力を活用し、視覚的に文書を理解する新たな視覚読解技術を世界に先駆けて開発しました(図2)。この実現に向けて本研究では、① 文書画像をLLMの表現に変換可能な新たなアダプタ技術※5の開発および、② 多様な視覚読解タスクを対象とした指示遂行データセットの構築を行いました。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行することが可能となります。例えば、文書を検索・スクリーニングを行う業務、専門文献の読書補助などオフィス作業や日常生活におけるヒトの認知が必要なシーンにおいて、LLMを活用することが可能です。

[画像2]https://digitalpr.jp/simg/2341/86559/700_373_202404111010076617386fc0f13.JPG


4.研究のポイント
 ① 画像中の文字および位置(座標)、画像の特徴を定量的に表現した画像情報、指示テキストを同一空間上にマッピングし、LLMに繋ぐ新たなアダプタ技術を開発しました。図2で示すように、学習時には、モデルパラメータの大部分を占めるLLMや画像エンコーダのパラメータを固定にし、アダプタのみを学習対象にすることで、パラメータ効率の良い学習を実現しています。図3に示すように、本技術のアダプタでは、Transformer※6構造を採用し、学習可能なトークンに対して、相互注意※7では画像特徴との関係性を捉え、自己注意※7では指示テキストや画像中の文字および位置情報との関係性を捉えます。これにより、文書画像のマルチモーダルな特徴をLLMにとって解釈しやすい情報として獲得することができます。


[画像3]https://digitalpr.jp/simg/2341/86559/700_329_202404111010076617386fa4e8c.JPG


 ② 文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとする12種類の視覚読解タスクを、ヒトの指示を基に遂行する世界最大規模の指示遂行データセットを構築しました。
 これらの貢献により、図4で示す様に、未学習のタスク※8、※9においても、目的タスクで学習を行なった教師あり学習モデルの性能やGPT-4(テキスト入力のみ)、画像を理解できるLLMであるLLaVA※10などに匹敵または凌駕する高い性能を達成しました。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください