LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~
Digital PR Platform / 2024年4月12日 0時0分
3.研究の成果
LLMの高い推論能力を活用し、視覚的に文書を理解する新たな視覚読解技術を世界に先駆けて開発しました(図2)。この実現に向けて本研究では、① 文書画像をLLMの表現に変換可能な新たなアダプタ技術※5の開発および、② 多様な視覚読解タスクを対象とした指示遂行データセットの構築を行いました。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行することが可能となります。例えば、文書を検索・スクリーニングを行う業務、専門文献の読書補助などオフィス作業や日常生活におけるヒトの認知が必要なシーンにおいて、LLMを活用することが可能です。
[画像2]https://digitalpr.jp/simg/2341/86559/700_373_202404111010076617386fc0f13.JPG
4.研究のポイント
① 画像中の文字および位置(座標)、画像の特徴を定量的に表現した画像情報、指示テキストを同一空間上にマッピングし、LLMに繋ぐ新たなアダプタ技術を開発しました。図2で示すように、学習時には、モデルパラメータの大部分を占めるLLMや画像エンコーダのパラメータを固定にし、アダプタのみを学習対象にすることで、パラメータ効率の良い学習を実現しています。図3に示すように、本技術のアダプタでは、Transformer※6構造を採用し、学習可能なトークンに対して、相互注意※7では画像特徴との関係性を捉え、自己注意※7では指示テキストや画像中の文字および位置情報との関係性を捉えます。これにより、文書画像のマルチモーダルな特徴をLLMにとって解釈しやすい情報として獲得することができます。
[画像3]https://digitalpr.jp/simg/2341/86559/700_329_202404111010076617386fa4e8c.JPG
② 文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとする12種類の視覚読解タスクを、ヒトの指示を基に遂行する世界最大規模の指示遂行データセットを構築しました。
これらの貢献により、図4で示す様に、未学習のタスク※8、※9においても、目的タスクで学習を行なった教師あり学習モデルの性能やGPT-4(テキスト入力のみ)、画像を理解できるLLMであるLLaVA※10などに匹敵または凌駕する高い性能を達成しました。
この記事に関連するニュース
-
ナレッジグラフと大規模言語モデルを融合する研究開発を強化することで、生成AIの信頼性を高め業務活用を加速
PR TIMES / 2024年5月17日 18時15分
-
世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現 ~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~
Digital PR Platform / 2024年5月7日 15時13分
-
連合学習において一部のクライアントに異常や悪意がある場合にも高精度にAIモデルを学習可能な手法を開発 ~LLM tsuzumi の学習への適用やIOWN機能としての実用化を目指す~
Digital PR Platform / 2024年5月7日 15時10分
-
NSSOL、生成AI・LLMを活用した業務自動化を実現するプラットフォーム「Alli LLM App Market」を提供開始
Digital PR Platform / 2024年5月7日 13時57分
-
データ分析の適用範囲を広げるバラバラなデータの回帰分析を世界で初めて実現 ~「万能近似能力」を持つ深層学習によるデータ分析の適用領域の拡大~
Digital PR Platform / 2024年4月26日 15時0分
ランキング
-
1日本円の価値崩壊へのカウントダウン…国内全上場企業株「5割」を保有する“大筆頭株主”が打った「危険な一手」の行方に注目【経済のプロが警鐘】
THE GOLD ONLINE(ゴールドオンライン) / 2024年5月21日 8時15分
-
2「好きに生きてきた代償だな…」月収〈16万円〉72歳の日雇いバイト、年金〈月1万円未満〉の現実
THE GOLD ONLINE(ゴールドオンライン) / 2024年5月21日 5時15分
-
3NY金先物、最高値更新 中東情勢不安で買い広がる
共同通信 / 2024年5月21日 5時15分
-
4東海道線「107年ぶり新駅」いよいよ着工へ!駅周辺も大化け?工事の施行協定を締結 JR東日本
乗りものニュース / 2024年5月21日 14時34分
-
5ドライブスルー中古車査定が登場…強みは「スピードと会話の短縮」
レスポンス / 2024年5月20日 19時30分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください