NTTがLLMで文書画像を視覚的に読解する技術を開発 - tsuzumiに搭載し展開も
マイナビニュース / 2024年4月12日 12時14分
日本電信電話(NTT)は4月12日、LLM(Large Language Models:大規模言語モデル)によって視覚情報も含めて文書を理解する「視覚読解技術」を実現したことを発表した。実験においては、文書画像を提示しながらさまざまな質問への回答が可能なAIの実現可能性も示唆されているという。この成果はNTT版LLMである「tsuzumi」のアダプタ技術として採用される。
従来のLLMの課題
従来の読解技術は、図表中のテキストを抽出しているため文字の見た目やレイアウトなどの資格情報までは処理できない点が課題だった。請求書に関する情報抽出タスクなど任意の個別タスクには対応できない課題もあり、高い性能を出すには目的のタスクごとに一定数のサンプルを用意して学習を行う必要があるため、手間やコストの点で現実的ではない。
そこで同社は、汎用的な言語理解と生成能力を持つLLMをベースとして、任意のタスクのための学習を行わなくても応答できる指示遂行能力を視覚読解モデルで実現することを目的に研究を開始した。
具体的には、テキスト情報しか理解できないLLMに対して、文書画像に含まれる図表などの視覚情報をテキストと融合させて適切に処理させる手法を研究したという。
提案する技術のポイント
研究チームは視覚読解技術の開発に向けて、「文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発」および「多様な視覚読解タスクを対象とした指示遂行データセットの構築」を実施した。
○新たなアダプタ技術
モデルの概要は下図の通り。指示文に基づいて任意の視覚文書理解タスクを実行可能なモデルだ。このモデルは文書画像を与えると、文字読みとりに加えて画像エンコーダによって画像情報を取得する。回答を出力するLLMに情報を渡す前にアダプタで情報の橋渡しを行う仕組み。
モデルの大部分を占める画像エンコーダやLLMのパラメータは固定して、軽量なアダプタ部分のみパラメータを学習するようにしたことで、効率的な学習を実現している。
このアダプタはTransformerを活用して、文書画像に含まれるレイアウトや視覚情報をLLMが処理できる形式に変換するというもの。画像エンコーダの出力に加えて指示テキストや文字情報および文字の位置情報と、学習可能トークンと呼ばれるベクトルを入力すると、LLMの入力に利用可能なトークンが出力される。
これにより、LLMが文書の内容を視覚と言語を融合しながら処理し、任意のタスクを追加学習なしで遂行できるようになったという。例えば、文書を検索してスクリーニングを行う業務や、専門文献の読書補助などオフィス作業や日常生活におけるヒトの認知が必要なシーンにおいても、LLMを活用できるようになるとのことだ。
○データセット
同社が今回の研究で使用したデータセットは、複数ページにまたがる文書をはじめ、請求書やプレゼン資料、Webページなどさまざまな形式を含む。情報抽出やQ&A、キャプションなど12件のタスクに対応するデータを集めたという。なお、このタスク数は従来研究の約4倍に相当するのだという。
これらのデータセットに対して、人の手で5~10件の指示テンプレートを作成。タスクの解き方、モデルに要求する回答形式、クエリと回答候補のそれぞれについてアノテーションを実施している。
研究の成果
今回構築した技術により、未知のタスクにおいても、ChatGPTなどのモデルと比較して上回る性能が発揮できることを確認したそうだ。同社は今後の展望として、作業の自動化をはじめ、ヒトと協働して価値を生み出すようなAIの実現に向けてさらなる技術確立を目指すとしている。
(熊谷知泰)
外部リンク
この記事に関連するニュース
-
リコーが独Natif.aiを買収、AIを活用してドキュメント処理業務の自動化を支援
マイナビニュース / 2024年4月22日 16時3分
-
法人向け生成AIサービス「Tachyon 生成AI」に最新の高性能LLM「Claude 3」と「Gemini」を搭載
PR TIMES / 2024年4月22日 12時15分
-
AIが図表読み取り文章に要約 NTT、企業向け新技術
共同通信 / 2024年4月12日 0時2分
-
LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~
Digital PR Platform / 2024年4月12日 0時0分
-
石山洸がドコモgaccoのCAIOに就任
PR TIMES / 2024年4月4日 16時45分
ランキング
-
1「ギガ 300MB」とは……? 何かがおかしいデータ通信量の珍表記に「違和感」「0.3って書けばよかったのに」などツッコミ続出
ねとらぼ / 2024年4月30日 20時30分
-
2佐野正弘のケータイ業界情報局 第125回 SIMフリーに消極的だったサムスン電子、なぜ「Galaxy S24」で方針を一転させた?
マイナビニュース / 2024年4月30日 11時30分
-
3TVアニメ『わんだふるぷりきゅあ!』、いなばペットフードとのコラボ企画を中止 一連の報道が影響か「まぁ…そうなるよね…」
ねとらぼ / 2024年4月30日 13時15分
-
4【レビュー】Beatsの定番ヘッドホンが刷新! ロスレス再生に対応「Beats Solo 4」を聴く
ASCII.jp / 2024年4月30日 23時0分
-
5アップル「iPhone 16」再び物理ボタン廃止の可能性浮上
ASCII.jp / 2024年4月30日 20時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください