LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~
Digital PR Platform / 2024年4月12日 0時0分
日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、大規模言語モデル(LLM)によって文書を視覚情報も含めて理解する視覚読解技術を実現しました。実験において、文書画像を提示しながら、あらゆる質問への回答を行う人工知能(AI)の実現への可能性を示唆する結果が得られており、デジタルトランスフォーメーション(DX)におけるコア技術として期待されます。
なお、本成果はNTT版大規模言語モデル「tsuzumi※1」のアダプタ技術として採用・導入されております。本成果は、LLMベースの視覚文書読解に関する具体的な方法論を示した世界初の論文として、2024年2月20日~2月27日にカナダ・バンクーバーで開催されたAI分野における最高峰の国際会議であるThe 38th Annual AAAI Conference on Artificial Intelligence※2 (AAAI2024、採択率23.8%) において発表されました。また、2024年3月11日~3月15日に日本・神戸で開催された国内最大規模の自然言語処理に関する研究を扱う会議である自然言語処理学会第30回年次大会※3(NLP2024)にて、優秀賞(投稿論文中 上位2%)を受賞しました。
1.背景
我々が扱う文書はテキストや視覚要素(アイコンや図表など)を含み、多様な種類・形式が存在します。こうした実世界の文書を読解し理解する技術の実現は、AI分野における重要課題の一つです。一方で、LLMを始めとする現在のAIは、人間の読解能力を超えるなど大きく発展してきましたが、文書中のテキスト情報しか理解できない限界がありました。この問題に対して、NTTではヒトの情報理解と同様に、文書を視覚情報から理解する技術として、図1で示す「視覚読解技術※4」を提唱し、本技術の実現をめざして研究開発を進めております。
[画像1]https://digitalpr.jp/simg/2341/86559/700_310_202404111010076617386fbc45e.JPG
2. 研究の課題
これまでの視覚読解技術は任意のタスク(例えば、請求書に関する情報抽出タスク)に対して対応することができませんでした。目的のタスクごとに一定数のサンプルを用意して学習を行わない限り、所望のタスクで高い性能を出すことは難しい状況でした。そこで本研究は、汎用な言語理解・生成能力を持つLLMをベースとして、任意のタスク用の学習を行わなくても応答できる、高い指示遂行能力を視覚読解モデルで実現することを目指しました。具体的には、テキスト情報しか理解することができないLLMに対して、どのように文書画像に含まれる図表などの視覚情報をテキストと融合させてLLMに理解させるか、が本研究で解決を目指した課題となります。
この記事に関連するニュース
-
世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現 ~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~
Digital PR Platform / 2024年5月7日 15時13分
-
連合学習において一部のクライアントに異常や悪意がある場合にも高精度にAIモデルを学習可能な手法を開発 ~LLM tsuzumi の学習への適用やIOWN機能としての実用化を目指す~
Digital PR Platform / 2024年5月7日 15時10分
-
データ分析の適用範囲を広げるバラバラなデータの回帰分析を世界で初めて実現 ~「万能近似能力」を持つ深層学習によるデータ分析の適用領域の拡大~
Digital PR Platform / 2024年4月26日 15時0分
-
株式会社FIXER、生成AIプラットフォーム「GaiXer」に Anthropic社の最上位LLM「Claude 3 Opus」を搭載
PR TIMES / 2024年4月19日 19時15分
-
目先のことを過大評価してしまう人間の行動を分析し最適な介入を導出する数理モデルを開発 ~シミュレーション実験の計算コストをかけずに、個人の目標達成の成功を支援~
Digital PR Platform / 2024年4月19日 15時7分
ランキング
-
1キャベツ高騰 1玉1000円!? スーパーからキャベツ消えた、春キャベツ一体どこへ?【Nスタ解説】
TBS NEWS DIG Powered by JNN / 2024年5月16日 21時20分
-
2インドネシアで3億円過大計上か トヨタ系部品メーカー
共同通信 / 2024年5月16日 22時32分
-
3クルマの価格はまだまだ上がる? 下がる要素がとても少ないワケ
ITmedia ビジネスオンライン / 2024年5月17日 6時5分
-
4NYダウ、初の4万ドルの大台突破…インフレ長期化懸念和らぎ歴史的な高値水準に
読売新聞 / 2024年5月17日 1時0分
-
5大阪名物「551蓬莱」不正転売に注意促す「責任を負いかねます」 公式ショップや目印を案内【全文】
ORICON NEWS / 2024年5月16日 18時52分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください