1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

LLMによる視覚読解技術を確立 ~グラフィカルな文書を理解する「tsuzumi」実現に向けて~

Digital PR Platform / 2024年4月12日 0時0分


[画像4]https://digitalpr.jp/simg/2341/86559/700_310_202404111010066617386eab6d7.JPG

5.研究協力の状況
 本成果は、2023年度における東北大学 データ駆動科学・AI教育研究センター 鈴木潤 教授との共同研究の成果となります。

6.今後の展開
 本技術は、視覚表現された文書を基に質問応答を行う技術やWeb検索など産業上重要なサービスの発展に貢献します。作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立をめざします。

<用語解説>
※1 tsuzumi
NTT版大規模言語モデル。日本語の処理性能を重視し、独自の大量のテキストデータを使って学習された言語モデル。詳細は、報道発表をご参照ください。
URL: https://www.rd.ntt/research/LLM_tsuzumi.html

※2 AAAI (Annual AAAI Conference on Artificial Intelligence)
人工知能に関するトップレベルの国際会議
URL: https://aaai.org/aaai-conference/

※3 言語処理学会年次大会
日本国内において自然言語処理を扱う最大規模の学会
URL: https://www.anlp.jp/nlp2024/

※4 視覚読解技術
文書を画像として捉え、視覚情報から理解し読解を行う技術。

※5 アダプタ技術
画像エンコーダとLLMの橋渡しとなるモジュール。

※6 Transformer
入力シーケンスを出力シーケンスに変換または変更するニューラルネットワークアーキテクチャの一種。

※7 相互注意と自己注意
二つの入力系列が与えられた時に、どこの入力箇所に注意すべきかを計算する機構。与えられる二つの系列が同一の場合、自己注意。そうでない場合は、相互注意と呼ばれる。

※8 InfographicVQA
インフォグラフィック(情報、データ、知識を視覚的に表現した文書)に対する質問応答タスク
URL: https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=3

※9 SlideVQA
複数スライド画像に対する質問応答タスク
URL: https://github.com/nttmdlab-nlp/SlideVQA

※10 LLaVA
視覚と言語を統合した大規模モデル
URL: https://llava-vl.github.io/



この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください