1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

生成AI向けPDF抽出サービス「1extract」の提供開始、ファイマテクノロジー

マイナビニュース / 2024年7月26日 17時26分

画像提供:マイナビニュース

ファイマテクノロジーは7月26日、生成AI向けPDF抽出サービス「1extract(ワンエクストラクト)」の提供を開始したことを発表した。
○「1extract」の概要

同サービスはAIや機会学習の分野においてPDF活用の需要は高まっているものの、「PDFから正確にテキストデータが読み込まれない」「画像が入っているPDFデータだと、本文と画像のテキストが混在して読み込まれてしまう」といった顧客の声をもとに開発。

2021年にリリースした論文翻訳AI「1paper」の論文PDF抽出エンジンを、1extractとしてサービス化したものとなっている。

同サービスを活用したテキストデータを用いることで、生成AI活用型のチャットボットなどが社内にあるPDF文書や論文PDFなどに基づいて質問応答することが可能になる。

1paperで培ったPDFデータ抽出エンジンにより、文書構造を踏まえて正確に情報抽出ができるため、書かれた事実のみに基づいて正確に回答する生成AI活用システムを構築できる。

○「1extract」活用事例

1extractでは「PDFファイルからテキスト情報の正確な抽出や、文字情報が埋め込まれていないスキャンデータでも事前のOCR処理なく情報の抽出が可能。

また、文字データをコピー&ペーストできない特殊なPDFファイルの対応に加え、認識した文字データの改行・改ページ部分も自動で文章を連結してコンテクストを崩さずに抽出結果の出力、原文通り残したい図や式はそのままに画像として出力することなどができるという。

活用事例としては、正確なテキストデータを用いた生成AI活用のチャットシステムにおける回答精度の改善、特許。論文などの技術文書を用いた生成AIによる新しい業務プロセスの構築、医学、生命科学、物理学、化学などの研究分野における新しい知の探索方法の確立といったものがある。

同社は、今後、国産LLM(大規模言語モデル)開発を行う多くの研究者や開発者の力になり、日本企業の研究力向上に貢献したい考え。
(森歩美)

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください