生成AI向けPDF抽出サービス「1extract」の提供開始、ファイマテクノロジー
マイナビニュース / 2024年7月26日 17時26分
ファイマテクノロジーは7月26日、生成AI向けPDF抽出サービス「1extract(ワンエクストラクト)」の提供を開始したことを発表した。
○「1extract」の概要
同サービスはAIや機会学習の分野においてPDF活用の需要は高まっているものの、「PDFから正確にテキストデータが読み込まれない」「画像が入っているPDFデータだと、本文と画像のテキストが混在して読み込まれてしまう」といった顧客の声をもとに開発。
2021年にリリースした論文翻訳AI「1paper」の論文PDF抽出エンジンを、1extractとしてサービス化したものとなっている。
同サービスを活用したテキストデータを用いることで、生成AI活用型のチャットボットなどが社内にあるPDF文書や論文PDFなどに基づいて質問応答することが可能になる。
1paperで培ったPDFデータ抽出エンジンにより、文書構造を踏まえて正確に情報抽出ができるため、書かれた事実のみに基づいて正確に回答する生成AI活用システムを構築できる。
○「1extract」活用事例
1extractでは「PDFファイルからテキスト情報の正確な抽出や、文字情報が埋め込まれていないスキャンデータでも事前のOCR処理なく情報の抽出が可能。
また、文字データをコピー&ペーストできない特殊なPDFファイルの対応に加え、認識した文字データの改行・改ページ部分も自動で文章を連結してコンテクストを崩さずに抽出結果の出力、原文通り残したい図や式はそのままに画像として出力することなどができるという。
活用事例としては、正確なテキストデータを用いた生成AI活用のチャットシステムにおける回答精度の改善、特許。論文などの技術文書を用いた生成AIによる新しい業務プロセスの構築、医学、生命科学、物理学、化学などの研究分野における新しい知の探索方法の確立といったものがある。
同社は、今後、国産LLM(大規模言語モデル)開発を行う多くの研究者や開発者の力になり、日本企業の研究力向上に貢献したい考え。
(森歩美)
外部リンク
この記事に関連するニュース
-
PDFデータから正確にテキストデータを抽出、お客様の声から生まれた生成AI向け抽出サービス 「1extract」 提供開始
PR TIMES / 2024年7月26日 8時0分
-
「Tachyon 生成AI」に複数LLMの同時出力を可能にする「モデル比較機能」を搭載
PR TIMES / 2024年7月25日 11時45分
-
「Tachyon 生成AI」に最新情報を用いて回答を生成するWeb検索機能を搭載
PR TIMES / 2024年7月12日 13時40分
-
モルフォAIソリューションズ、国立情報学研究所から学術論文用のAI-OCR開発を受託
PR TIMES / 2024年7月10日 12時15分
-
はたらく人に寄り添うAIソリューション「RICOH デジタルバディ」「RICOH Chatbot Service デジタルバディ」の提供を開始
Digital PR Platform / 2024年6月28日 13時0分
ランキング
-
1スマホの充電でやってはいけないこと 夏に気を付けたいNG行為は?
ITmedia Mobile / 2024年7月26日 10時5分
-
2「これが生えたら庭終了」 プロも降参する“何をやっても全部ムダな最恐雑草”の正体が400万再生「ほんとこれ厄介」「土ごと変えないと不可能」
ねとらぼ / 2024年7月25日 21時30分
-
3「ここまで変わるとは」 寺の僧侶が“すだれ”の写真を投稿→“裏側から見た光景”に衝撃 「これはすごい」
ねとらぼ / 2024年7月26日 8時0分
-
4知っているとMacがより快適になる便利な5つの小技|今さら聞けないMacの便利テク
&GP / 2024年7月25日 21時0分
-
5ミュートしているのにWEBの広告で音が出ます!? - いまさら聞けないiPhoneのなぜ
マイナビニュース / 2024年7月26日 11時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください