LINE、OCRで国立国会図書館の資料247万点をテキスト化。昭和前期以前の資料にも対応
Techable / 2022年9月8日 14時0分
LINE株式会社・AIカンパニーは、新開発のOCRを活用し、国立国会図書館が保有するデジタル化資料247万点をテキストデータ化しました。
高精度OCRでも古い資料のテキスト化は難しい同社は、書類・画像の文字情報をテキストデータへ変換するサービス「CLOVA OCR」を提供中。同サービスはさまざまな書式・文字形状の読み取りや多言語・専門用語の認識を高精度で実行できることを評価され、2019の国際会議ICDARにて4分野で世界No.1を獲得しました。
今回は、国立国会図書館のデジタル化資料をOCRでテキスト化するプロジェクトを受託。しかし、昭和前期以前の資料が多く、現代の文章に最適化された既存のOCRでは精度に不安があったといいます。
そこで、既存のCLOVA OCRをベースに同プロジェクト用OCRモデルを開発しました。
昭和前期以前の資料に対応したOCRを開発新たに開発されたOCRは、文字サイズや行間のばらつき、インク汚れなどのノイズ、現代とは異なる言葉・記号の用法、右読み文章などに対応。これにより、昭和前期以前の資料を認識できるようになりました。
このOCRを活用し、デジタル化資料247万点(画像数2億2300万)をテキストデータ化。国立国会図書館の文字認識性能評価において、96%の項目で目標値を上回る結果となりました。なお、ベースとなったOCRの目標値達成率は約64%です。
成果物の一部を提供中国立国会図書館は、同プロジェクトにおける成果物の一部を実験サービスなどの形で提供しています。
たとえば、「次世代デジタルライブラリー」がそのひとつ。同館がデジタルコレクションで提供している資料のなかから、著作権保護期間が満了した図書約28万点について、OCRが生成した全文テキストから検索できます。
また、次世代デジタルライブラリーと同じ図書約28万点に出現する単語・フレーズの頻度を出版年代ごとに可視化・列挙する「NDL Ngram Viewer」も提供中です。
このほか、同プロジェクトのOCR対応字種(2万3026文字)の一覧や、OCR学習用データセットのうち著作権保護期間が満了した資料から作成されたデータセットを公開しています。
PR TIMES
LINE株式会社
「次世代デジタルライブラリー」
「NDL Ngram Viewer」
(文・Higuchi)
外部リンク
この記事に関連するニュース
-
アライン株式会社、生成AIを利用したファイル検索サービス「デジタルライブラリ」を提供開始
PR TIMES / 2024年7月23日 13時15分
-
モルフォAIソリューションズ、国立情報学研究所から学術論文用のAI-OCR開発を受託
PR TIMES / 2024年7月10日 12時15分
-
DATAFLUCT、東芝と共同開発するAI OCR読み取り→データ分析をワンストップで実現するソリューションについて、業界別ユースケースを解説するホワイトペーパーを公開
PR TIMES / 2024年7月4日 14時15分
-
【7月24日12:00~ 無料ウェビナー】読み取り→データ分析・AI活用をワンストップでできる! 東芝×DATAFLUCTのAI OCRのメリット・活用事例を解説
PR TIMES / 2024年7月3日 11時0分
-
情報爆発の時代、図書館はどこへ…シンガポール、デジタル化とAIで革新 たった1分で物語を生成したり、3Dプリンターを使えたり
47NEWS / 2024年6月29日 10時0分
ランキング
-
1小1の子どもに「オシャレノート」を買い与えたら“まさかの号泣”…… 納得の理由が「そりゃあ仕方ない」と810万回表示
ねとらぼ / 2024年7月24日 7時45分
-
2これは尊い……! 5カ月の赤ちゃんがアンパンマンに変身 “冷蔵庫にあるもの”でできるナイスアイデアに「天才」「買いに行く!!」
ねとらぼ / 2024年7月24日 7時15分
-
3プロが本気で“アンパンマンの塗り絵”をしたら…… 衝撃の仕上がりが360万再生「凄すぎて笑うしかないww」「チーズが、、、」
ねとらぼ / 2024年7月18日 22時0分
-
4ヤマト運輸偽るフィッシング詐欺の報告が26倍に急増
マイナビニュース / 2024年7月23日 8時20分
-
5「ガンズ」スラッシュ義娘が急死 死後に更新されたインスタの内容が波紋「謝る必要なんてない」「こんな気持ちにならないでほしかった」
ねとらぼ / 2024年7月24日 16時51分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)