1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

熊本大とTOPPAN、AI-OCRで「細川家文書」の未解読資料5万枚の解読に成功

マイナビニュース / 2024年7月29日 14時3分

画像提供:マイナビニュース

熊本大学とTOPPANは7月26日、熊本大が公益財団法人永青文庫から寄託を受けている歴史資料「細川家文書(ほそかわけもんじょ)」のうち、専門家でも解読が困難な難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)をAI-OCRを用いて短期間で解読し、約950万文字のテキストデータを生成することに成功したと発表した。

同成果は、熊本大 永青文庫研究センターの稲葉継陽センター長らと、TOPPANの共同研究チームによるもの。

古文書は、日本国内に数十億点以上残存するといわれているが、その中には現代の社会課題にも直結する災害や地域文化の記録など、防災や観光資源の創出・地域の活性化にもつながる貴重な情報が記されているものがある。しかし、古文書のほとんどは「くずし字」で書かれているため、現代人にとって判読が困難となってしまい、当時の記録・文献を活用する際の大きな障壁になっているという。

そうした中で、熊本大は、永青文庫が所有する、九州の国持大名・肥後細川家(1600~1632年小倉藩主、以降1871年まで熊本藩主)に伝来した歴史資料や美術品のうち、約5万7000点、約288万枚が寄託されている。寄託資料の中でも、今回解読された「奉行所日帳」をはじめとした、17世紀初期から後期にかけて奉行所に蓄積された大量の統治記録は、当該時期の九州地域の社会状況を知る上でも極めて貴重な歴史資料だという。同大学では2010年に永青文庫研究センターを設置し、永青文庫から寄託されている歴史資料や書籍の基礎研究を推進中だ。

一方のTOPPANは、2015年より大学共同利用機関法人 人間文化研究機構 国文学研究資料館との共同研究をスタート。以後、多数の研究機関など共に、くずし字AI-OCR技術の開発・実証を重ねてきた。2017年からは古文書解読とくずし字資料の利活用サービス「ふみのは」として、さまざまなくずし字解読ソリューションを提供中だ。

このような背景のもと、2021年から両者が開始したのが、文献資料の新たな大規模調査手法の検討と、永青文庫所蔵資料に対するAI-OCRの精度向上の取り組み。今回、約5万枚・約950万文字を全文テキスト化し、大規模な古文書解読のためのシステム構築を行うと共に、地域における災害記録をはじめとした網羅的な調査を開始することにしたという。

くずし字AI-OCRによる解読と検索システムが一体化することで、これまでくずし字の解読が障壁となっていた古文書などの一次史料への網羅的調査が容易になるとする。検索により発見された資料を研究者が精査し、先行研究や定説との照合を行うことで、新たな発見や、歴史学をはじめとしたさまざまな分野への一次史料の活用を促進するとした。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください