Infoseek 楽天

凸版印刷ら、歴史資料解読のカギとなる“くずし字OCR技術”の飛躍的向上を目指すコンペ開催

Techable 2022年3月24日 7時0分

凸版印刷株式会社(以下、凸版印刷)は、株式会社SIGNATEが提供しているデータサイエンスプラットフォーム「SIGNATE」において、くずし字OCRに関するコンペティション「くずし字認識チャレンジ」を開催します。

歴史資料解読のカギとなる技術をさらに高度化

歴史研究の進展や文化継承の観点から、歴史資料の解読・利活用は欠かせません。しかし、歴史資料の多くは“くずし字”で書かれているため、専門家以外には解読が困難。内容がわからないまま眠っていたり、紛失したりするものも多くあるようです。

そこで凸版印刷は、OCR技術(自動文字認識)を活用し、くずし字資料の読解や公開をサポートするサービス「ふみのは」を2021年にリリース。同サービスでは、OCRで歴史資料を解読し、テキストデータとして提供します。

また、複数人がオンライン上で読解する際のサポートも可能。加えて、解読結果をオンライン・オフラインで公開するためのソリューションも提供しています。

「ふみのは」は、多くの研究機関への導入が進むなか、さらなる高度化・高精度化が望まれているといいます。

“行”の検出と“文字”の認識

そしてこのたび、国内最大規模のAI開発技術者ネットワークである「SIGNATE」を活用したコンペ「くずし字認識チャレンジ」を開催することになりました。

同コンペでは、データセットとして「日本古典籍くずし字データセット」を提供。SIGNATE会員を対象に、「行領域認識部門」と「行内文字認識部門」の技術を3月22日(火)~5月23日(月)の期間で募集します。

行領域認識部門では、あるページの“行”を検出するアルゴリズムを作成。行内文字認識部門では、あるページで切り取られた1行に対して、書かれているくずし字を認識するアルゴリズムを作成します。

選考結果公表は、6月14日(火)を予定。1位から3位の入賞者には賞金が贈られるとのことです。

データサイエンスプラットフォーム「SIGNATE」

今回活用された「SIGNATE」は、6万人以上のAI・データ分析人材が登録する国内最大のデータサイエンスプラットフォーム。登録しているデータサイエンティストは、コンペへの参加や教材による学習でスキルを磨きます。

各企業は自社ニーズに沿ったAIアルゴリズムをコンペ形式で募集。在籍するデータサイエンティストが提供したアルゴリズムの精度を比較し、最適なものを活用するというサービスです。

AI開発やビッグデータ分析などに必要な人材が不足するなか、コストを抑えつつ高精度のアルゴリズムを獲得できるサービスとして注目されているといいます。

PR TIMES(1)(2)
「ふみのは」サービスサイト
株式会社SIGNATE

(文・Higuchi)

この記事の関連ニュース