ディープラーニングに基づく人工知能(AI)を活用し住所、名前等の手書きの複数文字(日本語)認識率93.5%を実現
@Press / 2017年9月6日 13時0分
Edtech事業を展開する株式会社EduLab(本社:東京都港区、代表取締役社長 兼 CEO:高村 淳一、以下 EduLab)は、ディープラーニングに基づく手書き文字(日本語)認識技術の開発プロジェクトを2015年より進め、手書き文字(日本語)認識率において、2016年6月時点で業界トップレベルの文字認識率98.66%を実現しました。この時点で認識できた文字は、枠線内に書かれた手書きの単文字(日本語)でした。その後、開発を進め、より実際の答案用紙に近い枠線がない住所、名前等の手書きの複数文字に対して文字認識率93.5%を実現しました。(認識率は、人と読み取り結果が一致した割合。精度検証の対象としたデータは約35,000件)
画像1: https://www.atpress.ne.jp/releases/137271/LL_img_137271_1.png
図1.単文字と複数文字の読み取りイメージ
https://www.atpress.ne.jp/releases/137271/img_137271_1.png
図1:単文字と複数文字の読み取りイメージ
■開発の背景
日本の教育における、課題解決力を重視する傾向に伴い、入学試験、国や地方自治体の学力調査・各種検定試験等において記述式の解答方式が加速的に増えています。記述式の解答方式は人力で採点するため、採点に時間がかかり、採点費用の増大も大きな課題です。
そのような背景から、採点効率の向上を目指し手書き文字のテキストデータ化について検討を始めました。解答用紙に書かれた内容を人の手により入力しデータ化する作業では、これまで大幅な時間短縮が困難でした。また、スキャナを使用して解答用紙を読み取りデータ化を行う従来のOCR(Optical character recognition:光学文字認識)技術は、入力枠という制約が生じるだけでなく認識できない割合も一定割合以上発生し、試験の採点に耐えうる品質精度の確保は難しい状況でした。
当社は、ディープラーニングに基づく人工知能技術(AI)を活用した高精度な手書き文字認識技術の研究・開発を開始し、2016年に手書き単文字(日本語)認識率98.66%を実現いたしました。
( http://edulab-inc.com/press-release/20160706.html )
■複数文字認識技術の特徴
2016年時点の手書き単文字認識技術では下記の点が課題でした。
一文字の読み取りは高精度ですが、部首やつくりなどのパーツが組み合わさり一つの漢字となる日本語の特性上、複数文字を読み取る(認識する)精度は低くなりました。複数文字を読み取る(認識する)際に、誤った一文字に分割し読み取って(認識して)しまうという課題がありました。
https://www.atpress.ne.jp/releases/137271/img_137271_2.png
図2:複数文字認識の誤認識イメージ
そこで、人間が文字を読む時と同じように複数の文字を同時に読み込み、まとめて結果を出力するという方法から検討を進め、複数文字でも正しく文字を読み取る(認識する)新たな手書き文字認識技術を開発いたしました。新たなアプローチにより、複数文字を正しく一文字ごとに分割するプロセスを改善することができました。
https://www.atpress.ne.jp/releases/137271/img_137271_3.png
図3:現在の複数文字認識イメージ
開発にあたり、日本語の住所、名前、単語の手書き複数文字データを収集し人工知能(AI)に学習をさせた結果、住所の手書き複数文字データを読み取りにおいて93.5%の文字認識精度を達成しました。(*認識率は、人と読み取り結果が一致した割合。精度検証の対象としたデータは約35,000件)
下記は手書き住所データと文字読み取り(認識)結果例です。下記の例では複数文字の住所データ全てを誤りなく読み取り(認識)できています(文字認識精度100%)。
https://www.atpress.ne.jp/releases/137271/img_137271_4.png
図4:手書き住所データと当社文字認識技術による読み取り(認識)結果
■今後について
本技術は、住所だけでなく氏名、一般文書、業界特化型文書においても対応可能なため、データ収集及び人工知能(AI)の学習を繰り返し、引き続きテスト・開発を行って参ります。
また、クラウドアプリ化し、ニーズをお持ちのどのような業態の団体でも手軽にご活用頂ける環境を提供する予定です。
https://www.atpress.ne.jp/releases/137271/img_137271_5.png
図5:クラウドアプリ画面イメージ
手書き文字認識技術の精度を向上させるため、引き続きディープラーニングに基づく開発を進めます。そして手書き文字をテキストデータ化したテスト解答を自動採点する技術や、採点や採点プロセスの効率化・自動化を実現していくために人工知能(AI)技術に基づく開発を推進してまいります。
■株式会社EduLabについて
EduLabは、Edtech分野における新事業の開発・投資、教育ITソリューション・プラットフォームの提供、次世代教育の支援、スクールマネジメントなど、最新のラーニングサイエンスをベースに次世代の教育ソリューションを実現します。東京、シアトル、シンガポール、香港、北京、上海、バンガロール、プネを拠点として展開しています。
[会社概要]
(1)社名 : 株式会社EduLab
(2)代表者 : 代表取締役社長 兼 CEO 高村 淳一
(3)本店所在地: 東京都港区北青山三丁目2番4号
(4)設立年月 : 2015年3月
(5)資本金 : 3億86百万円
(6)Web : http://edulab-inc.com/
詳細はこちら
プレスリリース提供元:@Press
【関連画像】
この記事に関連するニュース
-
AI技術を駆使した『E&D Reader』シリーズを10/1に提供開始 新車検証やナンバープレートを読み取り、自動車産業のDXを推進
@Press / 2024年9月19日 10時15分
-
生成AI × OCRを最低価格で。複数レイアウトでも、自動で文字認識。CTO HANDs シリーズ「AI文字読取」を提供開始。
PR TIMES / 2024年9月12日 16時45分
-
コージェントラボ、次世代AI OCR「SmartRead」に金融業界向けソリューションパックとして「口座振替依頼書」の自動読み取り機能を追加
PR TIMES / 2024年9月12日 12時45分
-
押さえておきたいLLM用語の基礎解説 第1回 AI・大規模言語モデル・生成AI・ニューラルネットワーク・ディープラーニング
マイナビニュース / 2024年9月10日 7時0分
-
フューチャーアーキテクト、国際物流総合展2024に出展
共同通信PRワイヤー / 2024年8月26日 14時0分
ランキング
-
1ミニストップ、外国籍の利用客に“不適切な張り紙” 「問題を重く受け止め」謝罪
ORICON NEWS / 2024年9月20日 15時53分
-
2あの「ポーター」が人気商品を大胆に変えた裏側 価格2倍にしても素材変えた吉田カバンの挑戦
東洋経済オンライン / 2024年9月20日 13時0分
-
3「令和のコメ騒動」不足解消でも楽観できない事情 人口減少社会で「農地改革」が進まない本当の理由
東洋経済オンライン / 2024年9月20日 8時0分
-
4引っ越しをしたときにNHK受信契約をしないまま15年が経ちました。今後さかのぼって請求されることはありますか?
ファイナンシャルフィールド / 2024年9月19日 4時20分
-
5東京メトロは「郵政IPOの悲劇」二の舞を防げるか? 求められる戦略は
ITmedia ビジネスオンライン / 2024年9月20日 14時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください