レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
PR TIMES / 2024年11月7日 12時15分
~商品の分類作業を省人化し、レシートデータの分析による商品開発やマーケティング活動の活性化に貢献~
東芝データ株式会社(本社:東京都港区、代表取締役CEO:北川浩昭、以下“東芝データ”)は、このたび、株式会社東芝(本社:東京都港区、社長執行役員 CEO:島田太郎、以下“東芝”)の研究開発センターと共同で、レシートに印字された商品名(以下“レシート印字名”)に基づき、総菜や生鮮食品などJAN(Japanese Article Number)コードが設定されていない商品をAIで自動分類する技術を開発しました。本技術により、レシートデータに基づいた商品の分類作業を省人化することで、商品開発やマーケティング活動の活性化に貢献します。
■開発の背景
近年、さまざまなデータの利活用が進む中、スーパーマーケットやドラックストア、コンビニなどのレシートデータを基に購買動向を分析し、商品の開発やマーケティング活動に生かしたいというニーズが増えています。
総菜や生鮮食品などのように、各店舗内で加工や包装が行われる商品(以下“インストア商品”)は、その店舗でのみ有効な独自の商品バーコード「インストアコード」が設定されており、国内共通の商品バーコード「JANコード」は設定されていません。JANコードが設定されている商品の場合、特定の分類体系に基づいてJANコードと分類名を紐づけた商品情報を入手すれば、レシート印字名を基にその商品を種類別に分類することが容易です。しかし、インストアコードに紐づいた商品情報は各店舗で管理されているため入手することが難しく、レシート印字名を基にインストア商品を分類する場合、レシート印字名を一つ一つ目視で確認しながら手作業で分類していく必要があり、分類作業に時間と労力を要します。そのため、インストア商品はレシートデータの利活用を妨げる要因となっています。
■本技術の特長
東芝データでは、実際の購買ビッグデータに基づく価値ある市場分析を提供するために、クラスタリングや自然言語処理など最新のAI技術を活用する「レシート・インフォマティクス技術」の研究開発を推進しています。
東芝データと東芝研究開発センターは、レシート印字名に基づきインストア商品を自動で分類するために、2種類のAI「LightGMAIC(TM)(Light Graph-based Multi-Angled Item Categorization)グラフニューラルネットワークモデル」と「レシート分類学習済み大規模言語モデル」を組み合わせた自動分類技術を開発しました。
1. LightGMAIC(TM)グラフニューラルネットワークモデル
レシート印字名分析向けに新たに開発したAIです。レシート印字名とその部分文字列との対応関係と、レシート印字名と分類名の紐づけを表現したグラフ構造を作成し、そのグラフ構造を訓練データとしてグラフニューラルネットワークに学習させます。新規のレシート印字名を入力すると、それに含まれる部分文字列との関係性から適切な分類名を判定します。部分文字列は、東芝データが保有する過去の分類データから、分類名の判定に対する貢献度が高いものを抽出し、レシート印字名と部分文字列の対応には優先度情報を持たせます。
図1の学習例において、レシート印字名が「えびとアボカドのサラダ」の場合、グラフ構造で「えび」・「アボカド」・「サラダ」の3つの部分文字列を対応付け、さらにレシート印字名内での位置を考慮して「サラダ」との対応関係に最も大きな優先度を持たせます。これを学習したグラフニューラルネットワークは、入力された新規のレシート印字名が「えび」・「アボカド」・「サラダ」の3つの部分文字列を持ち、かつ「サラダ」の優先度が高い場合、その分類名は「サラダ(アボカド)」と判定します。実際のレシートではレシート印字名特有の省略した表現が多いため、それらも考慮して部分文字列を選定して学習させます。
2. レシート分類学習済み大規模言語モデル
レシート印字名分類向けに大規模言語モデルを学習させた独自のAIです。レシート印字名に対して正しい分類名と間違いやすい分類名の組を作成し、その組を訓練データとして大規模言語モデルに学習させます。新規のレシート印字名を入力すると、そのレシート印字名に対し正しい分類を照らし合わせて適切な分類名を判定します。訓練データは、東芝データが保有する過去の分類データを解析し抽出することで、分類名の判定精度を高めました。
図1の学習例において、レシート印字名が「えびとアボカドのサラダ」の場合、正しい分類名は「サラダ(アボカド)」で間違いやすい分類名は「海老マヨ」と学習した大規模言語モデルは、入力された新規のレシート印字名が「えびとアボカドのサラダ」の場合または同等と判断した場合、その分類名は「サラダ(アボカド)」と判定します。
1種類のAIの判定結果で分類名を決定せず、2種類のAIによる判定結果を組み合わせて、機械学習を用いて最終的な分類名を決定することで、分類精度を向上できました。最終的な分類結果を人が目視で確認する必要がある場合でも、2つのAIが異なる推論結果を出しているケースを優先して確認することで、作業効率を高めることができます。
[画像: https://prcdn.freetls.fastly.net/release_image/105826/87/105826-87-7b80ed6298dc3cb574ad832d239260a9-3011x1491.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
図1:2つのAIを組み合わせた商品名の自動分類技術の概要
東芝グループの電子レシートサービス「スマートレシート(R)」から得られるレシートデータを用いて、本技術の分類精度を検証したところ、インストア商品に手作業で分類名を付与した場合と比較し、本技術を用いる場合は87%以上の正解率で分類することができました。
■今後の展望
東芝データは、本技術の分類精度の向上や、手作業で分類する場合と比較した際のコスト精査を進め、2025年度中に本技術を用いたインストア商品の購買統計データの提供開始を目指します。また、分類対象をインストア商品だけでなく飲食店のメニューに拡大するなど、本技術のさらなる研究開発を進めてまいります。
東芝データはレシート・インフォマティクス技術を用いて、レシートデータのさまざまな分析ニーズに貢献します。
■電子レシートサービス「スマートレシート(R)」の概要
東芝テック株式会社が開発、運営し、東芝データ株式会社が運営を支援している電子レシートサービス「スマートレシート(R)」は、会計時に通常は紙で提供される購入商品の明細レシートを電子化し、電子レシートセンターでデータとして管理、提供するサービスです。お客様の手元に紙のレシートを残さなくてもスマートフォンで購入履歴をいつでも確認することができ、お客様の買い物における利便性の向上につながるとともに、加盟店の紙レシートの発行コストや環境負荷を減らすことができます。
公式サイト:https://www.smartreceipt.jp/
法人向けサイト:https://www.toshibatec.co.jp/products/pos/smartreceipt/
※「スマートレシート(R)」は東芝テック株式会社の登録商標です。
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
220万人のレシートデータから見る「買い物動向」調査 10月、全国・地方別の納豆売れ筋ランキング
PR TIMES / 2024年11月19日 11時45分
-
シナモンAI、表や図など複雑な書類を読み取りLLMに高度な回答を実現させる「Super RAG(TM)」のパッケージ版を2025年1月中旬より販売開始
PR TIMES / 2024年11月6日 16時45分
-
【東芝デジタルソリューションズ】RECAIUS音声合成ミドルウェア「ToSpeak」のハイエンド機器向けラインアップを強化
Digital PR Platform / 2024年11月6日 11時27分
-
押さえておきたいLLM用語の基礎解説 第3回 学習率・事前学習・クリーニング・ファインチューニング・インストラクションチューニング・プレファレンスチューニング
マイナビニュース / 2024年10月29日 9時0分
-
インジェクション攻撃による被害を防ぐためのソフトウェア修正技術を世界にさきがけて実現 ~専門知識を持たない開発者でもソフトウェア開発段階で文字列操作の誤りを容易に修正~
Digital PR Platform / 2024年10月28日 10時7分
ランキング
-
1クシュタールの会長「セブン&アイとの統合で小売業のチャンピオンに」…敵対的買収は「考えていない」
読売新聞 / 2024年11月22日 9時5分
-
2ジャパネット2代目に聞く「地方企業の生きる道」 通販に次ぐ柱としてスポーツ・地域創生に注力
東洋経済オンライン / 2024年11月22日 8時0分
-
3クリスマスケーキに異変…『卵』の価格高騰止まらず 夏の猛暑の影響で今後は鳥インフルエンザによる卵不足の恐れも
東海テレビ / 2024年11月21日 21時22分
-
4「観光客が土下座強要?」に見るFENDIの反省点 インバウンド対応を迫られる各企業が今すべきこと
東洋経済オンライン / 2024年11月22日 9時0分
-
5一番人気の「かつ重」は300円未満! スーパー・トライアルが物価高時代に「安さ」で勝負できるワケ
ITmedia ビジネスオンライン / 2024年11月22日 6時10分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください