1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

音声・音響信号処理分野のトップカンファレンス「ICASSP 2025」にて主著論文採択

PR TIMES / 2025年1月24日 13時15分

ー語族特性に注目し、低リソース言語の音声認識性能を向上させる方法を提案ー



[画像: https://prcdn.freetls.fastly.net/release_image/55962/154/55962-154-6d2bd7abda9fd06bdd2f346d7a9d7028-1648x928.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]


株式会社AI Shift(本社:東京都渋谷区、代表取締役社長:米山結人、以下「当社」)の長澤 春希・大竹 真太および、親会社である株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)の「AI Lab」に所属する研究員の岩田 伸治らによる主著論文が音声・音響信号処理分野の国際会議「ICASSP 2025」※1に採択されたことをお知らせいたします。

ICASSPは、IEEE Signal Processing Societyが主催する音声・音響信号処理分野における最も権威のある国際会議のひとつで、2025年は50回目の開催となる歴史の長いカンファレンスです。このたび採択された論文は、2025年4月にインドのハイデラバードで開催される「ICASSP 2025」にて発表予定です。

■研究背景
近年の機械学習技術の発展により、テキストや対話におけるボットの利活用がますます注目されています。
当社は、コールセンターにおける自動応答サービスの提供や、生成AIの導入支援を行っており、研究成果をプロダクトに取り込む活動に日々尽力しています。特に電話の自動応答サービス「AI Messenger Voicebot」においては、終話判定や音声認識の処理など、プロダクト品質に直接影響を与える技術領域において、常に研鑽を続けています。
また、親会社のサイバーエージェントAI Labの音声・音響分野の研究に取り組むAudioチームでは、著名人のデジタルツイン音声や音声広告など、自然で高度な音声対話の実現に向けて研究に取り組んでいます。また、Interactive Agentチームにおいては人間の行動を促す対話エージェントの実現を目指し接客対話に関する研究開発を行うとともに、2021年にAI Labの各研究チームの合同組織である「完全自動対話研究センター」を設立するなど対話AI研究にも注力してまいりました。

このように本領域に対して研究に取り組んでおりますが、さらなる対話システムの要素技術の探求および連携を推進するため、当社とサイバーエージェントにおいて、技術者のスキルアップ支援を目的に一定の業務時間を使い技術の研究活動ができる CAゼミ制度において「対話モジュール開発ゼミ」※1 を発足し、積極的な研究および開発を行ってまいりました。本研究は、当ゼミでの活動成果の一部です。

■論文の概要
大規模なデータで事前学習された基盤モデルのファインチューニング ※2 について、そのパフォーマンスは対象言語の学習データの量に大きく依存しています。
量や質が限られたデータでのファインチューニングは過学習を招く可能性があり、必ずしも最適化されたパフォーマンスとなる訳ではありません。

この課題に対処するために、我々は低リソース言語における自動音声認識(ASR)の性能を向上させるための task vector に基づく適応手法を提案しました。

Task vector は再学習を必要とせずに効果的なモデル調整を行える柔軟な方法を提供し、特にリソースが限られたシナリオで有用です。
最近の研究では、task vector がASRタスクのドメイン適応に効果的であることが示されていますが、同じ言語内での使用に限られていました。
このたび採択された論文で紹介した我々の実験では、低リソース言語におけるASR性能向上を目的に、様々な task vector とその scaling factor (task vector の混ぜ込み度合いの調整因子) の組み合わせを検証しました。
またこの際、対象とする言語の語族特性やモデルの事前学習データ量等を踏まえた組み合わせの探索を行いました。

実験の結果、同じ語族からの task vector を使用することで、限られたデータでの単純なファインチューニングよりも、より良いパフォーマンスを達成できることが明らかとなりました。
■今後
本研究の成果は、当社が提供する電話自動応答サービス「AI Messenger Voicebot」など、音声認識技術を必要とするプロダクトへの適用が期待されます。
プロダクト特性上、学習用ドメインデータの作成が難しい場合であっても、ドメイン特性などが近いデータを用意できれば、ASR 性能の向上が可能であると考えられます。また task vector を使用した方法であるため、対象ドメインが変化した場合でも、再学習を必要とせずにドメインの切り替えが可能です。
今後も当社およびAI Labでは、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。

■株式会社AI Shiftについて
株式会社AI Shiftは、AIを必要とする企業や人がAIを最適に使える社会を作るべく『AIを民主化する』をミッションに掲げ、生成AIを活用し業務改善を推進するサービスを提供しております。
株式会社AI Shift:https://www.ai-shift.co.jp

※1
ゼミ制度:業務時間の一部を使い技術の研究活動を行うことができるサイバーエージェントの制度

※2
学習済のモデルに、独自のデータを追加で学習させ、新たな知識を蓄えたモデルを作り出す技術


企業プレスリリース詳細へ
PR TIMESトップへ

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください