【名古屋大学】相手の話を聞きながら話す、まるで人間のような対話　～日本語で初のAI同時双方向対話モデル J-Moshiを開発～

Digital PR Platform / 2025年2月5日 14時5分

名古屋大学大学院情報学研究科の東中竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル J-Moshiを開発しました。
本研究は、人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な対話を実現します。人工知能（ＡＩ）の音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現します。雑談や接客など、さまざまな場面での利用が期待されます。
本研究成果は、2025年3月10日（月）-14日（金）に開催される、言語処理学会第31回年次大会(NLP2025)において発表されます。

【本研究のポイント】
・世界初の日本語で利用可能なFull-duplex（注1）音声対話モデル J-Moshi（注2）を開発。
・発話のオーバーラップ（重なり）や相づちなど、同時双方向的な対話を実現。
・大量の日本語音声対話データを用いた学習によって構築。

【研究背景と内容】
　人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な特徴をモデル化できるFull-duplex音声対話システムは、近年注目を集めています。しかし、日本語においてこうした音声対話システムはほとんど見られず、開発に関する知見が不足しています。本研究では、英語における主要なFull-duplex音声対話システムであるMoshiをベースとすることで、日本語で利用可能な最初のFull-duplex音声対話システムJ-Moshiを試作し、公開しました。
　J-Moshiは、英語における7Bパラメータ（注3）のMoshiをベースとし、日本語の音声対話データでの追加学習によって構築されました。人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します。

J-Moshiのサンプル音声は以下でご確認いただけます。
https://nu-dialogue.github.io/j-moshi/

【成果の意義】
　本研究は、人間同士の対話のように相づちを打ったり、相手の発話にかぶさるように返答したりするような、同時双方向的な対話を実現します。人工知能の対話性能を飛躍的に高め、あたかも人間のように話すことが可能となる技術です。雑談や接客など、さまざまな場面での利用が期待されます。
　本研究は、ムーンショット目標1「2050 年までに、人が身体、脳、空間、時間の制約から解放された社会を実現」（JPMJMS2011）の支援を受けました。
　また、本研究では名古屋大学のスーパーコンピュータ「不老」を利用しました。

津波情報気象庁発表

地震情報

【名古屋大学】相手の話を聞きながら話す、まるで人間のような対話　～日本語で初のAI同時双方向対話モデル J-Moshiを開発～

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス経済トピックスFeed

【名古屋大学】相手の話を聞きながら話す、まるで人間のような対話 ～日本語で初のAI同時双方向対話モデル J-Moshiを開発～

この記事に関連するニュース

トピックスRSS

ランキング

★ 注目の特集

経済トピックス 経済トピックスFeed

【名古屋大学】相手の話を聞きながら話す、まるで人間のような対話　～日本語で初のAI同時双方向対話モデル J-Moshiを開発～

経済トピックス経済トピックスFeed