【名古屋大学】相手の話を聞きながら話す、まるで人間のような対話 ~日本語で初のAI同時双方向対話モデル J-Moshiを開発~
Digital PR Platform / 2025年2月5日 14時5分
名古屋大学大学院情報学研究科の東中 竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル J-Moshiを開発しました。
本研究は、人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な対話を実現します。人工知能(AI)の音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現します。雑談や接客など、さまざまな場面での利用が期待されます。
本研究成果は、2025年3月10日(月)-14日(金)に開催される、言語処理学会第31回年次大会(NLP2025)において発表されます。
【本研究のポイント】
・世界初の日本語で利用可能なFull-duplex(注1)音声対話モデル J-Moshi(注2)を開発。
・発話のオーバーラップ(重なり)や相づちなど、同時双方向的な対話を実現。
・大量の日本語音声対話データを用いた学習によって構築。
【研究背景と内容】
人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な特徴をモデル化できるFull-duplex音声対話システムは、近年注目を集めています。しかし、日本語においてこうした音声対話システムはほとんど見られず、開発に関する知見が不足しています。本研究では、英語における主要なFull-duplex音声対話システムであるMoshiをベースとすることで、日本語で利用可能な最初のFull-duplex音声対話システムJ-Moshiを試作し、公開しました。
J-Moshiは、英語における7Bパラメータ(注3)のMoshiをベースとし、日本語の音声対話データでの追加学習によって構築されました。人間同士の対話におけるような自然なターンテイキングをリアルタイムに実現します。
J-Moshiのサンプル音声は以下でご確認いただけます。
https://nu-dialogue.github.io/j-moshi/
【成果の意義】
本研究は、人間同士の対話のように相づちを打ったり、相手の発話にかぶさるように返答したりするような、同時双方向的な対話を実現します。人工知能の対話性能を飛躍的に高め、あたかも人間のように話すことが可能となる技術です。雑談や接客など、さまざまな場面での利用が期待されます。
本研究は、ムーンショット目標1「2050 年までに、人が身体、脳、空間、時間の制約から解放された社会を実現」(JPMJMS2011)の支援を受けました。
また、本研究では名古屋大学のスーパーコンピュータ「不老」を利用しました。
-
- 1
- 2
この記事に関連するニュース
-
音声・音響信号処理分野のトップカンファレンス「ICASSP 2025」にて主著論文採択
PR TIMES / 2025年1月24日 13時15分
-
AI音声合成/音声認識を1つのSDKで実現 SLFramework(仮)評価版提供開始のお知らせ
PR TIMES / 2025年1月9日 16時15分
-
博報堂gmove、対面商談の評価や商談メモをAIで自動作成する商談サポートアプリの実証実験を開始
PR TIMES / 2025年1月9日 14時15分
-
Babel OSを搭載したTimekettle W4 Proイヤホンがリアルタイム双方向通話翻訳を開始、自然なクロスリンガル会話が可能に
共同通信PRワイヤー / 2025年1月8日 16時41分
-
nocall.ai、AIの"話し方"に関する3つの機能を実装
PR TIMES / 2025年1月8日 14時15分
ランキング
-
1フジメディア株が連日の昨年来高値、好取り組みから投機資金呼び込む
ロイター / 2025年2月6日 9時56分
-
2日産、ホンダに統合協議の白紙化を伝達 子会社化案のめず=関係者
ロイター / 2025年2月6日 13時13分
-
3NY円相場が2か月ぶり円高水準、1ドル=152円10銭台…日米の金利差縮小を意識
読売新聞 / 2025年2月6日 7時57分
-
4《1個買うと1個もらえる》「アーモンド効果」を無料でゲット!セブンがお得企画を追加したよ。【2月6日時点】
東京バーゲンマニア / 2025年2月6日 11時17分
-
5中途採用が多いが、勤続年数も長い会社100社 中途採用者を定着させられる企業の特徴
東洋経済オンライン / 2025年2月6日 7時0分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください