「日本の声優のすばらしさ広めたい」アニメの世界観ごと輸出するAI吹き替え技術

ASCII.jp / 2024年6月26日 10時0分

研究実施者：野﨑雄斗、大嶽匡俊、加藤大地、廣岡聖司（東京大学大学院）
研究テーマ：日本語版の世界観を崩さないアニメの自動吹き替え
担当PM：金崎朝子（東京工業大学情報理工学院准教授）

東京大学大学院情報理工学系研究科コンピュータ科学専攻修士課程の野﨑雄斗さん。写真は３月に米国で開催されたSXSWで（本人提供）。

　第96回アカデミー賞では、宮崎駿監督の「君たちはどう生きるか」が長編アニメーション賞に選ばれた。この受賞が象徴するように、今や日本のアニメは世界中から人気を集めている。ただ海外のアニメファンの中には、本来とは異なる雰囲気を醸し出してしまう吹き替え版を好まない人も多くいる。そこで東京大学の野﨑雄斗さんらのグループは、日本アニメ産業の積極的な海外進出を視野に、日本語の世界観を崩さないアニメの自動吹き替えを実現する研究に取り組んでいる。

「まったく別の世界に感じる」キッカケはYouTubeで見た動画

　海外で日本のアニメを視聴できるサービスはあるものの、ほとんどは字幕版。日本語の音声に英語の字幕を表示して配信されることが多い。日本アニメは海外でも人気が高いにもかかわらず、コスト面が課題となり、吹き替え版は少ない。

　そうした中、野﨑さんがアニメの吹き替えに興味を持ったのは、YouTubeでたまたま見かけたある動画がきっかけだった。

「『進撃の巨人』のドイツ語吹き替え版でライナー・ブラウン役を担当した声優さんが、世界各国版の吹き替えを評価するという動画でした。その声優さんは、日本語版と英語吹き替え版を見比べて『まったく別の世界のように感じる』とコメントしていたのです」

　このコメントから野﨑さんは、「日本のアニメの世界観を崩さないために、AIの技術を使って、日本の声優の声で英語の吹き替えが作れないだろうか」と考えたのだそうだ。

　研究者とは、ささいな思いつきを見逃さない人種だ。野﨑さんも着想をすぐにメモに書きとめ、そこからアイデアを実現するためのプロセスへと発想を広げていった。具体化へ動き始めたのは、今回の研究メンバーとの飲み会だったという。

「日本のアニメの世界観をそのまま英語で再現するという温めていたアイデアを私が話したところ、場が盛り上がり、サマーファウンダーズプログラム（※）に出そうという話になりました。そこから具体的にどうやって進めていこうかと話が弾んで、一気に大枠が固まりました」

　さっそくメンバー4人で協力してプロトタイプの構想を考えて、2023年度のサマーファウンダーズプログラムに参加した。その結果、確かな手応えを感じられたので、より技術を深めるために活動を続けようと応募したのが、「覚醒プロジェクト」だった。

※東京大学Summer Founders Program：学生がものづくりに取り組む活動拠点があれば、という思いから設立された。試行錯誤を繰り返しながらプロダクトを開発していく学生を、返済不要の資金と開発場所の提供により後押しするプログラム。

翻訳文作成から音声合成までを自動化する

　日本語で表現された世界観を、英語に置き換える。本の世界では昔から普通にされてきたことだ。書籍の翻訳では専門家が、持てるノウハウを駆使しながら時間をかけて行なっている。ではアニメ作品の吹き替えはどうか。アニメ特有の世界観を汲み取りながら翻訳するのは、決して簡単な作業ではない。翻訳ができたとしても、さらにその世界観を的確に表現できる声優を探す必要もある。一連の作業には、膨大な時間とコストがかかる。だから日本のアニメの吹き替え版は、あまり作られていないわけだ。日本アニメに対するニーズは確実にあるから、一連の問題を解決できればビジネスの可能性は大きく広がる。

　「問題解決のためにはコストを極力抑えつつ、声優さんの表現を崩さないような吹き替え音声をつくる必要があります。そこでサマーファウンダーズプログラムでは、まず既存技術の範囲内で世界観を崩さない自動吹き替えがどこまでできるかを試してみました。具体的にはChatGPTで翻訳文を作成し、吹き替えには既存の音声合成技術を使います。これでも一応、吹き替え版らしきものはできた。けれども、決して満足の行く仕上がりとはなりませんでした。そこで『覚醒プロジェクト』に応募して、本格的に取り組もうと決めたのです」

　本格的な取り組みとは、翻訳と音声合成のシステムの研究開発を意味する。覚醒プロジェクトに応募するため、関連分野の先行研究を調べ上げて課題を抽出し、それら課題の解決策を申請書にまとめて応募したところ採択された。

　先行研究から浮かんできた課題は大きく2点ある。まず翻訳作成については日本語のニュアンスや語感を崩さないシステムが必要だ。一方の音声合成についても、日本語版の声優の声質やトーンから感情表現までを崩さない吹き替えシステムを作らなければならない。

　「翻訳については、まず翻訳を評価するデータセットと評価手法を確立したうえで、映像作品用の翻訳システムの性質を評価する。音声合成については、日本語版の声優の感情や抑揚を保つ音声合成システムを作る。4名のメンバーで役割を決めて開発を進める運びとなりました」

独特の世界観は「ことば」と「声」が創り出す

　翻訳システムについては、アニメを映像翻訳として捉え、映像機械翻訳の一般的な性質を研究している。ここでいう「映像翻訳」とはアニメやドラマなどの映像作品の翻訳のことで、これまでの機械翻訳技術では対応が難しかった領域だ。映像内での発話内容のテキストだけでは翻訳に必要な背景情報が欠落しており、自然な翻訳が難しいからだ。だが、大規模言語モデルの登場によって柔軟な情報付加が可能となり、機械翻訳が果たせる役割は今後大きくなっていく可能性がある。

　では、どのような情報を付加すればよいのか。研究チームは発話者のメタデータ（属性や性格の情報）に注目した。複数の翻訳者にヒアリングしたところ、こうした情報が人間の翻訳家が翻訳する際に重要とされていることが分かった。そこで、これが機械翻訳にも当てはまるのではないか、との仮説を立てた。

　まず、研究チームが取り掛かったのは、こうした評価を行なうためのデータセットの構築だ。発話内容を表す英語文と日本語文に加えて、その発話者とその発話者のメタデータをセットにしたデータセットを構築し、すでに国内学会に投稿している。AAMT（アジア太平洋機械翻訳協会）若手翻訳研究会ではした。現在は、構築したデータセットを用いて、機械翻訳の際に発話者のメタデータの情報がどのように役立つかを検証・評価している。

　研究によって映像機械翻訳においてどのような情報を付加すればよいかが明らかになれば、翻訳者を機械でサポートする道筋が立つだけでなく、人間が発話をどのように理解しているか、解明する手がかりにもなるだろう。

　もう一つの課題が音声合成であり、これも決して簡単ではない。先行モデルはいくつかあり、それらを精査したところ、次のような問題が明らかになったという。

「文章を平易に読み上げるレベルだけなら、現状の音声合成でもそれほど問題ありません。けれどもアニメでよく使われる感情表現、抑揚の効いた表現などについては、現状のシステムでは自然な音声で合成できないのです。日本語の世界観を崩さずに他言語に吹き替えすることを意識すると、さらに難易度は上がります。特に英語などでは先行研究でも示されているように、日本語と英語間の韻律（※）の相関が低くく、かなり難しくなります。

　実際に既存の自動吹き替え技術を調査したところ、特に感情が日本語から英語に変換する際に失われていました。そこで今回の覚醒プロジェクトの研究期間では感情表現に着目し、声質だけでなく声優さんの感情を他言語でも実現できる音声合成システムの研究・開発に取り組んでいます」

※発話において現れる音声学的性質で、その言語の一般的な書記記録からは予測されないものすべてをいう。具体的には抑揚あるいは音調、強勢、音長、リズムなどを含むが、これらのうちで文脈によって異なりうるものを指す。

　音声合成システムがひと通りできたとしても、それで完成とはならない。実際にアニメを的確に吹き替えるためには、絵に合わせた微調整が必要となる。そのためにはインタラクティブに微調整可能な音声編成モデルの開発も将来必要となる。

日本の声優さんのすばらしさを発信したい

　野﨑さんは修士2年の前期を休学して、今回のプロジェクトに打ち込むことを決めた。７月までの「覚醒」の期間中に、十分な研究成果を出せずに、中途半端に終わるのを避けたかったからだ。その後、野﨑さん自身は復学し、博士課程に進みたいと考えている。ただ、研究メンバーの中には起業をめざす動きもあるという。

「アニメ制作会社に勤めていた方にヒアリングしたところ、完成度の高い自動吹き替えシステムであれば、需要は確実にあるといわれました。大市場となるアメリカでは吹き替えが好まれるので、まずプラットフォーマーが求めてくるだろうというのです」

　日本アニメが海外で人気を集めている状況を勘案すれば、ビジネスとして成立する可能性は非常に高い。なによりも日本アニメ産業全体の強力なバックアップともなる。　

「ビジネス展開するためには、セリフの著作権や声優さんの声のパブリシティ権などの権利問題についても議論を進めていく必要があります。そもそも私がこの研究を始めたのは、日本の声優さんのすばらしさを発信したいという思いから。声優さんや音響監督さんが正当な対価を得られることはもちろんとして、みなさんに喜んでもらえることをしたいと考えています」

　野﨑さんらのチームは、2024年3月中旬にアメリカで開催された展示会「SXSW（サウス・バイ・サウスウェスト）」に東京大学のプログラムを通じて参加し、会場でデモ展示を行なった。

「来場者の方にその場で英語でのアフレコに挑戦してもらい、声の特徴を保ったまま日本語に変換してアニメ映像に同期させるデモをしました。『盾の勇者の成り上がり』のアニメ製作委員会の協力を得て、実際のアニメ映像を使用できたこともあり、多くの方に驚いてもらえました。今後の研究の可能性に手応えを感じています」