近年はテクノロジーの発展に伴い、企業が生成AIを活用してCMや広告を制作することも珍しくなくなった。昨年には、伊藤園が「お~いお茶 カテキン緑茶」のテレビCMにAIで生成したAIタレントを採用し、大きな話題を呼んだ。
しかし、生成AIによる動画制作では「キャラクターの口元の動きと音声がずれる(もしくは一致しない)」といった事象が発生することもあるという。そこで今、注目を集めているのがキャラクターや話し手の口の動きと声を連動させる“リップシンク機能”だ。
最近では、キャラクターが会話・歌・ラップする動画を生成できるHedra社のリップシンクAIモデル「Character-1」や、最大40秒のリップシンク動画を生成できるRunway AI社の「Gen-3 Alpha」などが登場している。
リップシンク技術が盛り上がりを見せるなか、 今年8月にGD Culture Group Limited(以下、GDC)とその子会社であるAI Catalysis Corp.(以下、AI Catalysis)は音声から動画を生成するAIツール「SyncWaveX」をリリースした。唇や顔の動きを音声と自動的に同期させ、リアルな動画を実現するという。
3Dモデリングなしでリップシンク動画を生成SyncWaveXの「Lip Sync」機能を実際使ってみると、加工用の元動画と音声ファイルをそれぞれアップロードするようになっている。元動画1本から、音声入力に唇の動きと顔の表情を自動的に同期させた動画が数分で生成される。このリップシンク精度は99%と高く、ユーザーは視聴者に対して自然で臨場感あふれる体験を提供できる。
音声に基づいて動画を生成するため、従来の3Dモデリングや顔のランドマークメソッド(顔の3Dを作成し、さまざまな表情や動きをアニメーション化する手法)は不要だ。
SyncWaveXは、ソーシャルメディア コンテンツからプロフェッショナルなプレゼンテーションやマーケティングキャンペーンまで幅広い用途に活用可能。またキャンペーン広告の作成、翻訳サービス、さらには話す能力を失った人々を支援する強力なツールとしての使用も想定しているとのこと。
個人の顔の動きを再現&よく似た音声を合成SyncWaveXの目玉は、さまざまな音声に対して人物の唇の動きをシームレスに一致させるリップシンク技術だが、それ以外にも高度な技術を備えている。
例えば、加工用の元動画・画像内の顔を正確に検出できる「顔認識テクノロジー」だ。眉毛・頬・鼻・唇など個人の顔の動き全体を細かくキャプチャし、リアルに再現する。
さらに、SyncWaveXは音声合成・認識テクノロジーも統合しており、個人の音声特性に基づいてモデルをトレーニングし、元の話者に非常によく似た音声を合成することも可能だ。
こうした技術により、ユーザーはアップロードした音声や動画をカスタマイズされた“AIデジタルヒューマン”に変換できるようになる。
誰もが自身の“デジタルレプリカ”を持てる未来へGDCは米国の完全子会社であるAI Catalysisと、上海のShanghai Xianzhui Technology Co, Ltd.を通じて事業を行う持株会社。NASDAQ市場へ上場を果たしたグループであり、近年ビジネスを拡大している。
今回、GDCとともにSyncWaveXを発表したAI Catalysisは、2023年に設立されたテック企業。主に広告、電子商取引、音楽、動画制作にAIテクノロジーを適用することに注力している。現在は個人・企業向けの品質・効率・コスト効率を向上させるAIソリューションを提供中だ。
GDCの会長兼CEOであるXiaojian Wang氏は「今回のSyncWaveXの発表は、単なる新しいツールの紹介ではない。誰もが無限の可能性を秘めた自分自身のデジタルレプリカを持つことができる未来への道を切り開くものだ」とコメントしている。
参考・引用元:
AI Catalysis SyncWaveX
GlobeNewswire
(文・Haruka Isobe)