1. トップ
  2. 新着ニュース
  3. 経済
  4. ビジネス

エンタメ大国・韓国発AIオーディオ企業「Supertone」の実力 日本市場をいかにして攻略するか?

ITmedia ビジネスオンライン / 2024年11月9日 17時48分

 特に学習時間が20秒というのは圧倒的な短さだ。ある競合企業の関係者は、筆者の取材に「他社はこの何十倍という時間をかけて音声データをコンピュータに記憶させなければならない。数十秒で学習できるSupertoneの技術力は非常に優れている」と明かす。では、学習時間が長ければ精度は上がるものなのか。

 「データは多ければ多いほどいいのですが、だからといって、20秒と1時間の差がそれほどあるわけではないです。Shiftにおいては量よりも質がより重要で、雑音が入っている1時間の音声よりも、20秒のクリーンな音声データのほうがより良いのです」

 同社は音声の学習技術に加えて、ノイズを除去する技術も有している。今回、インタビュー音源の一部に「蛍の光」の曲の音が入っており、その音源の「蛍の光」のノイズ除去を依頼した。実際にノイズを除去した音源を聞いてみると、完璧に取り除かれていた。つまり、ノイズ除去の技術によって、常に質の高いデータを読み込ませられるということだ。

 例えば兵役に就いている男性K-POPアーティストは新曲をレコーディングしてリリースすることができない。だがメンバー一人一人の音声データを学習させれば、理論上は新曲を出せるのかと尋ねると「技術的には可能です」と語る。「ただし私たちはコンテンツを尊重する会社で、アーティストの意見もあります。本人の許可なしで使用することはありませんし、研究をするにあたっても適切な方法で行いますので、絶対に一般公開しません。また、アーティストらに不安を与えないようにNDA(秘密保持契約)を結ぶなどいろいろと気を付けています」と話し、使い方には細心の注意を払う。

 この辺りは、会社とアーティストの考え方次第だろうが、革新的な技術であることは間違いなさそうだ。一方のPlayについてはどうか。

 「TTSについては、今までは音声を出力すると機械的な音声といいますか、人工的な音声でした。ですがPlayの場合は、かなり自然です。ゲーム内のアニメーションでも、演技力を伴ったような、表現の豊かさが強みです。VTuber向けの無料で使えるキャラクターがあり、Supertone Playのオープンベータ版では、約50種類のキャラクターボイスを提供し、さらに追加していく予定です。これも競合他社と差別化を図れる要素かと思います」

 自然に発声できる技術力の源泉は、Supertoneが開発した音声生成に関するAI機能を備えたAIファンデーションモデル「NANSY」(Neural Analysis & Synthesis)にある。音色や発音、ピッチ、音量といった4つの要素に分解後、再構成する特殊な機能を利用して、リアルな音声を無限に生成できるのだ。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください