1. トップ
  2. 新着ニュース
  3. 芸能
  4. 芸能総合

人間と区別がつかない!? 超自然なAI音声合成ソフト『VOICEPEAK』開発秘話

集英社オンライン / 2022年7月9日 12時1分

この春発売された文字読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』。喜怒哀楽の感情表現にも対応しており、合成音声とは思えない自然な音声で発売から大きな話題を呼んでいる。商用利用可能でありながら価格も安く、大企業から個人作家まで、様々な領域で大きな売上を記録しているという。発売までの経緯や音声コンテンツの未来について、開発者の2人に聞いた。 (トップ画像 BAIVECTOR/Shutterstock.com)

この春に発売された、最新のAI音声合成技術を搭載した入力文字読み上げソフト『VOICEPEAK 商用可能 6ナレーターセット』(※以下、VOICEPEAK)。バラエティ豊かな6種類のナレーターが収録され、感情パラメータを用いた喜怒哀楽の表現やイントネーションの調整にも対応。そのあまりに自然な音声や明瞭なインターフェース、さらに商用利用可能で税込23,800円(ダウンロード版)という、業界の常識を覆す低価格が大きな話題を呼んでいる。



製作中の音声を公開したところ要望が殺到し、予定を繰り上げて発売に至ったという『VOICEPEAK』。その開発の経緯や価格設定の意図、さらには音声コンテンツの未来について、開発者である株式会社AHS取締役会長の尾形友秀(おがた・ともひで)氏と、Dreamtonics株式会社の華侃如(フア・カンル)氏に伺った。

今回の記事を実際に『VOICEPEAK』で読み上げさせた動画

会社史上ダントツの売上を支えた音声合成技術

―― 『VOICEPEAK』が2022年3月11日に発売されてから3ヶ月ほど経ちました。周囲からの反応はいかがですか?

尾形 会社を17年やってきた中で、ダントツの売り上げです。SNSなどで話題にしてくれる人も多いですが、実際に使っていただいているユーザーさんの数も、これまでとは比べ物になりません。

ここまで売れている要因は、商用利用OKということもありますが、何よりも圧倒的なクオリティだと思います。音声のクオリティが「もう人だよね」と言えるところまで達している。これは長年研究開発に取り組んできた Dreamtonics さんの努力の賜物だと思います。

カンル 私たちは以前からAI技術を用いた歌声合成ソフトウェアを開発しています。歌声には音程やリズムが含まれるので、普通に喋る音声を作るよりも難しいんです。AHSさんには以前から弊社の『Synthesizer V』というソフトを販売いただいていましたが、新しいバージョンを出すタイミングで、尾形さんと直接お話する機会がありました。

尾形 人工知能を使った音声合成はここ2年ほどでグッと進歩していますが、その中でもDreamtonics さんの技術は段違いでした。この技術は普通の喋りにも活かせるのではないか、こういうことができるのではないかとカンルさんと話すうちに意気投合し、共同で『VOICEPEAK』の開発を始めることになりました。

カンル コロナ禍で読み上げの需要が高まることも予想していましたが、利益云々よりもAHSさんとの共同開発は楽しいだろうと思えたんです。これまでの合成音声では、最初は大丈夫だとしても、途中で違和感を感じ、聞くのが嫌になることもありました。もし人間らしく自然に聞こえる音声ができれば、いろいろなアプリケーションで使えるようになりますよね。

尾形 不自然に聞こえない、長時間聴いていても耳が疲れない音声ができたことで、色々な場所で使われるための、ひとつのハードルを越えたと思っています。

おかげさまで『VOICEPEAK』は企業の社内研修やオンライン授業、YouTube動画のナレーションなどに活用いただいています。声優さんのラジオでも取り上げていただきましたし、身近なところでは、留守電の待ち受け音声などにも使われていますね。個人商店や小さな会社では「デフォルトの音声は嫌だけど、素人のアナウンスを入れるのはちょっと……」という需要が多いんですよ。

遠隔授業でも、個人作家でも。商用フリーにした理由

―― 商用利用が可能でこの価格、ということも話題になっています。

尾形 文字読み上げソフトは昔からありますが、企業や個人事業主などが商用で使う場合はとても値段が高く、100万円を超えることが普通でした。弊社に問い合わせをいただいても、値段を伝えると諦めてしまう方が多かったです。

特に2011年に起きた東日本大震災の際、移動が大きく制限された結果、学校の映像授業や企業のオンラインプロモーションなどで、自分の代わりに喋るソフトを使いたいという問い合わせを非常に多くの方からいただきました。それでも、正規の値段ではなかなか要望にお応えすることが難しくて。私が宮城県出身ということもあり、そこへの思い残しや、地元に貢献したいという気持ちは持ち続けていました。

―― 技術はあっても価格がネックとなって、有事のニーズに応えられなかったのですね。

尾形 コロナが始まって、まったく同じことが起こりました。どこにも出かけられなくなって、オンライン授業も広がって。ただし10年前に比べて、ソフト面でもハード面でも、遠隔で授業を受けたり会議をしたり、オンラインでプロモーションを仕掛けるハードルは低くなりました。その分、音声合成へのニーズが再び増えたわけです。

その渦中に発売された『VOICEPEAK』がこの値段になっているのは、シンプルにこういった需要に応えて、一般の方や学校、企業であっても手が届くようにしたかったからです。だから、本来であれば数十万円以上のライセンスがこの価格になっているので、もっとたくさん売っていかないといけないのですが……(笑)。

また、個人として非商用のソフトウェアを使ううちに、YouTubeやニコニコ動画で広告収入などの収益が発生するケースもあります。そうした際に、どこまでソフトウェアを利用できるのか?禁止事項に該当しないのか?などと心配になると思いますが、『VOICEPEAK』なら悩まずにご利用いただけます。

「好きな声」があふれた面白い未来へ

―― 『VOICEPEAK』は今後のアップデートも予定されているのでしょうか?

尾形 周囲の反応がとても良く、予定より前倒しで発売したので、ユーザーインターフェースや書き出し形式など細かなところの調整を行っています。追加の音声販売も予定していますが、さらに先も見据えて、音声がより自由に扱えるようになった面白そうな未来についても議論しています。

『VOICEPEAK』の操作画面

カンル 私たちのエンジンの特徴のひとつは、動作が軽くて、スタンドアロンで使えることです。クラウドではなくローカルで処理できるので、PCやスマホ以外のものにも組み込んでいけるでしょう。

尾形 人間の1番のインターフェースは「会話」だと思っていて。たとえば電子レンジを使うにしても、わざわざダイヤルやボタンで細かく設定して操作するのではなく「温めておいて」という一言で終わりにしたい。自動運転の車などがイメージしやすいですが、今後はいろいろな人工物と声でやりとりするようになると思うんです。

そうなると、使う人にとって心地よかったり、好きだと思える声であることが重要になります。私自身が声フェチということもあり、世の中を良い声で溢れさせたいし、後の世代に多様な声を残すアーカイブ事業にも取り組みたいと思っています。今でも「自分が死んだ後の葬式で、自分の声で挨拶させたい」なんてお話をいただくこともあるんですよ。

―― それはなかなか刺激的な光景ですね……! PCやスマートフォンに限らず、家電や自動車など、いろいろな人工物が「良い声」で喋る光景は楽しそうです。

尾形 ここ数年で Podcast やTwitterスペース、Clubhouse などの音声メディアに触れる機会がグッと増えましたよね。キャラクターものや創作界隈から広がった音声読み上げソフトですが、今ではまったく毛色の違う文化圏や業種でもニーズが生まれています。今後も新しい技術や需要を取り入れつつ、皆様に面白いと思っていただけるような製品を提供していきたいと考えています。

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください