日々の暮らしのなかで、私たちはスマートフォンで多くのコンテンツを消費している。ニュースサイトやビデオ、ソーシャルメディアなど、娯楽から仕事関係のものまで多岐にわたる。
スマホでコンテンツを好きな時にチェックできるのは便利だが、目で消費するタイプのものは歩いたり、何か他の作業をしながらのときには向かない。だが、それがテキストベースのコンテンツであれば、「耳で消費する」という手がある。
人工知能(AI)を活用した音声プラットフォームの米スタートアップ、ElevenLabsがこのほどリリースした読み上げアプリは、複数の選択肢から好みの音声を選べるようになっており、今秋にも日本語など多言語に対応するようになる。
ラジオ感覚でテキストコンテンツを楽しめるElevenLabsの読み上げアプリは、記事やブログなどに加えて、メールやPDF形式の書類などあらゆるテキストベースのコンテンツに対応する。使用方法はシンプルで、読み上げて欲しい文を直接書き込んだり、コピペしたりするほか、ウェブページのURLを入力するだけでもいい。コンテンツを入力すると、ほどなくして読み上げが始まる。
文字を「オーディオ化」することで、ユーザーはスマホの画面を見ることなくコンテンツの内容を頭に入れることができる。両手が塞がっているとき、画面ではなく周囲に目を向ける必要があるときに威力を発揮する。
例えば、エクササイズや料理をしながら記事や小説を聞く、出勤時の満員電車の中で会議の資料やメールを頭に入れるという使い方ができる。ラジオやポッドキャストを聞くような感覚でテキストコンテンツを扱える。
人間の抑揚を学習読み上げアプリは他にもあるが、ElevenLabsのアプリの特徴は音声ライブラリーから声を選べるようになっていることだろう。読み上げの音声はAIによるもので、現在は英語のみだが、米国や英国のアクセントに対応する。また、「中年の米国人男性」「ストーリを読むのに最適なキュートな声」などさまざまなバリエーションが用意されている。
そして、往年のスター俳優のジュディ・ガーランドやジェームス・ディーン、ローレンス・オリビエの「声」も音声ライブラリーにこのほど加わった。例えば、ジュディ・ガーランドが出演した映画『オズの魔法使』の原作を、ジュディ・ガーランドの声で聴いて、作品に浸るということもできる。
AIによる有名人の声の生成といえば、ChatGPTが人気女優スカーレット・ヨハンソンさんの声に酷似したものを使用して問題となった。この点、ElevenLabsが加えた俳優の声は、管理する団体に許可を得ている。
また、AIによる読み上げでは、「いかにも機械の声」というものがあるが、ElevenLabsは声のトーンや抑揚などが人間のものに近づけたとしている。
今秋から32言語に対応アプリはiOS先行で提供が始まり、現在はAndoroidでも利用できる。ただし米国、カナダ、英国に限定されており、日本などを含むその他の国々では10月の提供開始が予定されているようだ。
また、サービス提供エリア拡大と同時に現在英語のみの言語も日本語含む計32言語に増える見込み。多言語に対応できるのはAIの強みだろう。
読み上げスピードは調整できるようになっていて、例えば外国語を学習している人は、その言語の記事を自分の理解度に合わせた速さで流すことで、リスニング練習に活用できそうだ。アプリは最初の3か月間、無料で利用できる。
ElevenLabsによると、ユーザーからは「オフラインで利用できるようにしてほしい」「オーディオスニペットを共有できるようにしてほしい」などの要望が寄せられているとのことで、今後さらに使い勝手を改良していくことにしている。
昨年1月創業のElevenLabsは、これまでに有名ベンチャーキャピタルのアンドリーセン・ホロウィッツ(a16z)や、インスタグラムの共同創業者マイク・クリーガー氏などから投資を受けている。
参考・引用元:
ElevenLabs Blog
(文・Mizoguchi)