グーグル、100以上の言語に対応した音声AIを公開
ASCII.jp / 2023年3月9日 12時50分
グーグルは3月6日(現地時間)、300を超える言語にまたがる1200万時間の音声データと280億のテキストデータで訓練された自動音声認識モデル「Universal Speech Model(USM)」を発表、YouTubeの字幕生成に活用されるほか、研究者向けにAPIも公開されている。
USMは英語や北京語など広く話されている言語だけでなく、アムハラ語(エチオピア)、セブアノ語(フィリピン)、アッサム語(インド北東部)、アゼルバイジャン語など比較的話者の少ない言語についても自動音声認識(ASR)が可能となっている。
現在のASRにおける課題
ASR開発においては、音声データとそれに対応するラベルと呼ばれるテキストデータを対にした大量のデータセットを用いて学習させる「教師あり学習」と呼ばれる機械学習の手法が主流となっている。
だが、英語や中国語などサンプルとなるソースの多い言語と異なり、話者の少ない言語はそもそもサンプルとなる音声データが少ないうえに、手作業でラベルを付加(ラベリング)する必要もあるため時間とコストがかかるという課題がある。
グーグルは2021年11月に公開した記事「3 ways AI is scaling helpful technologies worldwide」の中で、世界で話されている上位1000言語をサポートする機械学習(ML)モデルを構築する「1000 Languages Initiative」という目標を発表している。
だが、これらの言語の中には話者数が比較的少ないものも多く含まれており、利用可能なデータが限られている言語をどのようにサポートするかが中心的な課題となっていた。
また、言語のカバー範囲と品質を拡大する一方で、マシンリソースとの兼ねあいから計算効率が高い方法でモデルを改善する必要もあるため、学習アルゴリズムが柔軟で効率的かつ一般化可能であることも重要となるという。
3ステップからなる「微調整を伴う自己教師あり学習」を採用
そこでUSMでは「教師あり学習」に代わり主に「自己教師あり学習」という手法を採用している。
「自己教師あり学習」は音声に対応したラベルが必要な「教師あり学習」と違い、データ自身から独自のラベルを機械的に作り、それをもとにタスクをするため、ラベル付きデータセットを必要としないという特徴がある。
USMはラベルのない大規模な多言語データセットを利用して「自己教師あり学習」による事前学習を行ない、その後に少量のラベル付きデータセットで微調整を行うことで、十分に普及していない言語を認識できることを実証した。この方式は「微調整を伴う自己教師あり学習」と表現されている。
![](https://ascii.jp/img/2023/03/08/3504282/x/da4b61a14af26236.png)
「微調整を伴う自己教師あり学習」は3つのステップで構成されている。
第1ステップでは、実績のある「BEST-RQ」モデルを使用して、300以上の言語を含むラベルのない大量の音声データから「自己教師あり学習」を行なう。作業的にはこのステップが全体の80%を占める。
ラベル付きの音声データがある場合は、第2ステップで「教師あり学習」を用い追加の知識を取り込む。なお、このステップは省略できる。
そして第3ステップでは実際に使用する環境(ここではYouTube字幕)にあわせた少量のラベル付きデータを用いて、微調整をする。
誤答率はOpenAIのWhisperを下回る結果に
![](https://ascii.jp/img/2023/03/08/3504281/x/216c88e73d053444.png)
上記のステップを経てトレーニングされたUSMを、Youtubeの字幕データ(73言語)でテストしたところ、73言語の平均単語誤答率(WER)30%以下を達成したという。
また、アメリカ英語に限れば自社のこれまでの記録よりも6%低い誤答率を、さらにOpenAIが提供する40万時間以上のラベル付きデータで学習された「Whisper」と比較して平均で32.7%相対的にWERが低いという結果を示した。
グーグルは「世界の情報を整理し、誰でもアクセスできるようにする」というミッションを掲げており、1000言語という目標に到達するための基盤技術としてUSMは位置付けられている。
この記事に関連するニュース
-
JetBrains、ブラウザ拡張機能としても利用できるAIライティングサポートツール「Grazie」
マイナビニュース / 2024年6月28日 15時32分
-
「日本の声優のすばらしさ広めたい」アニメの世界観ごと輸出するAI吹き替え技術
ASCII.jp / 2024年6月26日 10時0分
-
AI英会話アプリ「スピーク」がシリーズB-3ラウンドとしてOpenAI Startup Fundなどから2000万ドル(約31億円)を調達。1年足らずで評価額が2倍の5億ドル(約790億円)に
PR TIMES / 2024年6月21日 11時45分
-
声と話し方を好みのスタイルに一瞬で変える ~高音質かつ低遅延なリアルタイム音声変換~
Digital PR Platform / 2024年6月17日 10時0分
-
サイバーエージェント、大規模“視覚”言語モデル(VLM)を公開‐日本語に対応
マイナビニュース / 2024年6月13日 14時0分
ランキング
-
1楽天ペイと楽天ポイントのキャンペーンまとめ【7月4日最新版】 楽天ペイアプリでポイント最大10倍もらえる
ITmedia Mobile / 2024年7月4日 10時5分
-
2ドコモ、au、ソフトバンク、楽天モバイルの端末セールまとめ【7月5日最新版】 新スマホ「AQUOS R9」「Xperia 1 VI」をお得に入手しよう
ITmedia Mobile / 2024年7月5日 10時5分
-
37月10日は「納豆の日」 LINEヤフーが納豆にまつわる検索データ公開 ユーザーの関心明らかに
iza(イザ!) / 2024年7月5日 11時19分
-
4「知らんかった」 Googleで“あるワード”を検索すると……? あまりに“癒やし”な「隠し機能」に5万いいね「延々とやっちゃう」
ねとらぼ / 2024年7月4日 20時45分
-
5「ドコモ光 1ギガ」旧プランを2025年6月に提供終了、解約金の安い新プランへ自動移行
マイナビニュース / 2024年7月4日 19時15分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)