グーグル、100以上の言語に対応した音声AIを公開
ASCII.jp / 2023年3月9日 12時50分
グーグルは3月6日(現地時間)、300を超える言語にまたがる1200万時間の音声データと280億のテキストデータで訓練された自動音声認識モデル「Universal Speech Model(USM)」を発表、YouTubeの字幕生成に活用されるほか、研究者向けにAPIも公開されている。
USMは英語や北京語など広く話されている言語だけでなく、アムハラ語(エチオピア)、セブアノ語(フィリピン)、アッサム語(インド北東部)、アゼルバイジャン語など比較的話者の少ない言語についても自動音声認識(ASR)が可能となっている。
現在のASRにおける課題
ASR開発においては、音声データとそれに対応するラベルと呼ばれるテキストデータを対にした大量のデータセットを用いて学習させる「教師あり学習」と呼ばれる機械学習の手法が主流となっている。
だが、英語や中国語などサンプルとなるソースの多い言語と異なり、話者の少ない言語はそもそもサンプルとなる音声データが少ないうえに、手作業でラベルを付加(ラベリング)する必要もあるため時間とコストがかかるという課題がある。
グーグルは2021年11月に公開した記事「3 ways AI is scaling helpful technologies worldwide」の中で、世界で話されている上位1000言語をサポートする機械学習(ML)モデルを構築する「1000 Languages Initiative」という目標を発表している。
だが、これらの言語の中には話者数が比較的少ないものも多く含まれており、利用可能なデータが限られている言語をどのようにサポートするかが中心的な課題となっていた。
また、言語のカバー範囲と品質を拡大する一方で、マシンリソースとの兼ねあいから計算効率が高い方法でモデルを改善する必要もあるため、学習アルゴリズムが柔軟で効率的かつ一般化可能であることも重要となるという。
3ステップからなる「微調整を伴う自己教師あり学習」を採用
そこでUSMでは「教師あり学習」に代わり主に「自己教師あり学習」という手法を採用している。
「自己教師あり学習」は音声に対応したラベルが必要な「教師あり学習」と違い、データ自身から独自のラベルを機械的に作り、それをもとにタスクをするため、ラベル付きデータセットを必要としないという特徴がある。
USMはラベルのない大規模な多言語データセットを利用して「自己教師あり学習」による事前学習を行ない、その後に少量のラベル付きデータセットで微調整を行うことで、十分に普及していない言語を認識できることを実証した。この方式は「微調整を伴う自己教師あり学習」と表現されている。
「微調整を伴う自己教師あり学習」は3つのステップで構成されている。
第1ステップでは、実績のある「BEST-RQ」モデルを使用して、300以上の言語を含むラベルのない大量の音声データから「自己教師あり学習」を行なう。作業的にはこのステップが全体の80%を占める。
ラベル付きの音声データがある場合は、第2ステップで「教師あり学習」を用い追加の知識を取り込む。なお、このステップは省略できる。
そして第3ステップでは実際に使用する環境(ここではYouTube字幕)にあわせた少量のラベル付きデータを用いて、微調整をする。
誤答率はOpenAIのWhisperを下回る結果に
上記のステップを経てトレーニングされたUSMを、Youtubeの字幕データ(73言語)でテストしたところ、73言語の平均単語誤答率(WER)30%以下を達成したという。
また、アメリカ英語に限れば自社のこれまでの記録よりも6%低い誤答率を、さらにOpenAIが提供する40万時間以上のラベル付きデータで学習された「Whisper」と比較して平均で32.7%相対的にWERが低いという結果を示した。
グーグルは「世界の情報を整理し、誰でもアクセスできるようにする」というミッションを掲げており、1000言語という目標に到達するための基盤技術としてUSMは位置付けられている。
この記事に関連するニュース
-
日本では海外作品を観る時は「字幕派」が多数!海外作品を観ない人も2割いることが判明
PR TIMES / 2024年11月19日 16時16分
-
「多言語コミュニケーション」強化するAI…吹き替えの口の動き・話し方も言語に合わせる
KOREA WAVE / 2024年11月19日 11時0分
-
グーグル、iOS版「Gemini」アプリを公開 日本語で自然な会話ができるGemini Liveにも対応
ASCII.jp / 2024年11月15日 11時40分
-
リコー、地域における学習環境開発プロジェクトにAIエージェントを提供
Digital PR Platform / 2024年11月6日 11時3分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
ランキング
-
1クラファン始動から約12年、“いまだ未完成”なのに…約1,125億円超えの資金をユーザーから集めたゲーム
Game*Spark / 2024年11月29日 11時5分
-
2NHKのネット受信契約(案)が“ダークパターン”過ぎて見過ごせない件(前編) NHKの見解は?
ITmedia NEWS / 2024年11月28日 19時9分
-
3ITジャーナリスト三上洋氏が解説!急増している迷惑電話、犯罪の手法と対策
ITライフハック / 2024年11月29日 9時0分
-
4巨大エンタメ企業に潜んでいた“死角”――ソニーのKADOKAWA買収は外資牽制の一手になるか
ITmedia NEWS / 2024年11月29日 12時19分
-
5スクエニ運営のバーチャルアイドルグループ「GEMS COMPANY」現体制での活動に一区切りへ…12月7日のライブをもって
インサイド / 2024年11月29日 14時45分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください