レアゾン・ホールディングス、純国産の高精度日本語音声認識モデル「ReazonSpeech」を無償公開
ASCII.jp / 2023年1月20日 20時10分
レアゾン・ホールディングスは1月18日、世界最高レベルの高精度日本語音声認識モデルおよび世界最大1万9000時間の日本語音声コーパス「ReazonSpeech」を無償公開した。
音声コーパスとは音声データとテキストデータを発話単位で対応付けて集めたもの。深層学習で音声認識モデルを作成する材料として使用され、量と品質が音声認識の精度を大きく左右する。
「ReazonSpeech」の構成
ReazonSpeechは、OpenAI Whisperに匹敵する高精度な「ReazonSpeech音声認識モデル」、テレビの録画データなどから音声コーパスを自動抽出する「ReazonSpeechコーパス作成ツール」、世界最大1万9000時間の高品質な日本語音声認識モデル学習用コーパス「ReazonSpeech音声コーパス」の3つからなり、いずれも無償にて公開、商用利用も可能になっている。
世代を重ねて育てたコーパス
ReazonSpeechのコーパスは、ワンセグ放送の録画データから作成ツールを使って自動抽出している
通常、音声コーパスを構築するには音声と字幕テキストを対応付ける膨大なアライメント処理が必要になる。既存の音声認識モデルを利用すれば自動化できるが、その結果得られた音声コーパスは、元の音声認識モデルやその学習に用いた音声コーパスのライセンスの影響を受けてしまう。
そこでReazonSpeechは、最初に自由なライセンスで利用可能な「Mozilla Common Voice」という音声コーパスから構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを元にして再度アラインメント処理を実行する、という過程を幾世代も重ねることによって少しずつ音声コーパスのサイズを増やしたという。現在のサイズは1万9000時間だが、今後さらに規模を拡大する予定だ。
このような手順を経て作成した日本語コーパスを使い、音声処理のためのオープンソースツールキット「ESPnet」に学習させて構築したのが「ReazonSpeech音声認識モデル」だ。
OpenAI Whisperと同等の認識スコア
![](https://ascii.jp/img/2023/01/20/3481045/x/63ba91ce3cf05c0e.png)
ReazonSpeechのプロジェクトウェブサイトには、ReazonSpeech音声認識モデルを用いた文字起こしサービスのデモが用意されており、5秒ではあるが実際に試すことができる。いくつか短い文で試してみたが、いずれもほぼ意図通りに文字起こしが完成した。
![](https://ascii.jp/img/2023/01/20/3481046/x/adc47c40d09edc38.jpg)
上記の表はReazonSpeech音声認識モデルと、他の主要な音声認識モデルであるOpenAI Whisper、LaboroTVSpeechとの精度比較結果だ。単位となるCER(Character Error Rate )の数値が低いほど認識精度が高い。
商用/非商用問わず自由に利用できる
![](https://ascii.jp/img/2023/01/20/3481048/x/1c57375f5d64fbb9.jpg)
ReazonSpeechの音声認識モデルと音声コーパス作成ツールはApacheライセンス2.0にて公開されるので、商用・非商用を問わず自由に利用・改変・再配布可能。同様のコーパスの構築・共有活動に参加することもできる。
音声コーパスは、現著作権者の権利を侵害しないことを前提とするCDLA-Sharing-1.0ライセンスを予定している。このライセンスは、著作権法30条の4によって機械学習モデル構築のための使用に限り利用が認められている。
深層学習を用いた音声認識モデルの開発には、大規模な音声コーパスが必須となるが、これまで日本語で自由に利用可能なコーパスは量が少なく、日本語における音声認識技術の普及を妨げる大きな要因となっていた。無料かつ高品質なReazonSpeech日本語コーパスの登場は研究者にとって朗報となるだろう。
この記事に関連するニュース
-
クラウドCTI「CT-e1/SaaS」でOpenAI社音声認識モデル利用サービスの提供を開始
PR TIMES / 2024年7月19日 11時45分
-
モルフォAIソリューションズ、国立情報学研究所から学術論文用のAI-OCR開発を受託
PR TIMES / 2024年7月10日 12時15分
-
Nejumi LLMリーダーボードがアップデートされ、安全性評価など多数の評価を追加
PR TIMES / 2024年7月1日 19時45分
-
オンプレミス導入も可能な高性能日本語LLM「Llama 3 neoAI 8B Chat v0.1」を公開
PR TIMES / 2024年6月26日 16時45分
-
ファーストアカウンティングが理化学研究所のLLM用インストラクションデータライセンスを取得、研究開発の進展に
PR TIMES / 2024年6月26日 12時45分
ランキング
-
1「やめて……」Amazon公式の誠実対応のせいで経済事情を全世界に公開 「悲しい気遣い」「傷口に砂糖」
ねとらぼ / 2024年7月22日 20時45分
-
2ハロプロ、新幹線トラブルでイベント当日中止 ファンから悔しさと励ましの声「仕方ないとは思いますが」「気にしすぎないでね」
ねとらぼ / 2024年7月22日 19時50分
-
3「画期的!」「すげえ」 テレ東が特番放送→新聞の番組表に描かれた“まさかのデザイン”に驚き
ねとらぼ / 2024年7月22日 19時26分
-
4意外すぎる“一重→二重への大変身メイク”に「ええええ! アイプチせずに、、すごい」「自然。上手すぎ!」 「はるかぜに告ぐ」とんずさんのメイクテクに称賛相次ぐ
ねとらぼ / 2024年7月22日 19時30分
-
5超コンパクト&強力光搭載!耐久性とデザイン性にもこだわった懐中電灯「ZERO FLASH 1200」
IGNITE / 2024年7月22日 10時19分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)