Windowsにおける音声認識など、ボイス機能を整理
ASCII.jp / 2023年10月8日 10時0分
Windowsには「Windows 音声認識」(Windows Speech Recognition、以下WSR)という機能が、Windows Vistaから標準で搭載されている。しかし、Windows 11 22H2からは英語に限り「Windows音声アクセス」(Windows Voice Access)が用意された。さらにこれとは別に、Windows 11には「Windows音声入力」(Voice Typing)という機能が導入されている。今回は、Windowsの「ボイス」関連機能を整理する。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618266/x/d36a644a7c696854.png)
そもそもボイス機能とは?
本記事では音声認識などの「音声」を「ボイス」と表記する。というのも、日本語の「音声」には、声以外の楽曲などを含んだ音全体を意味することがあるからだ(たとえば音声入力端子など)。ボイス関連機能とは、音声認識技術を使いなんらかの作業をするものだ。音声認識技術にもいろいろあるが、さらにそれを使った作業によってボイス機能は分類される。
ボイスをテキストに変換するのが「Speech to Text(STT)」だ。この逆、テキストをボイスに変換が「Text To Speech(TTS)」。STTの音声認識に対して、こちらは音声合成と呼ばれる。
もう1つは、音声でなんらかの操作をさせる「Voice Command」や「Speech Command」などだ。GUIでは、対象や機能の選択、アプリケーションの起動などをマウスなどのポインティングデバイスを用いるが、これらを含めて音声でコンピュータを操作するのがVoice Commandである。
コンピュータにおける音声認識技術では、実はこちらのほうが先に実用化されている。発声の中から適切な単語を見つけることができるなら、正確に発音を認識してテキスト化する必要がないからだ。16ビットCPU時代、メーカー製PCのオプションとして音声認識ボードなどが作られ、簡単な操作が可能だった。
Voice Commandは、単にキーやマウス操作を音声で代用するだけでなく、現在のコンピュータの状態を音声で伝える技術も必要になる。画面上のテキストを読み上げる「スクリーンリーダー」に似ているが、音声で伝えるのは画面に表示されているテキストだけでなく、現在のウィンドウでどのような操作が可能なのかなど、文字以外の情報も伝える必要がある。
基本機能として、STT、Voice Commandなどの機能を統合したのがWindows Vistaに搭載された「Windows Speech Recognition」だ。マイクロソフトは、以前からボイス関連の機能を開発してきた。その成果としてWindows XP Tablet PC Editionに統合されたボイス機能があった。
このエディションでは、汎用的に音声入力や音声操作が可能だった。しかし、Tablet PC Editionは、通常のWindowsとは異なるライセンス製品で、一般的なWindowsの機能として統合されたボイス機能の提供はWindows VistaのWSRからとなる。なお、同時にTTSとしてWindowsナレーターも提供され、音声認識/音声合成データは、言語パックの基本的な要素となった。
ただし、WSRはいきなり現在のような形になったわけではなく、Vistaから時間をかけて段階的に発達してきた。たとえば、ボイス機能の下位で使われるオーディオスタック(オーディオ関連機能)の改良などがあった。
Windows 11でのボイス機能はどうなっている?
Windows 10までは、ボイス機能の中心はWSRだったが、Windows 11になってクラウド上のAzure Speech serviceを使う「音声タイプ」(Voice Typing)機能が提供されるようになった。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618267/x/8b853d143f47ccb1.png)
この機能に関しては、Windows 11 21H2(ビルド22000)のプレビュー段階、Windows Insider ProgramのDev Channelで配布されたビルド21301で日本語対応されており、Windows 11は、最初から日本語の音声入力が可能だ。
そもそもAzureのAI音声機能は、クラウド側サーバーで実行されるAI技術利用した音声技術をローカルで利用するためのサービスで、TTS、STT、話者認識などに加え、音声翻訳などの機能を提供する。
しかし、Windows 11 22H2では、従来のWSRに代わるボイス機能としてWindows音声アクセスが別途提供されることになった。なぜ、このような状態になったのかについての説明はないが、Windows音声アクセスの英語以外の言語への展開に時間がかかることを想定して、音声入力だけはAzureの機能を使って他言語に対応させたかったのかもしれない。
ただし、クラウドの利用では、プライバシーへの懸念やセンシティブな内容に関して、組織外に情報が出ることへの懸念などから、消極的になるユーザーも少なくない。このためか、音声アクセスは、ローカルでの実行であることを強調している。
音声認識などのボイス関連技術も、画像認識などと同じくAIの大きな恩恵をうけた分野の1つだ。音声認識のためのニューラルネットワークの学習には、膨大なデータと高い計算力を持ったシステムが必要だが、学習が完了したネットワークは適切な後処理で、推論計算処理を簡略化でき、PC程度のCPU性能があれば、音声のリアルタイム認識程度の推論処理は難しくなくなってきた。また、Windowsも推論ハードウェアの搭載を推奨している。
では、現状の音声アクセスはどんなものか
現状では、音声アクセスは英語のみの対応であるが、その設定ページなどがすでに用意され、ヘルプページなども存在することから、いずれは他の言語に展開する予定はあるのだと考えられる。言語対応は、通常は認識エンジンや学習済みニューラルネットワークの問題であり、言語処理の簡単な英語からというのは理解できなくもない。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618268/x/8afffb71fba4d1d9.png)
音声アクセスとWSRは、ボイスに関する同じような処理に対応するが、わかりやすい違いとしては、Voice Commandの改良がある。WSRでもキーの名前を発音して打鍵させることは可能だったが、音声アクセスでは、タッチキーボード自体の操作をキートップ文字とは別に表示される数値で指定して打鍵させる方法が利用できる。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618269/x/756a7f91c096f674.png)
WSRには「マウスグリッド」と呼ばれるマウスによる選択をボイスで行う機能がある。画面上を9つの領域に分割し、グリッド番号を連続して発音することでマウスポインタの位置を指定する。これに対して音声アクセスにも同様の機能「Show Grid」があるが、こちらはグリッドの数字を選択すると該当範囲のみ表示され、必ずしも連続して番号を言わなくてもよくなった。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618271/x/59268cc9d4a96612.png)
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618270/x/67cda85464a45311.png)
音声アクセスは、Windows 11 Ver.23H2からログイン前の段階から利用できるようになった。WSRはログイン後でなければ不可能だった。
Windowsのボイス機能は、AI機能の導入などもあり、節目に来ているようだ。たとえばプレビュー中のCopilotを使うと、「集中モードをオンにする」といった入力(もちろん音声でも行える)は、質問ではなく作業の指定と受け取られ、「フォーカスセッションを設定する」という確認が表示される。作業を直接音声で指定できなら、GUI操作を音声で細かく指示する必要はない。
![Windowsにおける音声認識など、ボイス機能を整理](https://ascii.jp/img/2023/10/07/3618272/x/5f8c5a1d8fb1c964.png)
この記事に関連するニュース
-
柴咲コウさんの声から生まれたボイスライブラリをリメイクA.I.VOICE(R) galacoを8/5~販売開始決定!
PR TIMES / 2024年7月8日 12時45分
-
スマホ上でも高速動作可能な21言語の高品質ニューラル音声合成技術を開発
共同通信PRワイヤー / 2024年6月25日 14時0分
-
Copilot+PCとともにWindowsのデバイス間連携に大きな変化!? Project ROMEの逆襲?
ASCII.jp / 2024年6月16日 10時0分
-
CoeFont、日本語収録した音声を多言語のAI音声に変換できる「Cross-Language TTS」を無料で一般公開
PR TIMES / 2024年6月13日 12時45分
-
Visual Studio Code 2024年5月の注目すべき新機能
マイナビニュース / 2024年6月10日 14時31分
ランキング
-
1スタバ、一部商品を価格より高く販売していた 約10年にわたりシステム設定に不備、返金へ
ITmedia NEWS / 2024年7月8日 17時3分
-
2「赤ちゃんのお世話がしたいニャ!」ベビーサークル越しに愛を訴える猫ちゃん
おたくま経済新聞 / 2024年7月8日 7時0分
-
3一度植えたら、自動で増殖&毎年収穫を目指せる野菜5種とは? 自然農のエキスパートが伝授する方法に反響
ねとらぼ / 2024年7月8日 9時0分
-
4「わろてる」 人気VTuberが部屋で“でかめのやらかし”をした様子を公開し話題に 「どうなってんのこれw」「想像以上」
ねとらぼ / 2024年7月7日 18時0分
-
5「ナースのお仕事」から28年、当時出演キャストの現在 2008年に逝去した俳優の“回想”シーン登場が話題に
ねとらぼ / 2024年7月6日 7時15分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)