1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

Windowsにおける音声認識など、ボイス機能を整理

ASCII.jp / 2023年10月8日 10時0分

 Windowsには「Windows 音声認識」(Windows Speech Recognition、以下WSR)という機能が、Windows Vistaから標準で搭載されている。しかし、Windows 11 22H2からは英語に限り「Windows音声アクセス」(Windows Voice Access)が用意された。さらにこれとは別に、Windows 11には「Windows音声入力」(Voice Typing)という機能が導入されている。今回は、Windowsの「ボイス」関連機能を整理する。

Windowsにおける音声認識など、ボイス機能を整理
Windows VistaからWindows 10までは「Windows音声認識」が、Windowsのボイス機能として使われていた。起動すると、画面上部に音声入力状態などを示すインジケーターが表示される

そもそもボイス機能とは?

 本記事では音声認識などの「音声」を「ボイス」と表記する。というのも、日本語の「音声」には、声以外の楽曲などを含んだ音全体を意味することがあるからだ(たとえば音声入力端子など)。ボイス関連機能とは、音声認識技術を使いなんらかの作業をするものだ。音声認識技術にもいろいろあるが、さらにそれを使った作業によってボイス機能は分類される。

 ボイスをテキストに変換するのが「Speech to Text(STT)」だ。この逆、テキストをボイスに変換が「Text To Speech(TTS)」。STTの音声認識に対して、こちらは音声合成と呼ばれる。

 もう1つは、音声でなんらかの操作をさせる「Voice Command」や「Speech Command」などだ。GUIでは、対象や機能の選択、アプリケーションの起動などをマウスなどのポインティングデバイスを用いるが、これらを含めて音声でコンピュータを操作するのがVoice Commandである。

 コンピュータにおける音声認識技術では、実はこちらのほうが先に実用化されている。発声の中から適切な単語を見つけることができるなら、正確に発音を認識してテキスト化する必要がないからだ。16ビットCPU時代、メーカー製PCのオプションとして音声認識ボードなどが作られ、簡単な操作が可能だった。

 Voice Commandは、単にキーやマウス操作を音声で代用するだけでなく、現在のコンピュータの状態を音声で伝える技術も必要になる。画面上のテキストを読み上げる「スクリーンリーダー」に似ているが、音声で伝えるのは画面に表示されているテキストだけでなく、現在のウィンドウでどのような操作が可能なのかなど、文字以外の情報も伝える必要がある。

 基本機能として、STT、Voice Commandなどの機能を統合したのがWindows Vistaに搭載された「Windows Speech Recognition」だ。マイクロソフトは、以前からボイス関連の機能を開発してきた。その成果としてWindows XP Tablet PC Editionに統合されたボイス機能があった。

 このエディションでは、汎用的に音声入力や音声操作が可能だった。しかし、Tablet PC Editionは、通常のWindowsとは異なるライセンス製品で、一般的なWindowsの機能として統合されたボイス機能の提供はWindows VistaのWSRからとなる。なお、同時にTTSとしてWindowsナレーターも提供され、音声認識/音声合成データは、言語パックの基本的な要素となった。

 ただし、WSRはいきなり現在のような形になったわけではなく、Vistaから時間をかけて段階的に発達してきた。たとえば、ボイス機能の下位で使われるオーディオスタック(オーディオ関連機能)の改良などがあった。

Windows 11でのボイス機能はどうなっている?

 Windows 10までは、ボイス機能の中心はWSRだったが、Windows 11になってクラウド上のAzure Speech serviceを使う「音声タイプ」(Voice Typing)機能が提供されるようになった。

Windowsにおける音声認識など、ボイス機能を整理
Windows 11 Ver.21H2(初版)には、Azure Speech serviceを使う「Windows音声入力」が搭載された。こちらは最初から日本語対応していた

 この機能に関しては、Windows 11 21H2(ビルド22000)のプレビュー段階、Windows Insider ProgramのDev Channelで配布されたビルド21301で日本語対応されており、Windows 11は、最初から日本語の音声入力が可能だ。

 そもそもAzureのAI音声機能は、クラウド側サーバーで実行されるAI技術利用した音声技術をローカルで利用するためのサービスで、TTS、STT、話者認識などに加え、音声翻訳などの機能を提供する。

 しかし、Windows 11 22H2では、従来のWSRに代わるボイス機能としてWindows音声アクセスが別途提供されることになった。なぜ、このような状態になったのかについての説明はないが、Windows音声アクセスの英語以外の言語への展開に時間がかかることを想定して、音声入力だけはAzureの機能を使って他言語に対応させたかったのかもしれない。

 ただし、クラウドの利用では、プライバシーへの懸念やセンシティブな内容に関して、組織外に情報が出ることへの懸念などから、消極的になるユーザーも少なくない。このためか、音声アクセスは、ローカルでの実行であることを強調している。

 音声認識などのボイス関連技術も、画像認識などと同じくAIの大きな恩恵をうけた分野の1つだ。音声認識のためのニューラルネットワークの学習には、膨大なデータと高い計算力を持ったシステムが必要だが、学習が完了したネットワークは適切な後処理で、推論計算処理を簡略化でき、PC程度のCPU性能があれば、音声のリアルタイム認識程度の推論処理は難しくなくなってきた。また、Windowsも推論ハードウェアの搭載を推奨している。

では、現状の音声アクセスはどんなものか

 現状では、音声アクセスは英語のみの対応であるが、その設定ページなどがすでに用意され、ヘルプページなども存在することから、いずれは他の言語に展開する予定はあるのだと考えられる。言語対応は、通常は認識エンジンや学習済みニューラルネットワークの問題であり、言語処理の簡単な英語からというのは理解できなくもない。

Windowsにおける音声認識など、ボイス機能を整理
Windows 11 22H2(ビルド22621.2361)の音声認識設定。英語版のみの「音声アクセス」、下に「音声入力」「Windows音声認識」の設定がある

 音声アクセスとWSRは、ボイスに関する同じような処理に対応するが、わかりやすい違いとしては、Voice Commandの改良がある。WSRでもキーの名前を発音して打鍵させることは可能だったが、音声アクセスでは、タッチキーボード自体の操作をキートップ文字とは別に表示される数値で指定して打鍵させる方法が利用できる。

Windowsにおける音声認識など、ボイス機能を整理
Windows音声アクセスでは、画面上部にステータスバーが表示される。「Show keyboard」でタッチキーボードを表示させ、キーに対応した数字を発音することでキー入力も可能になった。複雑なつづりやキーボードによるアプリケーション操作も音声からできる

 WSRには「マウスグリッド」と呼ばれるマウスによる選択をボイスで行う機能がある。画面上を9つの領域に分割し、グリッド番号を連続して発音することでマウスポインタの位置を指定する。これに対して音声アクセスにも同様の機能「Show Grid」があるが、こちらはグリッドの数字を選択すると該当範囲のみ表示され、必ずしも連続して番号を言わなくてもよくなった。

Windowsにおける音声認識など、ボイス機能を整理
Windowsにおける音声認識など、ボイス機能を整理
WSRでは、「マウスグリッド」と話して、画面全体を9つに分割していくグリッド指定でマウス位置やオブジェクトの選択が可能だ。同様の機能は、音声アクセスにもあり「Show Grid」と話すと同様にグリッドを表示するが、改良されていて、連続してグリッド番号を話さなくてもよくなった

 音声アクセスは、Windows 11 Ver.23H2からログイン前の段階から利用できるようになった。WSRはログイン後でなければ不可能だった。

 Windowsのボイス機能は、AI機能の導入などもあり、節目に来ているようだ。たとえばプレビュー中のCopilotを使うと、「集中モードをオンにする」といった入力(もちろん音声でも行える)は、質問ではなく作業の指定と受け取られ、「フォーカスセッションを設定する」という確認が表示される。作業を直接音声で指定できなら、GUI操作を音声で細かく指示する必要はない。

Windowsにおける音声認識など、ボイス機能を整理
プレビュー中のCopilotでは、テキストや音声入力により、Windowsの作業を指定することができる。「集中モードをオンする」と入力すると、確認のダイアログが出る

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください