米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。
Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。
Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示していない。
OpenAIはAssociated Pressを含む多数のメディアやRedditなどとコンテンツ利用に関する契約を結んでいる。
記事によると、ミシガン大学の研究者は、公開会議の研究において、Whisperによる文字起こしの10件中8件に幻覚を発見した。コーネル大学とバージニア大学の教授らは、カーネギーメロン大学が主催するTalkBankから入手した数千の短い音声サンプルを調査した。その結果、幻覚の約40%が話し手の誤解や歪曲につながる可能性があるため、有害または懸念されるものであると判断した。
例えば、話し手が「他の2人の女の子と1人の女性」について話している箇所の文字起こしで、Whisperは「他の2人の女の子と1人の女性、えーと、その人は黒人だった」と人種に関するコメントを捏造した。
OpenAIは論文(PDF)で、データセット固有の癖を反映してしまう可能性や、言語識別精度の低さなどの問題点を課題として挙げている。
Associated Pressによると、3万人以上の臨床医と40の医療システムが、米Nabla社が開発したWhisperベースのツールを使用しているという。
NablaはWhisperが幻覚を起こす可能性を認識しており、この問題に対処していると述べている。だが、このツールは患者のプライバシーを保護するため、文字起こしの元となる音声録音は削除しており、音声と文字起こしの違いを確認することはできない。
Associated Pressは、Whisperの出力を鵜呑みにせず、特に医療現場など重要な意思決定の場面では慎重に確認する必要があるとしている。Whisperの幻覚問題がAI全般における倫理的な問題を提起していることも示唆し、AIの利用が拡大する中で、その潜在的なリスクを認識し、適切な対策を講じることの重要性を強調した。