Infoseek 楽天

検索結果をプロパガンダと陰謀論だらけにするデータボイド(データの空白)脆弱性

ニューズウィーク日本版 2024年4月8日 15時10分

<ネットの検索サービスの根本的な脆弱性を狙って、情報操作を仕掛けるデジタル影響工作が問題となっている......>

検索すると誤・偽情報を信じやすくなるという調査結果

最近のニュースはよくネットでのフェイクニュースやデマのことを取り上げるようになった。誤・偽情報への警戒感が高まったおかげで、政府広報でも「インターネット上の偽情報や誤情報にご注意!」といった記事を掲載して情報源の確認などの対策を解説している。

その一方で、ニュースや情報を確認するためにネットで検索すると誤った情報を信じる確率が高まるという調査結果が出ている。その論文「Deep in the Data Void: China's COVID-19 Disinformation Dominates Search Engine Results」ではニュースや情報を確認するためにネットで検索することをSOTEN(searching online to evaluate news)と呼ぶ。多くの人はSOTENを日常的に行っていると思うので、それが誤・偽情報を信じることに結びつくという結論に納得できないだろう。

  

この論文は記事を読んでからの時間による変化、検索前と後での比較、測定用プラグインをインストールして操作の詳細な追跡などさまざまな角度から調査分析を行っており、そのすべてで検索することが誤った情報を信じることにつながる結果となっている。

検索サービスの根本的な脆弱性=データボイド

原因として指摘されていたのはネットの検索サービスの根本的な脆弱性=データボイド(Data Void)だった。データボイドは文字通り、データが欠落していることである。検索を行った時、たくさんの結果があればその中からもっとも妥当と思われるものを優先的に表示する。公式サイトや信頼のおける官公庁のサイトあるいは、他のサイトから多くリンクされているサイトなど基準はさまざまで変化している。検索した時に優先的に表示されるようにサイトを調整するサーチエンジン対策SEOは今でもサイト運営者にとって重要だ。

では、検索結果が極端に少ない場合、つまりデータボイドの場合はどうなるのだろう? 通常なら優先度が低く、目に触れることもないサイトでも上位に表示されるようになってしまう。これを狙って、情報操作を仕掛けるデジタル影響工作がある。

かつては「ホロコーストはあったのか?」という偽情報の見出しをそのまま検索すると、そのタイトルあるいは類似の見出しを持つサイトが上位に表示された。誤・偽情報のタイトルをそのまま検索するとその言葉がそのまま該当するサイトとして問題のあるサイトが上位に表示されてしまう現象だ。多くの場合、ホロコーストを否定するサイトだった。現在の検索エンジンはそうならないようチューニングされているが、すべての言葉が調整されているわけではない。

データボイド脆弱性を中国のプロパガンダメディアが利用した

コロナ禍では中国がデータボイド脆弱性を利用してコロナ起源はアメリカ陸軍のフォート・デトリック研究所という偽情報の拡散を行っていた。2021年の8月から9月頃、グーグルニュースで「フォート・デトリック(Fort Detrick)」を検索すると、中国のプロパガンダメディアCGTNとGlobal Timesで占められていた。YouTubeでもトップの6つの検索結果のうち4つを中国メディアが占めた。

このように陰謀論などは、ふつうならほとんど検索されることのない固有名詞(「フォート・デトリック」など)あるいは文章(「ホロコーストはあったのか?」など)で生じるデータボイド脆弱性を悪用する。疑問を持った人々が検索すると、そこに表示されるのは陰謀論のサイトばかりになる。

データボイドの問題は検索エンジンだけではなく、SNSプラットフォームでの検索、動画サイトの検索、検索の際に表示されるサジェストワードなども起きる。グーグルでは検索に対して、回答がすぐに表示されることがある。たとえば「30+11=」と入力すると「41」という答えを表示した電卓が表示される。2017年に、「オバマはクーデターを計画しているか?」と入力すると、グーグルは「任期終了時に共産主義者によるクーデターを計画している可能性があります」と答えていた。今、日本語で同じことを入力すると、グーグルが偽情報を拡散している、というニュース記事が上位に表示される。検索エンジンは裏側でデータボイド脆弱性に対処してきた。ただ、まだ充分と呼べるレベルには達していない。

5年間ほとんど放置されてきたデータボイド脆弱性

データボイド脆弱性には5つの対応があることが指摘されている。

1.ニュース速報
大きなニュースが速報で流れると、それを反映した検索が大量に発生する。しかし、その検索に対応したコンテンツがほとんどない場合も多く、ここにデータボイド脆弱性がある。あまりニュースに登場しない地名が現れる場合は特にそうだ。

2.戦略的新用語
新しい言葉を作ったり、過去に使われていてもあまり知られていなかった言葉を使うこともある。当然ながら、その用語で検索しても結果はほとんどないため、操作が可能となる。

3.時代遅れの言葉
ほとんど使われなくなった言葉も利用できる。使われなくなっても言葉は検索エンジンに残る。ニュース速報のように爆発的に伸びることないが、たまに検索する人を騙すことはできる。

  

4.言葉の組み合わせ
単語だけではなく、言葉の組み合わせでもデータボイドが生まれる。2018年の夏にバチカンで性的問題のスキャンダルが起きた際、「バチカンの性的虐待」と「バチカンの小児性愛者」と検索すると全く異なる結果が出ていた。

5.問題のある検索
前述の「ホロコーストはあったのか?」や「オバマはクーデターを計画しているか?」はまっとうなサイトは取り上げないテーマであるため、陰謀論サイトが上位に来やすくなっていた。データボイド脆弱性が生まれやすくなっている。

データボイド脆弱性の問題は5年前のデータ&ソサエティ研究所の「DATA VOIDS Where Missing Data Can Easily Be Exploited」で明らかになったが、その後ほとんど研究されていない。正確にはデータボイド脆弱性に言及する研究はあったが、データボイド脆弱性そのものを調査研究したものはないようだ。検索エンジンは対処を進めていたが、それ以外の調査研究は進まずデータボイド脆弱性は5年間放置されていたことになる。

その理由は根本的な対策が難しいためと、ヘイトや偽情報そのもののようにはっきりと目に見えるわかかりやすいものではないためだろう。研究や対策が進まない一方で悪用は進んでいた。

中国が多用するデータボイド脆弱性

実はデータボイド脆弱性には前述した以外にも深刻な問題がある。それは英語圏以外の対処が遅れていることだ。この問題は2つの側面があり、ひとつは単純に英語以外の言語で検索した結果の調整は英語ほど進んでいないこと、もうひとつはたとえ英語であっても英語圏以外の地名などの固有名詞の多くは英語で表現されることがないため、データボイド脆弱性が発生しやすいことだ。

中国はこのことを承知しており、デジタル影響工作に利用している。たとえばグーグルとBingのニュース検索およびYouTubeでの検索で中国の国営メディアが16%以上を占めていたという調査結果をブルッキングス研究が発表している。さらにXinjiang(新疆)で検索すると、ニュース検索では88%、YouTubeで検索すると98%の確率で中国の国営メディアが検索結果に表示された。ちなみに日本に関係する言葉では731部隊で検索すると、ニュース検索では100%、YouTube検索でも90%以上だった。

また、少数民族のインフルエンサー=フロンティア・インフルエンサーを利用して多数の動画をYouTubeにアップし、検索結果を侵食している。

狙われやすい日本

こういった事情から日本はデータボイド脆弱性を突いた攻撃の格好の標的になり得る。たたとえば、2021年11月1日から2022年2月28日の120日間、グーグルとBingのニュース検索すると、前述のデータ&ソサエティ研究所の論考などちゃんとしたページが上位に表示される。しかし、「データボイド脆弱性」で検索すると、私のnoteのページが上位に表示される。ちょっと言葉の組み合わせを変えるだけで簡単に上位に表示される。日本語では「データボイド」という言葉そのものにデータボイド脆弱性が発生している。

さらに日本の地名は世界の多くの国の人にとってなじみがなく検索されることも稀だろう。自然災害などが起きた時にデータボイド脆弱性が悪用される可能性は高い。こうしたことを考えると、非英語圏では特にデータボイド脆弱性に留意した誤・偽情報対策を考える必要がある。安易にSOTENを薦めることは危険だ。



この記事の関連ニュース