1. トップ
  2. 新着ニュース
  3. 経済
  4. プレスリリース

新しいプライバシー保護データ解析プロトコル「local-noise-free protocol」を開発

共同通信PRワイヤー / 2024年11月29日 12時16分

 シャッフルモデルは、中央集権型モデルと局所型モデルの両方の短所を解決するためのモデルとして近年提案されたものです。具体的には、ユーザとサービス事業者の間に「shuffler」と呼ばれる中間サーバを導入します。従来のシャッフルモデルのプロトコル(図1)では、各ユーザが自身のデータにノイズを加えて暗号化した上でshufflerに送信し、shufflerが受け取ったデータをランダムにシャッフルした上で、サービス事業者に送信します。サービス事業者は受け取ったデータを復号することで、シャッフルされたノイズ付きデータを取り出し、そこからデータ解析結果を求めます。このshufflerによるシャッフルが匿名性を高める効果を持っており、その分、ユーザが加えるノイズを少なくすることができます。また、サービス事業者には元データは送られないため、局所型モデルより高いデータ解析精度を実現しつつ、中央集権型モデルと比べてサービス事業者からの元データの漏洩リスクを低減できます。

 しかし、従来のシャッフルモデルは大きな課題を3つ抱えていました。1つ目の課題は、一部の悪意を持ったユーザが自身のデータと異なる偽のデータを送ることで、データ解析の精度を下げる「ポイズニング攻撃」に対する脆弱性です。特に、プライバシーを高めようとするほど、本来ユーザが加えるべきノイズ量が増加する一方、攻撃者は偽データにノイズを加えなくて良いため、データ解析の精度劣化の度合いが大きくなります。2つ目の課題は、サービス事業者が一部のユーザと結託する「結託攻撃」に対する脆弱性です。具体的には、サービス事業者が、結託したユーザ達のノイズ付きデータを入手することで、シャッフルによる匿名化の効果を下げることができ、その分、他のユーザ達の元データを推定する(即ち、プライバシー情報を暴露する)ことが可能となります。3つ目の課題は、データ解析精度です。具体的には、局所型モデルよりはユーザが加えるノイズを少なくできるものの、依然としてユーザのノイズ量がまだ大きいという問題を抱えています。例えば、全ユーザのデータの頻度分布(Frequency Distribution)※2を推定するタスクにおいては、頻度の小さいカテゴリー(あるいは区間)がノイズに埋もれてしまって高精度な解析ができなくなります。従来では、このような課題に対して、根本的な解決策は提示されていませんでした。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください