
拓海先生、最近役員から「公開している集計データで個人が特定されるらしい」と聞きまして。論文があると聞きましたが、要するにどんな問題なんでしょうか?

素晴らしい着眼点ですね!今回の論文は、少数の固定された集計統計(aggregate statistics)だけが公開されている状況で、そこから個々人の機微な属性を当てる攻撃手法を示したものですよ。結論はシンプルで、公開する統計の「種類」と「数」によっては、個人の属性が高確率で推定され得る、ということです。大丈夫、一緒に整理していけますよ。

これって要するに、我々が報告している売上や年齢層の集計だけで誰かの病歴や所得がバレるということですか?それとももっと限定的な話ですか?

素晴らしい着眼点ですね!要するに可能性はある、という理解で良いですよ。論文が示すのは、公開する集計が限られていても、適切な攻撃アルゴリズムを組めば機微属性を推定できるという事実です。ポイントは三つ。1) 決定論的に解ける部分をまず絞り込む、2) 不確かな部分は確率的(stochastic)に補完する、3) 少ない誤認率で脆弱な個人を高精度に識別できる、です。大丈夫、経営判断に使える要点は押さえますよ。

投資対効果の観点で教えてください。今までの手法より悪さされやすいということなら、対策にどれくらいコストがかかるのか不安でして。

素晴らしい着眼点ですね!費用対効果を考えると三つの観点で判断できます。1) 現状の公開集計の数と種類を洗い出すことは低コストで即実行可能、2) ノイズ(差分プライバシーなど)を導入する対策は技術的・運用的コストが発生するが効果は高い、3) 集計クエリの制限や公開方針の見直しは最も現実的で低コストな初手です。大丈夫、一歩ずつ対策できますよ。

先行の再構築攻撃(reconstruction attacks)とどう違うんですか?我が社のデータが狙われるならやり方によって対策も変わりますよね。

素晴らしい着眼点ですね!違いは明確です。再構築攻撃はデータ全体の復元を目指すのに対し、本論文が示す属性推定(attribute inference)は特定の機微属性を直接推定する点で効率的です。つまり全データを復元しなくても、重要な一部の情報だけを狙うため、少数の集計からでも効果を発揮します。対策も部分的に強化すれば良いという発想につながりますよ。

実際にどれくらい当たるんですか?例えば誤認率(false positive)を低くしたときの発見率(true positive)はどれほどですか。

素晴らしい着眼点ですね!報告された結果では、偽陽性率(false positive rate)を0.001に抑えた状況での真陽性率(true positive rate)が0.14という値を示しています。これは多数のユーザー中で真に脆弱な個人を高精度で抽出できることを意味し、特に少数の脆弱者を狙う攻撃にとって脅威が大きいということです。要点は三つ、効果は十分に現実的、低誤認で狙える、部分的な公開でも危険、ですよ。

なるほど。これって要するに我々は公開する統計の「組み合わせ」と「公開数」を見直さないといけないということですね。最後に、私が会議で説明するときに、短く要点を言えるフレーズをいただけますか。

素晴らしい着眼点ですね!会議で使える三行まとめを差し上げます。1) 少数の集計でも個人属性が推定され得る、2) 優先対策は公開クエリの見直しとノイズ追加、3) まずは公開統計の脆弱性評価を即実行、です。大丈夫、一緒に進めれば必ず改善できますよ。

分かりました。自分の言葉で整理しますと、「少数の公開集計でも特定の機微属性は当てられる可能性がある。まずはどの集計がリスクを生むか評価し、必要に応じて公開数やノイズ導入を検討する」ということで間違いないですね。
