
拓海先生、お忙しいところ恐縮です。最近、部下から「モデルの公平性(fairness)を監査すべきだ」と言われまして、監査をするにはどれだけデータを集めればいいのか教えてほしいと言われました。そもそも「監査で検知できるかどうか」はデータ量で変わるんですか?

素晴らしい着眼点ですね!その通りです、監査で「不公平を見つけられるか」はデータ量に大きく依存しますよ。今日説明する論文は、公正性監査のためにどれだけの標本(サンプル)を集めれば良いかを具体的に計算する方法を示したものです。大丈夫、一緒にやれば必ずできますよ。
要点は次の3つです。まず、何を測るか(公平性の指標)で必要なデータ量は変わる。次に、群ごとのサンプル数が不均衡だと計算が変わる。最後に、小さな予備調査(パイロット)で母集団のばらつきを推定すると良い、という点です。

なるほど。ところで「公平性の指標」って具体的には何を指しますか?例えば採用モデルなら合格率の差ですか、それとも別の何かですか?

良い質問です。公平性の指標にはいくつか種類があります。代表例として、デモグラフィック・パリティ(Demographic Parity、略称: DP、人口学的均等)があり、グループ間の予測割合の差を見るものです。もう一つは偽陽性率/偽陰性率の不均衡(False Positive Rate / False Negative Rate disparity、略称: FPR/FNR 差)で、誤りの種類ごとの差を評価します。
要点は次の3つです。どの指標を選ぶかで分散(ばらつき)が変わるため必要なサンプル数が変わる。TPR/TNRなど結果に依存する指標は推定の分散が大きめで、より多くのデータが必要になる。したがって監査の目的を最初にはっきりさせるべきです。

これって要するに、どの評価軸を見たいかで「投資すべきデータ量」やコストが全然変わるということですか?

その通りです!要するに監査の「目的」を明確にしないとコスト見積もりがブレます。加えて、群ごとにばらつき(variance)が違えば最適なサンプル配分も変わります。たとえば少数群を多めに取らないと検出力(power)が落ちる、ということが起きます。
要点は次の3つです。監査目的を定義する、各群のばらつきを見積もる、最適配分でサンプルを割り当てる。この順番で進めれば無駄なコストを抑えられるんですよ。

では、具体的にどうやって「必要なサンプル数」を計算するのですか。私たちは現場でランダムに大量データを集める余裕はないので、効率的に決めたいのです。

ここが論文の核心です。まず、検定での有意水準(significance level、α)と検出力(power、1−β)を決めます。次に、想定する不公平の大きさ(効果量、effect size)と各群の標準偏差(standard deviation)を使って公式でサンプル数を算出します。公式は指標ごとに違いますが、論文はデモグラフィック・パリティやTPRの差など、実務で使う主要指標に対する具体式を示しています。
要点は次の3つです。事前に検出したい最小差(許容差)を決める、群ごとのばらつきを見積もる、公式に当てはめてサンプル数を得る。これだけで合理的な監査設計が可能になりますよ。

なるほど。ところで群ごとのばらつきはどうやって見積もるのですか。過去のデータがない場合はどうしたらいいのでしょう。

良い点です。過去データがなければ小さなパイロット調査(pilot study)を行って分散を推定するのが現実的です。ただしパイロットの結果をそのまま使うと推定が偏る場合があるので、論文ではパイロットと本調査のデータをプールする手法など、バイアスを抑える方法も示しています。クラウドや大規模データがなくても、効率的に設計できますよ。
要点は次の3つです。パイロットでばらつきを推定する、推定誤差を考慮して余裕を持つ、本調査との組み合わせで偏りを抑える。こうして現実的にデータ収集計画を立てられます。

監査して不公平が見つかったとき、我々はすぐに手を打てるんですか。結果の信頼性が低かったら意味がない気がしてまして。

それが監査設計の肝です。十分な検出力を確保していれば、見つかった差は偶然である確率が低く、手を打つ合理的根拠になります。論文は、どのくらいの差を検出したいか(例えば許容差、Utol)を明確にすることを強調しており、これにより投資対効果(cost-benefit)を議論しやすくなります。
要点は次の3つです。事前に許容差を決める、検出力の設定で誤検出と見逃しを調整する、経営判断に結びつけるために結果の不確かさを定量化する。これで意思決定がブレにくくなりますよ。

わかりました。要するに、監査で目指す「最小限の不公平の大きさ」を決めて、それを検出できるように群ごとのサンプルを設計すれば良い、ということでよろしいですね。私の言葉で言うと、監査は投資であって、狙う損益分岐点を決めてから資金を配分する、というイメージで合っていますか?

完璧です、その通りですよ。監査は投資判断ですから、何を検出したいかを基準にコストを掛けるという考え方で正解です。実務的には、目的(指標)、許容差、検出力、群のばらつきを決めて、公式に当てはめれば必要なサンプル数が得られます。大丈夫、一緒にやれば必ずできますよ。
要点は次の3つです。監査は投資判断である、目的と許容差を決める、パイロットを使って効率的に設計する。これで現場で実行可能な計画になります。

では最後に、私の言葉で要点を整理します。監査で何を見たいかを最初に決め、その「最小で見つけたい差(損益分岐)」に合わせて群ごとのサンプル数を計算する。過去データがなければ小さな試験(パイロット)をしてばらつきを見積もり、必要に応じて少数群を多めに取る。これで費用対効果の高い監査が設計できる、ということですね。


