2025.10.20

論文研究

6 分で読了

0 views

公正性監査のための標本サイズ計算の簡潔チュートリアル

（A Brief Tutorial on Sample Size Calculations for Fairness Audits）

#Fairness

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お忙しいところ恐縮です。最近、部下から「モデルの公平性（fairness）を監査すべきだ」と言われまして、監査をするにはどれだけデータを集めればいいのか教えてほしいと言われました。そもそも「監査で検知できるかどうか」はデータ量で変わるんですか？

AIメンター拓海

素晴らしい着眼点ですね！その通りです、監査で「不公平を見つけられるか」はデータ量に大きく依存しますよ。今日説明する論文は、公正性監査のためにどれだけの標本（サンプル）を集めれば良いかを具体的に計算する方法を示したものです。大丈夫、一緒にやれば必ずできますよ。

要点は次の3つです。まず、何を測るか（公平性の指標）で必要なデータ量は変わる。次に、群ごとのサンプル数が不均衡だと計算が変わる。最後に、小さな予備調査（パイロット）で母集団のばらつきを推定すると良い、という点です。

田中専務

なるほど。ところで「公平性の指標」って具体的には何を指しますか？例えば採用モデルなら合格率の差ですか、それとも別の何かですか？

AIメンター拓海

良い質問です。公平性の指標にはいくつか種類があります。代表例として、デモグラフィック・パリティ（Demographic Parity、略称: DP、人口学的均等）があり、グループ間の予測割合の差を見るものです。もう一つは偽陽性率/偽陰性率の不均衡（False Positive Rate / False Negative Rate disparity、略称: FPR/FNR 差）で、誤りの種類ごとの差を評価します。

要点は次の3つです。どの指標を選ぶかで分散（ばらつき）が変わるため必要なサンプル数が変わる。TPR/TNRなど結果に依存する指標は推定の分散が大きめで、より多くのデータが必要になる。したがって監査の目的を最初にはっきりさせるべきです。

田中専務

これって要するに、どの評価軸を見たいかで「投資すべきデータ量」やコストが全然変わるということですか？

AIメンター拓海

その通りです！要するに監査の「目的」を明確にしないとコスト見積もりがブレます。加えて、群ごとにばらつき（variance）が違えば最適なサンプル配分も変わります。たとえば少数群を多めに取らないと検出力（power）が落ちる、ということが起きます。

要点は次の3つです。監査目的を定義する、各群のばらつきを見積もる、最適配分でサンプルを割り当てる。この順番で進めれば無駄なコストを抑えられるんですよ。

田中専務

では、具体的にどうやって「必要なサンプル数」を計算するのですか。私たちは現場でランダムに大量データを集める余裕はないので、効率的に決めたいのです。

AIメンター拓海

ここが論文の核心です。まず、検定での有意水準（significance level、α）と検出力（power、1−β）を決めます。次に、想定する不公平の大きさ（効果量、effect size）と各群の標準偏差（standard deviation）を使って公式でサンプル数を算出します。公式は指標ごとに違いますが、論文はデモグラフィック・パリティやTPRの差など、実務で使う主要指標に対する具体式を示しています。

要点は次の3つです。事前に検出したい最小差（許容差）を決める、群ごとのばらつきを見積もる、公式に当てはめてサンプル数を得る。これだけで合理的な監査設計が可能になりますよ。

田中専務

なるほど。ところで群ごとのばらつきはどうやって見積もるのですか。過去のデータがない場合はどうしたらいいのでしょう。

AIメンター拓海

良い点です。過去データがなければ小さなパイロット調査（pilot study）を行って分散を推定するのが現実的です。ただしパイロットの結果をそのまま使うと推定が偏る場合があるので、論文ではパイロットと本調査のデータをプールする手法など、バイアスを抑える方法も示しています。クラウドや大規模データがなくても、効率的に設計できますよ。

要点は次の3つです。パイロットでばらつきを推定する、推定誤差を考慮して余裕を持つ、本調査との組み合わせで偏りを抑える。こうして現実的にデータ収集計画を立てられます。

田中専務

監査して不公平が見つかったとき、我々はすぐに手を打てるんですか。結果の信頼性が低かったら意味がない気がしてまして。

AIメンター拓海

それが監査設計の肝です。十分な検出力を確保していれば、見つかった差は偶然である確率が低く、手を打つ合理的根拠になります。論文は、どのくらいの差を検出したいか（例えば許容差、Utol）を明確にすることを強調しており、これにより投資対効果（cost-benefit）を議論しやすくなります。

要点は次の3つです。事前に許容差を決める、検出力の設定で誤検出と見逃しを調整する、経営判断に結びつけるために結果の不確かさを定量化する。これで意思決定がブレにくくなりますよ。

田中専務

わかりました。要するに、監査で目指す「最小限の不公平の大きさ」を決めて、それを検出できるように群ごとのサンプルを設計すれば良い、ということでよろしいですね。私の言葉で言うと、監査は投資であって、狙う損益分岐点を決めてから資金を配分する、というイメージで合っていますか？

AIメンター拓海

完璧です、その通りですよ。監査は投資判断ですから、何を検出したいかを基準にコストを掛けるという考え方で正解です。実務的には、目的（指標）、許容差、検出力、群のばらつきを決めて、公式に当てはめれば必要なサンプル数が得られます。大丈夫、一緒にやれば必ずできますよ。

要点は次の3つです。監査は投資判断である、目的と許容差を決める、パイロットを使って効率的に設計する。これで現場で実行可能な計画になります。

田中専務

では最後に、私の言葉で要点を整理します。監査で何を見たいかを最初に決め、その「最小で見つけたい差（損益分岐）」に合わせて群ごとのサンプル数を計算する。過去データがなければ小さな試験（パイロット）をしてばらつきを見積もり、必要に応じて少数群を多めに取る。これで費用対効果の高い監査が設計できる、ということですね。

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

公正性監査のための標本サイズ計算の簡潔チュートリアル

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

公正性監査のための標本サイズ計算の簡潔チュートリアル

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

監修者

論文研究シリーズ

関連記事

関連タグ

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ