
拓海先生、最近うちの部下が「人の判断を学習させればAIの公平性が上がる」と言うのですが、本当に全員にとって公平になるのですか。

素晴らしい着眼点ですね!結論から言えば、人のフィードバックは万能ではなく、誰の嗜好を学ぶかでAIの振る舞いが変わるんですよ。

それは困ります。うちが導入してしまったら、特定の年齢層や政治的立場に偏った判断をするようになったらどうするのですか。

大丈夫、一緒に整理しましょう。論文ではHuman Feedback (HF) 人間のフィードバックを得て、どのようにFairness(公正性)を学習するかを調べていますよ。

これって要するに、どのグループからフィードバックを取るかでAIの判断が変わるということですか?

その通りです。重要なポイントを三つに分けて説明しますね。第一、あるデモグラフィックの嗜好が集中的に反映されると、そのグループに寄った判定になること。第二、異なるグループごとに学習モデルを作ると評価値が変わること。第三、複数モデルの合議で性能が改善する可能性があることです。

具体的にはどんな実験をしたのですか。誰が回答したかによってラベルが違うということですか。

はい。研究者はオンラインのクラウドソーシングから多様な回答者を集め、同じ文の組を提示してどちらがより不適切か、あるいは同等に扱うべきかを選ばせました。その回答は年齢、政治観、教育、LGBTQ+のアイデンティティなどで差が出たのです。

それを機械に学習させたらどうなるのですか。うちの現場で使ったら現実の顧客に不利益が出ませんか。

注意点はそこです。研究では、あるデモグラフィックのアノテーションで学習したモデルと別のグループで学習したモデルを同一のテストセットで比較すると、Balanced Accuracy(バランスド・アキュラシー)で統計的差が出ました。つまり導入先の利用者像に合ったデータでないとミスマッチが生じる可能性があるのです。

なるほど。対策はありますか。全員の嗜好を混ぜれば良いですか、それとも分けて運用するのですか。

研究はアンサンブル手法の可能性を示唆しています。複数のデモグラフィック別のモデルを作り、投票などで合議することで精度が上がる場合がありました。ただし合議の集約ルール自体が公平性の価値判断を含むため、運用前に誰の価値を優先するかを意思決定する必要があります。

分かりました。要するに、誰のフィードバックを採るか、どう集約するかを決めないと、AIは会社の期待通りに振る舞わないということですね。自分の言葉でまとめると、導入前に対象ユーザー像と意思決定ルールを定め、必要なら複数モデルで合議する仕組みを設ける、と理解しました。


