
拓海先生、最近役員から『画像と言葉を結びつけるAIが偏りを持っているらしい』と言われて困っています。これ、何が問題なのでしょうか。

素晴らしい着眼点ですね!一言で言えば、写真と説明文を結びつける大規模モデルに『ある属性について不公平な関連付け』が起きることが問題です。具体的には性別や年齢などの属性が不当に反映されるんですよ。

うちで使うとなると、例えば採用やマーケティングで誤った結びつきが出たらまずいです。対策にはどんな方法があるのですか。

大丈夫、一緒に整理しましょう。要点は3つです。1) 既存手法は属性ラベルを使って直接学習するが、ラベルの用意が難しい。2) ラベルを使うとその属性が完全に消えてしまい、属性が明記された場合に情報が失われる。3) 新しい方法はラベル不要で、neutral(中立)な説明だけを中立化することでバランスを取る、という考えです。

これって要するに、ラベル付きデータを用意しなくても偏りを減らせるということですか。それなら導入コストが下がりそうに聞こえますが、本当に効果はあるのですか。

良い質問ですよ。効果のポイントを3つで説明しますね。1) 属性が明記された説明文では本来の属性情報を保持する。2) 属性が中立の説明文では属性情報を削ることでモデルのバイアスを下げる。3) 属性ラベルを使わないため、顔中心のデータセットに限定されず多様なデータで学習できる、という点です。

現場に持っていくときに怖いのは「画面に出た説明を消す」みたいな不可逆な操作です。属性が明記されている場合の情報損失はどうやって防げますか。

安心してください。ここが肝です。提案手法は”attribute neutralization”という前処理で、まずテキストが属性を明示しているかを区別します。明示している場合は元の情報を残す。一方で中立的な記述だけを対象にして、後処理でテキスト特徴量を補正します。つまり情報をむやみに消さない工夫がされているのです。

運用面では、うちの古いシステムに組み込めますか。既存の言語画像モデルを全部作り直す必要がありますか。

いい点がありますよ。既存の大規模モデルをゼロから学習し直す必要はありません。小さなデバイジング層を付け足すだけで機能し、必要ならテキストエンコーダだけ差し替えることで画像生成系にも適用できます。投資対効果の面で現実的な選択肢です。

なるほど、投資を抑えられるのは大事です。最後に整理したいのですが、導入検討の観点で要点を一言でお願いします。

要点は三つです。1) 属性ラベルを不要にして幅広いデータで偏りを下げられる。2) 属性が明記された場合の情報は維持するため運用上の安全性が高い。3) 小さなレイヤー追加で既存モデルに適用可能なため導入コストが低い。大丈夫、一緒に進めれば必ずできますよ。

分かりました。自分の言葉で言うと、『ラベルを用意せずに、明記された属性は残して中立的な説明だけから属性情報を取り除くことで、偏りを抑えつつ実運用に組み込みやすい仕組み』ということですね。ありがとうございます、これで社内説明ができます。
