
拓海先生、最近部下から“オフポリシー評価”とか“重要度サンプリング”の話を聞くのですが、正直何が違うのかよく分かりません。うちの現場に関係ありますか?

素晴らしい着眼点ですね!大丈夫、順を追って説明しますよ。今日は反事実推定量(counterfactual estimator)という、過去の別の方針で集めたデータから今の方針の期待値を推定する手法の比較論文を噛み砕いて説明しますよ。

それで、結論からお願いできますか。要するに何を学べば投資対効果が出せますか?

結論は三点です。第一に、使う推定量によってばらつきと偏りのトレードオフが変わること、第二に、複数の方針からデータを取っているときは単純な手法より融合(fused)した手法の方が優れるが改善の余地があること、第三に現場では方針間の差を見極めて重み付けを調整すればコスト対効果が高まるということです。

なるほど。専門用語が多くて不安なのですが、まず“重要度サンプリング”って投資の配分を替えるイメージですか?

いい比喩です!Importance Sampling(IS、重要度サンプリング)は、過去データに重みを付けて今の方針の期待値を推定する方法です。過去のデータを“値段を付け直す”イメージで、重要なデータに高い重みを与えるんですよ。

それでEAやBIS、NISってのがあると聞きましたが、これらは何が違うのですか?これって要するに重みの付け方が違うということ?

その通りです。Empirical Average(EA、経験平均)は単純に観測値の平均をとる手法で重みは一定です。Basic Importance Sampling(BIS、基本重要度サンプリング)は理論的に正しい重みを使うがばらつきが大きくなりやすい。Normalized Importance Sampling(NIS、正規化重要度サンプリング)は重みを正規化してばらつきを抑えるが偏りが入る可能性があるのです。

現場で言えば、安全だけど遅いやり方と、速いがリスクがあるやり方と、その中間ということですね。では実際にどうやって選べばいいのですか?

判断のポイントは三つです。方針間の差の大きさ、観測された報酬のばらつき、そしてデータの偏りです。差が小さければEAで十分、差が大きければBISやその正規化版が有効、複数方針のデータでは融合推定(fused estimator)が一般に優れる、というふうに考えますよ。

わかってきました。要するに、データの集め方やばらつきを見て“どの重み付け”を選ぶかが肝心、ということですね。最後に私が自分の言葉で要点をまとめてもよろしいですか?

もちろんです。まとめていただければ私もフォローアップしますよ。一緒にやれば必ずできますよ。

私の言葉で言うと、過去のデータをどう“再評価”するかで推定の精度が変わる。方針が似ていれば単純平均で済み、違うなら重みを工夫して偏りとばらつきを調整する。そして複数方針が混じる場合は融合して賢く使う、ということですね。


