
拓海先生、最近うちの現場でも「サイトごとに結果が違う」と報告が来るのですが、ランダム化試験でそこから何が分かるのか、正直ピンと来ません。手元の資源で導入判断をするとき、どう見れば良いのでしょうか。

素晴らしい着眼点ですね!大丈夫、整理すれば見えてくるんですよ。まず結論を先に言うと、複数の現場(サイト)でのランダム化試験は、条件を付ければ「どのタイプの人に効いているか」をより詳しく推定できるんです。

それは要するに、現場ごとの差を使って効果の内訳を取れる、ということですか?でもそれって追加の仮定が必要なんじゃありませんか。投資に見合う結果が出るか心配でして。

その通りです。核心は「どの仮定を受け入れるか」です。ここで便利なのが”principal stratification”(プリンシパル・ストラティフィケーション、主要層別化)という考え方で、治療後に観察される振る舞いのタイプ(例えば受けるかどうか)で人を分け、そのタイプごとの効果を考えるんです。

プリンシパル・ストラティフィケーション、ですね。聞き慣れませんが、つまり現場ごとの”参加する人の構成”が違えば、それに応じて効果も違う、という理解でいいですか?これって要するに現場が第二の“器具”のように働くということですか。

良い整理です!その比喩は使えますよ。ただし重要なのは、単に器具(サイト)を使うだけでなく、その器具が”誰をどの層に割り振るか”が変わる点です。そして論文では、サイト間のばらつきを利用して層別の効果を推定するために、追加で「サイト固有の効果とサイトごとの層の分布が無相関である」という強い仮定を置いています。

無相関、ですか。それは現実的に言うと、たとえばベテラン教員がいる学校だから効果が高い、というような”質と構成の混同”がないと仮定するということでしょうか。現場の実情を考えると怪しい気もします。

その懸念は正当です。だから論文は仮定を無条件に押し付けるのではなく、複数のサイトが「母集団としてのサイト」から抽出されるという視点を使い、個々のサイトでゼロであることを要求するのではなく、サイト平均でゼロとするような緩い仮定を議論しています。実務では感度分析や補助的なデータでその仮定を検証することが重要です。

感度分析や補助データで検証する、ですね。うちの経営判断で必要なのは投資対効果です。結論だけまとめてもらえますか、現場に落とすときの要点を3つで。

大丈夫、要点は三つです。1つ目、複数サイトの差を使えば”どのタイプの人に効いているか”が推定できる可能性があること。2つ目、その推定は「サイトの層分布とサイト内効果が平均で無相関」という強い仮定に依存すること。3つ目、実運用では感度分析や追加データで仮定の妥当性を検証し、投資判断に反映することが必要であることです。一緒に手順を作れば必ずできますよ。

ありがとうございます。では最後に、私の理解を確認させてください。要するに「複数の現場差を利用して層別の効果を見られるが、そのためにはサイトごとの構成と効果が平均的に無相関であるという仮定を置く。現場で使うにはその仮定を確かめる工程が必要だ」ということで間違いないでしょうか。これなら部下にも説明できます。


