
拓海先生、お忙しいところすみません。最近、部下から「電子カルテのデータを使って患者の全人的健康を測る研究が進んでいる」と聞きまして、でもデータの欠損や誤りが多いと聞くと導入に踏み切れません。要するに現場で役に立つんでしょうか。

素晴らしい着眼点ですね!結論を先に言うと、大丈夫です。重要なのは三点で、まずデータの一部を丁寧に検証して品質を担保すること、次にその検証対象を賢く選ぶこと、最後に検証を統計的に分析に組み込んでバイアスを補正することですよ。

なるほど。つまり全件レビューは現実的でないから一部を精査するわけですね。ですが、どの患者を選ぶかで結果が変わるのではないでしょうか。

その通りです。だから研究では”標的化サンプリング(targeted sampling)”を使い、最も情報量がある患者を選ぶ方法を検討しているんです。例えば、記録が部分的に抜けている患者や、結果に影響を与えそうな特徴を持つ患者に優先的に注目することで、限られたレビュー資源を最大限に生かせるんです。

これって要するに、検証対象の一部を重点的に調べれば全体の品質評価ができるということ? 要はピンポイントでやれば効率が良くなる、と。

まさにその通りですよ。具体的には三つの考え方で効率化できるんです。第一にランダム代表抽出で全体感を掴む、第二に残差サンプリングでモデルが誤りやすい個体を狙う、第三に臨床知見を反映した拡張レビューで欠損を回収する、という順です。これらを組み合わせると投資対効果が高くなるんです。

なるほど、臨床知見というのは具体的にどんなことをするんですか。うちの現場でできることかどうか気になります。

臨床知見の反映は、例えばカルテの補助情報を使って欠けている値を推定したり、専門家が重要と判断する指標を優先的に確認することです。現場で手間のかかる操作を伴う場合は、最初にその負担を測ってから優先度を決めることで現実的に運用できますよ。ですから、現場でできることと研究的に必要な検証をすり合わせて進めるのが肝要なんです。

統計の話も出ましたが、結局どうやって欠損や誤りを分析に組み込むんですか。特別なソフトが必要だったり、膨大な人手が必要になるんじゃないですか。

安心してください。ここも工夫があって、semiparametric maximum likelihood estimation(半母数的最尤推定、以下 semi-parametric MLE)などの手法で、検証データと未検証データを同時にモデルに組み込み、利用可能な全情報を活かして推定することができるんです。特別な巨額のシステムをすぐに導入する必要はなく、段階的に解析を進められるんです。

投資対効果で言うと、最初は小さく始めて効果が見えたら拡大するという流れで良いんですね。最後に、私の理解を確認させてください。自分の言葉でまとめると、限られた人手で電子健康記録を有効活用するには、代表的な標本を取りつつ、情報の多いケースを優先して検証し、その検証結果を統計モデルに組み込んで全体の推定を補正する、ということですか。

素晴らしい着眼点ですね!まさにその通りですよ。短期で実行できるステップを踏めば、現場の負担を抑えつつ信頼できる全人的健康指標を作れるんです。一緒に設計すれば必ず実現できますよ。


