
拓海先生、お時間よろしいですか。部下から『AIでカルテの偏見を見つけられる』と聞いて、正直何をもって偏見というのかピンと来ないんです。

素晴らしい着眼点ですね!大丈夫、分かりやすく噛み砕きますよ。今回の研究は『カルテに記された言葉の感情が、読む人の立場でどう変わって受け取られるか』をAIに判定させる試みです。

なるほど。で、そのAIってどの程度の『目線』を再現できるんですか。医師の目線と患者の目線の違いを判断できるのでしょうか。

今回使ったのはGPT-3.5、Llama 2、Mistralという大きな言語モデルです。これらを短い例文(プロンプト)で誘導して、医療従事者の立場か非従事者の立場かで『その文の感情』を評価させています。

AIに例文を与えて判断させる、というのはわかりました。でも現場の人間の見方とAIの見方がズレたら使い物にならないのではないですか。

とても良い懸念です。研究ではプロバイダー(providers)と一般の非プロバイダー(non-providers)両方の視点でラベルを取り、AIの出力と比較しました。モデルごとに得意不得意があるので、実用には『どのモデルがどの立場に合うか』を見極める必要がありますよ。

これって要するに、〇〇ということ?

いい質問です!おっしゃる通りです。ここでの要点は三つです。第一に、同じ文章でも読む『立場』で感情評価が変わること。第二に、モデルごとにその傾向が分かれること。第三に、それを使って偏見のある表現を抽出しやすくなることです。

投資対効果で言うと、その判定を社内で運用しても価値があるか判断しづらいんです。どれくらい誤判定が出るものなんでしょうか。

現実的な話ですね。研究の結果では、プロバイダー視点に合うモデルと非プロバイダー視点に合うモデルが異なり、完全に一致するわけではありません。そのため、まずはパイロットで狙うユースケースを決め、合格ラインを定めるのが現実的です。

具体的な初期導入案を教えてください。現場の負担が増えない形で運用できるでしょうか。

大丈夫です。一緒にやれば必ずできますよ。まずは既存のカルテの匿名化サンプルを使って、週次でAIが抽出した要注意表現をレビューする運用から始めれば、現場負担は小さく、経営判断に役立つ実績を素早く作れます。

それなら安心できますね。最後に確認です。この論文の肝を私の言葉で言うと、どうまとめられますか。

要点は三つに絞れます。第一、カルテ文の『感情』は読む人の立場で変わる。第二、複数の大規模言語モデル(GPT-3.5、Llama 2、Mistral)を比べると、それぞれ異なる立場に寄せやすい。第三、その差を検出して運用に落とせば、臨床記録が生む不利益を減らせる可能性がある、です。

分かりました。私の言葉で言うと、同じ記述でも『誰が読むか』で印象が変わる。AIでその違いを見つけて、現場での誤解や偏見を減らす手掛かりにする、ということですね。


