
拓海先生、最近部下から「病理画像にAIを使えば効率化できる」と聞いたのですが、ちょっと話が突飛で実務に結びつくイメージがわきません。要するに何が進歩したんでしょうか?

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば全く難しくありませんよ。今回の研究は「部分的なラベル情報」だけで細かい領域を学べるという点が肝心で、現場にある曖昧な記録を活かして学習できるんです。

部分的なラベル情報、ですか。うちの現場で言うと診断書には「このスライドの腫瘍はA型が40%、B型が60%」みたいな比率は書かれているけれど、どのピクセルが腫瘍かは書いていない、という状況ですね。それで学べるんですか?

そうなんですよ。研究ではそれを”partial label proportions”と呼んでいます。要点は三つです。第一に、従来は画素やパッチ単位で詳細なラベルが必要だったが、第二に現場で普通に残るのはスライド全体や領域ごとの比率である点、第三にその不完全な情報を二つの弱い監視学習に分解して組み合わせる方法を提示している点です。

これって要するに、細かいラベルを用意しなくても現場で既にある診断の数字を使えばAIが部分的に領域を判定できるということ?

まさにその通りですよ!具体的にはMultiple Instance Learning(MIL)という袋単位の学習と、Learning from Label Proportions(LLP)という比率から学ぶ方法を同時に最適化しているんです。それぞれが補完して、細かい注釈がなくても領域分割が可能になるんです。

投資対効果の観点で聞きたいのですが、現場でラベルを細かく付ける工数を減らせるなら確かに魅力的です。導入するときに現場の誰が何を準備すればいいですか?

いい質問ですね。要点を三つで示します。第一に現場は既存の診断報告書に記載された「サブタイプ比率」を整備すればよく、細かいアノテーションは不要です。第二にデータをパッチ分割する処理だけ技術チームが担えばよく、第三に初期は小さなデータセットで試験運用し、改善点を段階的に潰せば投資リスクを抑えられます。

なるほど。現実的な工程が見えると安心します。最後に、これをうちで使う場合に一番のリスクは何でしょうか?

リスクは二点です。一点目に比率だけだと腫瘍と非腫瘍の境界があいまいになりうる点、二点目に臨床書類の記載基準が組織ごとに異なれば学習がゆがむ点です。しかし研究はその弱点をMILとLLPの組合せでかなり緩和しており、実際のデータで有効性が示されているんですよ。

分かりました。では私の理解で整理しますと、既存の診断比率をデータとして活用し、袋ごとの学習と比率学習を組み合わせることで、細かい注釈なしにスライドの腫瘍サブタイプをある程度分割できる、ということですね。これなら現場負担を減らして試せそうです。
