
拓海先生、最近部下が顔動画から心拍を測る技術だと騒いでおりまして、何がそんなに新しいのか見当がつきません。これ、本当にうちの工場で使えるんですか。

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば必ず使える点と課題が見えてきますよ。今回の研究は顔動画からの非接触心拍推定、いわゆるrPPG(remote photoplethysmography、非接触光電容積脈波)の精度と頑健性を高める工夫が中心なんですよ。

これって要するに長い時間の顔の変化を見て、より正確に心拍を推定するということですか。うちでいうと、ラインの監視カメラ映像で使うイメージでしょうか。

まさにその通りです。要点は三つありますよ。第一に長時間の時間文脈を扱うことでノイズに強くなる、第二に空間と時間情報をまとめて扱う入力表現を使うことで効率的に特徴を取れる、第三にラベルの少ないデータでも事前学習で表現を鍛えられる点です。順を追って説明しますね。

ラベルが少ないという話は現場に刺さります。データを集めて人が全部ラベル付けするのは現実的ではない。どうやって補っているんですか。

いい質問です。ここは専門用語で自己教師あり学習、Self-Supervised Pre-training(自己教師あり事前学習)と言いますが、簡単にいうと大量のラベルなしデータに対して「疑似ラベル」を作り、それを学習の手掛かりにします。研究では従来法の出力を使った回帰制約や、画像の一部を隠して元に戻す課題を組み合わせて、モデルに有用な表現を覚えさせているんです。

それで、実際のパフォーマンスはどう判断するんですか。うちは投資対効果が命ですから、どの程度改善するのかイメージが欲しい。

実効性は公開データセットでの比較で確認しています。ポイントは比較対象が従来の畳み込みネットワーク中心の手法で、提案モデルは長期の時間情報を活かすことで平均的に誤差が下がっている点です。経営判断で見ていただきたいのは、誤差低下が実働での誤アラームや見逃し減少に直結し得る点と、事前学習により少ない監視データでも性能を確保できる点です。

なるほど。要するに現場の映像をうまく前処理して長い時間の変化を見れば、今より信頼できる心拍データが取れるということだな。これなら費用対効果の議論ができそうです。

その通りです。大丈夫、できないことはない、まだ知らないだけです。まずは小さなパイロットでカメラ映像をMSTmap(Multi-scale Spatial-Temporal Maps、多尺度空間時間マップ)に変換し、事前学習済みモデルで評価してみましょう。効果が出れば段階的に拡大できますよ。

分かりました。要件は二つで、現場に十分な映像の長さがあることと、最初は評価用のラベル付きデータを少し用意することですね。これなら現場と相談できます。では、私の言葉でまとめますと、顔映像を時間軸で広く見て、事前学習で弱いところを補うことで、非接触心拍の精度と頑健性が上がるということです。


