
拓海先生、最近部下から「監視カメラにAIを入れるべきだ」と言われまして、どれも怖くてよく分からないんです。論文を一つ渡されたのですが、要点を教えていただけますか。

素晴らしい着眼点ですね!大丈夫、あの論文は複雑な深層学習を避けて「人の骨格点(キーポイント)」を使い、省リソースで暴力を検出できる方法を示しているんですよ。

それって要するに高価なGPUや大量データを用意しなくても現場に入れられるという話ですか。現場の負担が気になります。

大丈夫、一緒に要点を整理しましょう。要点は三つです。第一に人の骨格点の動き(速度や接近)を特徴として抜き出すこと、第二にその特徴で軽量な分類器を使うこと、第三に深層学習に頼らないため導入と運用が現実的になることです。

なるほど。でも「骨格点」って具体的にはどうやって取るんですか。カメラだけで人の関節を取れるものなのですか。

はい、一般に使われるツールはOpenPose (OpenPose) – 人体姿勢推定ツールのようなソフトウェアで、動画の各フレームから頭や手首、膝といったキーポイント座標を抽出できます。現場では既存カメラで十分な場合が多いです。

ほう、それを使って具体的にどんな情報を抜き出すのですか。速度とか接触の頻度という話でしたね。

その通りです。論文はDynamic Interaction Feature Extraction Module (DIFEM) – 動的相互作用特徴抽出モジュールを提案しています。具体的には各関節のフレーム間移動量(速度)と、ある人物の関節が別人物のバウンディングボックス内に入る回数(近接と衝突の指標)を計算します。

これって要するに危険な動きがあれば手や頭が急に動いて、それを検知するということですか?衝突というのも近づく頻度を見ると。

その認識で合っていますよ。良い着眼点です。要点を三つにまとめると、第一にキーポイントの速度は暴力の特徴を直接反映しうる、第二に空間的重なりは接触の有無を示す、第三にこれらの簡潔な特徴は軽量な統計的分類器で十分識別できる、ということです。

分類器について教えてください。どの程度の精度で現場に使えますか。モデルは重いものですか。

論文ではRandom Forest (Random Forest, RF) – ランダムフォレスト、AdaBoost (AdaBoost) – AdaBoost、k-Nearest Neighbor (k-NN) – k近傍法、Decision Tree (Decision Tree) – 決定木などの軽量分類器を使っています。これらは深層学習に比べて学習と推論が速く、GPUを必須としない点が特長です。

分かりました。結局、現場導入のコストと効果を考えるとまず試してみる価値はありそうです。私なりに説明してみますね。

素晴らしい。ご自身の言葉で要点をまとめていただけますか。きちんと腹落ちすると次の一手が決めやすくなりますよ。

要するに、カメラ映像から人の関節位置を取って、その動きの速さと接近具合を調べるだけで暴力らしき行為を安く早く見つけられるということですね。まずは小さな現場で試験導入して効果を計測します。
