DIFEMによる動画における暴力行為認識のためのキーポイント相互作用特徴抽出モジュール(DIFEM: Key-points Interaction based Feature Extraction Module for Violence Recognition in Videos)

田中専務

拓海先生、最近部下から「監視カメラにAIを入れるべきだ」と言われまして、どれも怖くてよく分からないんです。論文を一つ渡されたのですが、要点を教えていただけますか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、あの論文は複雑な深層学習を避けて「人の骨格点(キーポイント)」を使い、省リソースで暴力を検出できる方法を示しているんですよ。

田中専務

それって要するに高価なGPUや大量データを用意しなくても現場に入れられるという話ですか。現場の負担が気になります。

AIメンター拓海

大丈夫、一緒に要点を整理しましょう。要点は三つです。第一に人の骨格点の動き(速度や接近)を特徴として抜き出すこと、第二にその特徴で軽量な分類器を使うこと、第三に深層学習に頼らないため導入と運用が現実的になることです。

田中専務

なるほど。でも「骨格点」って具体的にはどうやって取るんですか。カメラだけで人の関節を取れるものなのですか。

AIメンター拓海

はい、一般に使われるツールはOpenPose (OpenPose) – 人体姿勢推定ツールのようなソフトウェアで、動画の各フレームから頭や手首、膝といったキーポイント座標を抽出できます。現場では既存カメラで十分な場合が多いです。

田中専務

ほう、それを使って具体的にどんな情報を抜き出すのですか。速度とか接触の頻度という話でしたね。

AIメンター拓海

その通りです。論文はDynamic Interaction Feature Extraction Module (DIFEM) – 動的相互作用特徴抽出モジュールを提案しています。具体的には各関節のフレーム間移動量(速度)と、ある人物の関節が別人物のバウンディングボックス内に入る回数(近接と衝突の指標)を計算します。

田中専務

これって要するに危険な動きがあれば手や頭が急に動いて、それを検知するということですか?衝突というのも近づく頻度を見ると。

AIメンター拓海

その認識で合っていますよ。良い着眼点です。要点を三つにまとめると、第一にキーポイントの速度は暴力の特徴を直接反映しうる、第二に空間的重なりは接触の有無を示す、第三にこれらの簡潔な特徴は軽量な統計的分類器で十分識別できる、ということです。

田中専務

分類器について教えてください。どの程度の精度で現場に使えますか。モデルは重いものですか。

AIメンター拓海

論文ではRandom Forest (Random Forest, RF) – ランダムフォレストAdaBoost (AdaBoost) – AdaBoostk-Nearest Neighbor (k-NN) – k近傍法Decision Tree (Decision Tree) – 決定木などの軽量分類器を使っています。これらは深層学習に比べて学習と推論が速く、GPUを必須としない点が特長です。

田中専務

分かりました。結局、現場導入のコストと効果を考えるとまず試してみる価値はありそうです。私なりに説明してみますね。

AIメンター拓海

素晴らしい。ご自身の言葉で要点をまとめていただけますか。きちんと腹落ちすると次の一手が決めやすくなりますよ。

田中専務

要するに、カメラ映像から人の関節位置を取って、その動きの速さと接近具合を調べるだけで暴力らしき行為を安く早く見つけられるということですね。まずは小さな現場で試験導入して効果を計測します。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む