
拓海先生、聞いたところによると「審判の姿勢でハイライトを自動抽出する研究」があると聞きました。うちの現場でも映像から重要な場面だけ取り出せれば助かるのですが、いったい何を検出するんですか。

素晴らしい着眼点ですね!これはクリケットという競技で、審判が見せる特定のジェスチャーを画像から認識して、自動で「重要場面」を切り出す研究ですよ。難しく聞こえますが、要は審判のポーズを見つければ、その直前直後のプレーをハイライトにできるんです。

それはわかりました。ですが現場は騒がしいし、人と似た動きを選手がしていることもあるでしょう。検出はどの程度当たるものなんですか。

いい質問ですよ。研究では二段階の仕組みを使っています。まず「映像に審判がいるか」を判定するClassifier 1、次に「審判がどのジェスチャーをしているか」を判定するClassifier 2です。双方とも画像から特徴を取り出し、SVM(Support Vector Machine、サポートベクターマシン)という古典的な分類器で判別しています。

これって要するに審判が映っているかを先に見て、次にその姿勢を分類するということ?

まさにその通りですよ。図で言えば入口で門番を置き、門番がOKを出したら中の専門チームがジェスチャーを判断する仕組みです。特徴量は深層畳み込みネットワークから抽出しますが、分類自体はSVMで行うという設計です。

それは現場導入の目で見ると良さそうです。投資対効果の観点だと、どの部分が一番効果を生むのでしょうか。

購入判断に使える観点を三つにまとめますね。第一にデータ準備のコスト、第二にモデルの誤検出(偽陽性/偽陰性)が業務に与える影響、第三にシステムの運用負荷です。これらを整理すれば、どの部分に人の手を残すかが見えてきますよ。

実運用で誤認識が多いなら、人が最後にチェックする仕組みがいるわけですね。ところで、どんなデータを使ったんですか。

研究ではSNOWという新しいデータセットを作っています。審判の五種類のポーズをラベル化した画像群で、学習には各ポーズ画像の80%を、評価には残り20%を用いています。特徴抽出はVGG19やInception V3などの既存ネットワークから行いました。

なるほど。結局、現場で使えるかどうかは誤認識のパターンと検出精度次第ということですね。自分の言葉で言うと、まず審判がいるかを見つけてから、その仕草で重要シーンを切り出す流れで、誤検出は人がフォローする、という理解でよろしいですか。

大丈夫、一緒にやれば必ずできますよ。要点を改めて三つにまとめます。第一に二段階検出(存在検出→姿勢分類)で無駄を減らすこと、第二に深層モデル由来の特徴量を用いてSVMで判別すること、第三に誤検出を補うための人の監視を残すことです。

よく分かりました。ありがとうございます。それなら始めるときの優先順位が見えました。まずはデータ収集と、審判の有無を見分けるモデルの精度評価からですね。私はこうまとめます: 「審判が画面にいるかを検出してから、そのジェスチャーで重要シーンを自動抽出する。誤検出は人がチェックする。」これで社内会議に持っていきます。


