
拓海さん、最近、部下から『骨格データを使えば現場の動作をAIで判別できる』と聞いているのですが、そもそも骨格データって何ですか。カメラで人の姿を撮るだけで良いのですか。

素晴らしい着眼点ですね!骨格データとは、人の関節位置を座標で表したデータですよ。安心してください、普通のカメラや深度センサーで人の関節を検出して数値化したものが元になりますよ。

なるほど。で、その論文では骨格データをどうやってAIに食わせるのですか。生データを渡すだけで良いのか、それとも前処理が必要なのかが気になります。

大丈夫、一緒にやれば必ずできますよ。要は骨格の時系列情報をそのままAIに渡すと学習が難しい場合があるので、この論文では『動き』を色の画像に変換して深層畳み込みニューラルネットワークで学習させる手法を提案していますよ。

色に変える?それって要するに『動きを見やすい形に変換して画像として学習させる』ということですか。

その通りです。要点は三つです。第一に、ポーズ(Pose Features)は関節配置の静的特徴を表すこと、第二に、モーション(Motion Features)はフレーム間の変化を表すこと、第三に、それらを色のマップに変換すると、画像認識で強い畳み込みネットワークが有効に働くことです。

なるほど。実務で言えば、現場の作業をカメラで取って、関節を抽出して、色の画像にして学習させる、と。で、どれくらい精度が上がるのですか。

大丈夫、数値で示すと有望です。論文ではMSR Action3DやNTU-RGB+Dといった標準データセットで従来手法を上回る結果を出していますよ。重要なのは、画像化することで既存の画像向けの強力なネットワークを転用できる点です。

実装コストやデータ収集の負担が心配です。うちの工場でやる場合、現場の人に負担をかけずに運用できますか。

大丈夫、工場導入での実務目線を三点にまとめますよ。第一に、関節検出は最近のライブラリで半自動化できること、第二に、画像化と学習はバッチ処理で済むため現場負荷は低いこと、第三に、最初は限定的な動作からモデル化して段階展開するのが現実的であることです。

これって要するに、現場の動きを『色の波形に変換して画像で見る』ようにして、既に強い画像AIを使う、ということですね。社内で説明する時はその言い方で良いでしょうか。

素晴らしい着眼点ですね!その説明でわかりやすいです。最後に要点を三つにまとめると、「骨格の静的特徴を画像化すること」「フレーム間の動きを色で表現すること」「画像向けの深層ネットワークを使って高精度化すること」です。大丈夫、一緒にやれば必ずできますよ。

分かりました、拓海さん。自分の言葉で言うと、『人の関節の位置とその変化を色の画像にして、画像を得意とするAIで学ばせる手法で、限られた動作から段階的に導入すれば現場負担は抑えられる』ということですね。


