店舗万引き検出のためのTransformerベースフレームワーク（Shopformer: Transformer-Based Framework for Detecting Shoplifting via Human Pose）

田中専務

拓海先生、最近部下から「AIで万引きを検出できます」と言われまして。本当に画面をずっと人が見るより効率的になるのでしょうか。投資対効果が気になります。

AIメンター拓海

素晴らしい着眼点ですね！万引き検出の最近の研究は、映像をそのまま使う方法と人の姿勢（pose）だけを使う方法に分かれます。今回の研究は後者で、プライバシー配慮と計算効率の面でメリットがあるんですよ。

田中専務

姿勢だけで分かるというのは、例えばどういう情報が入っているのですか。顔や服の色が無いと判別できないのではと心配でして。

AIメンター拓海

大丈夫、いい質問です。姿勢（pose）は人の関節や手足の動き方の時系列で、万引きでは手の動きや体の向き、棚との距離などに特徴が出ます。顔や服がなくても行動パターンで高い確度が出せるんですよ。

田中専務

それは安心です。で、これって要するに映像データを直接処理するよりも個人情報リスクが下がるということ？

AIメンター拓海

その通りです。要点を3つにまとめると、1）映像そのものを保存しないのでプライバシーリスクが下がる、2）データ量が小さくなりリアルタイム処理がしやすい、3）環境の変化（ライトや背景）に強くなる、という利点がありますよ。

田中専務

投資対効果についてもう少し具体的に教えてください。今のカメラや人員をどう変えればよいのか、現場の負担は増えますか。

AIメンター拓海

現実的な導入観点でまとめます。カメラはそのまま使える場合が多く、既存映像から姿勢推定だけを行えばよいです。計算は軽くできるためエッジ機器での処理が可能で、クラウド転送や大量ストレージの削減でコスト回収が見込めます。

田中専務

技術的にはどの部分がキーになっているのですか。役員会で説明できるレベルに噛み砕いてほしいのですが。

AIメンター拓海

簡潔に3点で説明しますね。1）姿勢の系列データをコンパクトな“トークン”に変換する処理、2）そのトークン列の時間的な流れを読むTransformer（トランスフォーマー）というモデルの活用、3）最後に正常行動と異常行動を区別する仕組み、この3つが中核です。

田中専務

なるほど。最後に一つだけ確認です。現場で誤検知が多いと現場が混乱しますが、どの程度改善されるのか想像しやすい数字で教えてください。

AIメンター拓海

実験ではAUC-ROCという指標で約69%を達成しています。これは既存の姿勢ベースの異常検出を上回る結果で、現場での録画レビュー負担とアラートの精度向上につながる見込みです。段階的に導入して閾値や運用ルールを調整すれば誤検知は実用的水準に抑えられますよ。

田中専務

分かりました。要するに顔や服の情報を使わず、動きのパターンを小さな単位に変えてモデルで読むことで、プライバシーを守りながら効率よく万引きを検出できる、ということですね。ありがとうございます、まずは小さく試してみます。

食事摂取の追跡と推奨のためのスマートフォンアプリ：Smartphone Apps for Tracking Food Consumption and Recommendations: Evaluating Artificial Intelligence-based Functionalities, Features and Quality of Current Apps