CVPR2022 AQTCチャレンジ優勝：二段階の機能中心アプローチ（Winning the CVPR’2022 AQTC Challenge: A Two-stage Function-centric Approach）

田中専務

拓海先生、最近「AQTC」っていう言葉を部下が出してきて困っているんです。要するにどんな技術で、うちの現場に関係あるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！AQTCは、作業動画と台本を学習して、利用者の質問に対してステップで答える仕組みです。一言で言えば「作業支援の対話型アシスタント」ですね。大丈夫、一緒に分解していけば必ずできますよ。

田中専務

作業支援ならうちのラインでも使えそうですが、動画全体を見るのは大変でしょう。動画のどこを見れば良いのか、システム側で分かるんですか。

AIメンター拓海

その点がこの論文の肝です。ここでは質問をまず”機能（function）”に割り当てて、関連する動画部分だけに注目します。要するにノイズとなる部分を飛ばして、使うべき箇所だけで判断する、ということですよ。

田中専務

それって要するに、質問内容を作業の『機能』に変換してから答えを出す、ということですか？

AIメンター拓海

その通りです！要点は三つです。1) 質問を機能に対応づけることで注目点を絞る、2) 履歴のステップを踏まえて次の行動を推測する、3) 全体を二段階で処理して精度を上げる。この順で進めば現場導入の効率も良くなりますよ。

田中専務

なるほど、二段階ということは最初に“質問→機能”で要点抽出、次に“機能→回答”で具体的な手順を返すわけですね。現場の人が聞きたいのは「次に何をすれば良いか」なのでぴったり合いそうです。

AIメンター拓海

その通りですよ。さらに、論文では台本（script）と動画を組み合わせることで、視点が主観（egocentric）である作業動画に強くしています。手元や道具の動きに注目する設計ですから、製造現場の作業支援に合いますよ。

田中専務

投資対効果が気になります。モデルを学習させるために大量の動画やスクリプトが必要ですか。うちの現場はそんなにデータが揃っていません。

AIメンター拓海

重要な視点ですね。現実的には、最初は代表的な作業を数十〜数百本で始め、うまくいけば漸次拡大するのが現実的です。要点は三つ、既存の手順書や短いチュートリアルを活用する、部分的なラベリングで十分なことが多い、プロトタイプで現場負荷を小さく確認することです。

田中専務

導入の不安は若い担当者に任せきりにできません。現場が本当に使えるかをどう評価すればよいですか。

AIメンター拓海

評価は実用性重視でいきましょう。論文でも使われる指標（Recall@1など）は参考になりますが、現場では「正しい次手順をどれだけの確率で一回で示せるか」と「誤案内のコスト」を合わせて評価することが現実的です。まずは限定的な工程でA/B比較を行うのが良いです。

田中専務

了解です。では、これを一言でまとめるとどう説明すれば現場や経営会議で納得を得られますか。

AIメンター拓海

短く三点です。1) 質問を作業の機能に変換することで注目箇所を絞る、2) 履歴を踏まえた次の一手を出す、3) 少ないデータでプロトタイプを回し現場価値を早期に確かめる。これで投資の不確実性を下げられますよ。

田中専務

分かりました。自分の言葉で言い直すと、質問をまず『何をするための問いか』に分けて、その機能に沿った映像だけ使って次に必要な作業手順を出す仕組み、ということですね。これなら現場でも試しやすそうです。

指示型モデル向けに訓練された優れたスパース自己符号化器（Training Superior Sparse Autoencoders for Instruct Models）