2025.06.27

論文研究

5 分で読了

0 views

クロスビュー目標整合による視覚運動ポリシー制御

（ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近のロボットやエージェントに関する論文が増えましてね。現場から『人が指さした場所にロボットが行けばいい』という要望が来ているのですが、どれを読めば良いのか分かりません。まず要点だけ教えていただけますか。

AIメンター拓海

素晴らしい着眼点ですね！結論を先に言うと、ROCKET-2は『人が自分の視点で指す対象（セグメンテーションマスク）を、ロボットの視点に結びつけて動かす』手法です。つまり、人とロボットのカメラ視点が違っても意思を一致させられるんですよ。

田中専務

それは良さそうですね。ただ、現場では人のスマホ視点とロボットの視点が全然違うことが多い。これって要するに視点のズレを埋めるということ？

AIメンター拓海

その通りです。視点のズレを埋めるために、ROCKET-2は単なる模倣学習（Behavior Cloning (BC) 模倣学習）だけでなく、クロスビュー整合損失（cross-view consistency loss）と目標可視性損失（target visibility loss）という補助目的を導入します。要点を3つにまとめると、1) 人の視点で指定したマスクを扱える、2) 視点間対応を学ぶ、3) 視認性を明示的に評価する、です。一緒にやれば必ずできますよ。

田中専務

なるほど。しかし、現場では遮蔽物や角度で見えなくなることが多いです。視認性損失というのは具体的にどういうものですか。

AIメンター拓海

良い質問ですね。たとえばあなたが工場の天井からスマホで目標を示したとします。そのマスクはロボットの低い視点からは見えないことがある。目標可視性損失は、時間経過でその目標がロボット視点で本当に見えているかをモデルが予測し、見えていないときに補正する仕組みです。これによりロボットは『見えないときも見つけるための動き』を学べるんです。

田中専務

設備投資の観点で伺います。こうした補助目的を増やすと学習コストや推論コストが増えるのではないですか。実用に耐えるのか心配です。

AIメンター拓海

大丈夫、そこは設計でバランスを取っています。ROCKET-2はゴール指定とポリシー評価を切り離す設計で、頻繁にマスクを更新する必要がありません。結果として学習時の追加コストはあるが、運用時の継続的コストは抑えられます。要点は3つ、1) ゴール指定とポリシーを分離、2) 補助目的は学習を安定化、3) 運用時は軽量化、です。

田中専務

それなら現場導入のハードルは下がりますね。ちなみに、人が手で描いたレイアウトやスケッチを使う方法と何が違うのですか。

AIメンター拓海

良い比較です。スケッチや軌跡スケッチは2次元的で、ロボット視点に密接に依存します。一方でROCKET-2は、人の視点マスクを直接使えるため『人が直感的に指定した意図』を守りつつ、ロボット視点への対応を学習する点が異なります。言い換えれば、人の指示をそのまま理解するための橋渡しを行うのです。

田中専務

現場の安全面はどうでしょう。ロボットが見つけられないで暴走したら困ります。

AIメンター拓海

心配無用ですよ。ROCKET-2は視認性予測に基づいて行動を制約するため、目標が不確かなら待機や探索など安全な行動に移ります。工場運用ではさらに速度制限や人検知を組み合わせれば安全担保は可能です。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。最後にまとめますと、ROCKET-2は人の視点で指定した場所をロボットが理解して動けるようにする技術で、視点差と見えにくさに強いと。自分の言葉で言うと、要は『人の指示をロボット視点に翻訳して安全に実行する仕組み』ということですね。

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

クロスビュー目標整合による視覚運動ポリシー制御

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

クロスビュー目標整合による視覚運動ポリシー制御

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ