5 分で読了
0 views

Vision Transformerを用いた相対姿勢推定における8点アルゴリズムの帰納的バイアス

(The 8-Point Algorithm as an Inductive Bias for Relative Pose Prediction by ViTs)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お忙しいところ失礼します。最近、部下から「ViTを使えばカメラの位置関係がわかる」と聞きまして、ですが正直、何がそんなに新しいのか見当がつきません。これって要するに我が社がカメラを使った現場監視や設備点検で投資する価値があるということでしょうか?

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、一緒に整理すれば必ず見えてきますよ。要点を先に三つで示すと、(1) 小さな変更でVision Transformer(ViT)(ViT: Vision Transformer、ビジョントランスフォーマー)の計算を八点(Eight-Point Algorithm、8点アルゴリズム)に近づけている、(2) その帰納的バイアスが少データでも効く、(3) 実装は複雑でなく既存モデルに付け足せる、ということです。

田中専務

なるほど、少データで効くというのは魅力的です。ただ、現場に導入するときは「精度」「工数」「運用コスト」が問題になります。現場の写真2枚から機械が位置や向きを出すと聞きましたが、精度はどの程度期待できるのですか?

AIメンター拓海

素晴らしい着眼点ですね!まず本論文は「相対姿勢(relative pose)」(二枚の画像間の回転と並進、並進はスケール不定の扱いもある)を直接推定する手法を示しているのです。従来は特徴点対応(correspondences)を見つけ、それを8点アルゴリズムで解くという二段構成が主流でしたが、この研究はVision Transformerを少し手直しして、対応探索と行列計算の要素をモデル内部に取り込んでいます。結果として、データが少ない条件でも対応ベースに近い精度が出やすいのです。

田中専務

対応点を見つける工程が省略されるのですか。それは処理時間の短縮につながりますか。あと、技術的な改良点を具体的に教えてください。現場でエンジニアに説明できるレベルでお願いします。

AIメンター拓海

素晴らしい着眼点ですね!専門用語は避け、身近なたとえで説明します。改良点は三つで、(1) 注意機構を通常のsoftmaxでの重み付けから双方向にマッチングしやすいdual-softmax(デュアルソフトマックス)に近い振る舞いに変えたこと、(2) 位置情報の符号化を二次的に扱うquadratic position encodings(2次位置符号化)にしたこと、(3) attentionの計算をbilinear attention(双線形注意)に寄せ、画素位置と特徴の掛け算をモデルにやらせやすくしたこと、です。実務的には既存のViTに小さなモジュールを付け足すだけで済みますよ。

田中専務

専門用語は増えましたが、全体像は掴めてきました。で、現場でやるときのデータ要件はどうですか。うちのような中小企業は大量データを集めにくいのが悩みです。

AIメンター拓海

素晴らしい着眼点ですね!本研究の強みは正にそこです。従来のエンドツーエンド学習法は学習中に対応関係を自力で見つけるため多くのデータを必要としたが、この論文は8点アルゴリズムの計算形をモデルに組み込むことで「少ないデータでも対応に近い処理」を実現している。つまり、中小企業でも限定的な現場データから効率的に学習できる可能性が高いのです。

田中専務

それは朗報です。ただ、Translationはスケール不定(translation-up-to-scale)になると聞きました。要するに距離の実数値まで出ないことがある、と理解して良いですか?現場で使う場合、距離がわからないと困ることが多いのです。

AIメンター拓海

素晴らしい着眼点ですね!おっしゃる通り、8点アルゴリズム由来の本質行列(Essential Matrix(E)、本質行列)からは並進ベクトルの尺度が消えるため、得られるtranslationはスケール不定であることが多い。現場で絶対距離が必要ならば別途尺度情報を与える(例えば既知のマーカーやレンズの内部パラメータ、あるいは奥行きセンサーの併用)必要があるのです。

田中専務

なるほど、補完が必要ですね。最後に一つだけ確認させてください。これを導入すると現場での改善は要するに「少ないデータで安定した相対位置推定を自動でやってくれる仕組みが、既存のViTに追加できる」ということですか?

AIメンター拓海

その通りです!要点は三つ、(1) 小さな構造変更で伝統的な8点アルゴリズムの利点を取り込める、(2) 少量データでの学習耐性が高まる、(3) 実運用ではスケール補完が別途必要になる場合がある、です。大丈夫、一緒にやれば必ずできますよ。

田中専務

ありがとうございます。自分の言葉でまとめますと、今回の論文は「Vision Transformerに小さなモジュールを付けて、従来の対応ベース手法の良さを取り入れることで、データが少ない現場でも安定した相対姿勢推定ができるようにした研究で、実運用には距離の尺度を補う仕組みを組み合わせる必要がある」ということで間違いありませんか?

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
検証可能な差分プライバシー
(Verifiable Differential Privacy)
次の記事
胸部CTにおけるCOVID-19検出のための深層畳み込みニューラルネットワーク
(DCNNV-19: A Deep Convolutional Neural Network for COVID-19 Detection in Chest Computed Tomographies)
関連記事
NASH: エンコーダ・デコーダ言語モデル高速化のための構造的剪定の単純統一フレームワーク
(NASH: A Simple Unified Framework of Structured Pruning for Accelerating Encoder-Decoder Language Models)
過信するネットワークを手なずける方法
(Humble your Overconfident Networks: Unlearning Overfitting via Sequential Monte Carlo Tempered Deep Ensembles)
被験者横断脳デコードフレームワーク MindBridge
(MindBridge: A Cross-Subject Brain Decoding Framework)
360度ホログラフィック3Dコンテンツの中心角最適化
(Central Angle Optimization for 360-degree Holographic 3D Content)
大規模言語モデルの指示追従:進展と課題のサーベイ
(Large Language Model Instruction Following: A Survey of Progresses and Challenges)
表現に基づく部分空間クラスタリングの統一フレームワーク
(A Unified Framework for Representation-Based Subspace Clustering of Out-of-Sample and Large-Scale Data)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む