5 分で読了
0 views

遮蔽を考慮した教師なし光学フロー学習

(Occlusion Aware Unsupervised Learning of Optical Flow)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近部下が「光学フローを学ばせるべきだ」と言い出して困っております。正直、うちの現場で使えるのか見当がつかないのですが、これは要するに何を解決する技術なのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫ですよ、まず結論を一言で言うと、この論文は「遮られた部分(遮蔽:Occlusion)がある動画でも、教師データなしで正確な動き(Optical Flow)を学べるようにした」研究です。要点は3つにまとめると、遮蔽の明示的な扱い、巨大な動きへの対応、そして教師なし学習の効率化、ですよ。

田中専務

「遮蔽」を明示的に扱う、ですか。うーん、それは現場でいうと「物が被さって前の情報が見えなくなる」ようなことだと理解して良いですか。これって現場導入でどれくらい意味がありますか。

AIメンター拓海

その理解で合っていますよ。工場のベルトコンベアで部品が重なったり、人が前を横切ったりする場面がまさに遮蔽です。従来の教師なし学習(Unsupervised Learning:教師なし学習)は、全画素を同じように比較して学ぶため、遮蔽された領域を間違って別の領域で埋めようとします。結果として動きの推定が狂うのです。そこで遮蔽を予測して、その部分は損失(Photometric Loss:写真量的損失)に入れないようにするのが本論文の核ですね。

田中専務

これって要するに遮蔽されているところは「学習の対象から外す」ということですか?外すとしたら、現場で見落としが出るのではないかと不安です。

AIメンター拓海

良い質問ですね。重要なのは「遮蔽を完全に無視する」わけではなく、遮蔽領域を正しく特定してそこにはペナルティを与えない、ということです。これによりモデルは誤った一致に引っ張られず、非遮蔽領域で正しい動きを学べます。加えて、後方フロー(Backward Flow)を推定して遮蔽マップを作成し、そこをマスクするという実装が具体的な工夫です。投資対効果の観点では、精度向上が評価されれば、視覚検査やロボットの追従精度向上に直結しますよ。

田中専務

なるほど。あとは大きな動き(large motion)への対応という話がありましたが、それはどう効くのですか。現場だと高速で流れる箱が対象になることが多いのです。

AIメンター拓海

大きな動きに弱い理由は、単純に画素が大きく移動すると近傍の一致だけでは追えないからです。本論文では、新しいワーピング手法(Warping:画像の写像操作)を導入して、大きな動きでも正しい候補を作るようにしています。言い換えれば、従来はピンと張ったゴムのように近い点だけで引っ張っていたのを、本研究ではもっと広い範囲で引き合わせるイメージです。これでスピードのある対象でも改善が期待できますよ。

田中専務

投資して実装する場合、データは大量に必要でしょうか。うちにはラベルの付いた動画データなどありませんが、大丈夫ですか。

AIメンター拓海

そこがこの論文の強みです。教師なし学習(Unsupervised Learning:教師なし学習)なので、ラベル付きデータは不要で、多くの未ラベル動画を使って学習できます。現場で稼働中のカメラ映像を蓄積して学習に回せば良いのです。ただし、品質の良い映像と適切な前処理は必要で、最初の導入では専門家の支援を少し入れると成功確率が高まりますよ。

田中専務

なるほど、では要点を整理すると……。あ、すみません、最後に確認ですが、私の理解で合っているか一度自分で言ってみますね。

AIメンター拓海

はい、ぜひお願いします。分かりやすく言い直していただければ、最後に足りない点だけ補足します。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。要するに、この手法は遮られた部分を学習から除外して誤学習を防ぎ、遠くまで動く対象も追えるように画像の写し方を工夫しているので、ラベルのない現場映像でも動き推定の精度を高められるということですね。これなら投資に見合う効果が期待できそうです。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
外科手術における手技予測のための知識移転
(Knowledge transfer for surgical activity prediction)
次の記事
サッカー選手の価格推定にニューラルネットワークを使う
(Pricing Football Players using Neural Networks)
関連記事
DiffCP:拡散モデルによる超低ビット協調知覚
(DiffCP: Ultra-Low Bit Collaborative Perception via Diffusion Model)
Adaptive Forgetting Factor Fictitious Play
(適応的忘却係数付き仮想プレイ)
UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling
(UrFound:知識誘導型マスクドモデリングによる汎用網膜ファンデーションモデルへの道)
レート・アンド・ステート摩擦のポテンシャル定式化の学習
(Learning a potential formulation for rate-and-state friction)
調査に過ぎないのか? 調査動機に関するドイツ語自由回答のコーディングに大型言語モデルを用いる
(AIn’t Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation)
DemaFormer:時間的言語グラウンディングのためのエナジーベースモデリングを伴う減衰指数移動平均トランスフォーマー
(DemaFormer: Damped Exponential Moving Average Transformer with Energy-Based Modeling for Temporal Language Grounding)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む