4 分で読了
2 views

言葉を車輪へ:基盤モデルを用いた視覚ベース自律走行

(Words to Wheels: Vision-Based Autonomous Driving)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海さん、最近若い現場から『言葉で車が動くらしい』って話が回ってきて困ってます。要するに人が指示したらそのまま現場の車が動くってことですか。

AIメンター拓海

素晴らしい着眼点ですね!大丈夫、簡単に説明しますよ。今回の研究は『人が自然な言葉で伝えた目的地や指示を、そのまま無人の地上車(UGV)が理解して移動する』システムを提案しているんですよ。

田中専務

でもうちの工場は古くて地図も整備されていません。事前に学習させないと動かないんじゃないですか。コストがかかりそうで怖いです。

AIメンター拓海

そこが肝心です。この研究のポイントは『事前学習や事前の地図が不要』な点です。既存の大規模な基盤モデル(foundation models)を活用することで、初めて行く現場でも人の指示を解釈して動けるんです。

田中専務

これって要するに、現場で毎回データ取って学習させなくても『言葉→道案内の説明文→実際の走行指示』に変換して動ける、ということですか?

AIメンター拓海

その通りですよ!要点は三つです。第一に、大規模言語モデル(LLM:Large Language Model)を使って人の指示を『認知的経路記述(cognitive route description)』に翻訳すること、第二に、視覚と言語を結び付けるモデル(VLM:Vision-Language Model)で目の情報を使ってランドマークを認識すること、第三に、局所的な経路生成はMPPI(Model Predictive Path Integral)という手法で安全に決めることです。

田中専務

MPPIって難しい名前ですね。現場のドライバーに説明するとき、どう噛み砕いて話せばいいですか。

AIメンター拓海

良い質問ですね。簡単に言えばMPPIは『将来を試しに走って、安全でコストの低い道を選ぶシミュレーション方式』です。車が短期的に多数の候補走行をシミュレートして、最も望ましい軌道を選ぶ、そんなイメージですよ。

田中専務

実際の現場だと段差や通行可能かどうかは重要です。論文ではその辺りはどう対処しているのですか。

AIメンター拓海

そこも工夫しています。視覚情報から高さを推定する『セマンティック高低コストマップ(semantic elevation cost map)』を作り、段差や上り下りの“コスト”を見積もることで走行可能性を判断します。要するに、段差があるとコストが上がり、他の安全なルートを選ぶわけです。

田中専務

要するに、うちみたいに事前の地図がなくても『言葉で目的地を言えば、その場で周囲を見て安全な道を選んで進む』ということですね。私でも現場で説明できそうです。

AIメンター拓海

その通りです!今日のポイントを三つだけ覚えてください。第一、事前学習不要であること。第二、言葉を経路記述に変換することで人の意図を車に伝達すること。第三、視覚と局所計画の組合せで安全に動くこと。大丈夫、一緒に導入まで進められますよ。

田中専務

ありがとうございます。では私の言葉でまとめます。人が話したことを大規模モデルで『道案内の文章』に変えて、車は目で見て安全な道を選んで動く。事前の地図や大量学習が不要だから、うちの工場でも試せそうだ、という理解で合っていますか。

AIメンター拓海

素晴らしい総括です!その理解で完全に合っていますよ。さあ次は小さな実証から始めましょう。私が伴走しますから安心してくださいね。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
平均報酬MDPでサブタスク駆動RLとリスク対応を切り拓く
(Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes)
次の記事
増分全スライド画像分類のためのクエリ可能プロトタイプ多重インスタンス学習と視覚-言語モデル
(Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification)
関連記事
アプリケーション近代化をLLMで加速する — 信頼性・セキュリティ・品質の課題に対処
(Empowering Application Modernization with LLMs: Addressing Core Challenges in Reliability, Security, and Quality)
H2R:ロボット事前学習のためのヒト→ロボットデータ拡張
(H2R: A Human-to-Robot Data Augmentation for Robot Pre-training from Videos)
MixLinear:0.1Kパラメータで実現する極小資源の多変量時系列予測
(MIXLINEAR: EXTREME LOW RESOURCE MULTIVARIATE TIME SERIES FORECASTING WITH 0.1K PARAMETERS)
動的システムのインデックスを限られたデータから学ぶための重心的有理近似
(Barycentric rational approximation for learning the index of a dynamical system from limited data)
指数関数によるカーネル関数近似のための重み付きバランストランケーション法
(Weighted balanced truncation method for approximating kernel functions by exponentials)
国家安全保障と公共安全のフロンティアリスク評価
(FORTRESS: Frontier Risk Evaluation for National Security and Public Safety)
関連タグ
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む