交通ルールを守るハイブリッドA*経路計画(Let Hybrid A* Path Planner Obey Traffic Rules)

田中専務

拓海先生、最近部署で「強化学習を使って車の挙動を学ばせる」と聞きまして、現場が騒いでおります。うちの現場でも使えるものなんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね!今回は深層強化学習(Deep Reinforcement Learning, DRL)とハイブリッドA*経路計画(Hybrid A* Path Planning)を組み合わせた研究を分かりやすく説明しますよ。大丈夫、一緒に見ていけば要点がつかめますよ。

田中専務

専門用語からして既に難しそうでして、DRLって要するに何が出来るんですか。

AIメンター拓海

素晴らしい着眼点ですね!DRLは環境と試行錯誤を繰り返して行動方針(ポリシー)を学ぶ手法です。経営で言えば、複数の施策を試して利益の最大化に結びつける方針を自社で学ばせるようなものですよ。

田中専務

なるほど。で、ハイブリッドA*っていうのは、それと比べてどう違うんですか。現場でいう“職人の手順”みたいなものですか。

AIメンター拓海

素晴らしい着眼点ですね!ハイブリッドA*は経路探索アルゴリズムで、職人の作業手順に近いです。細かい操作や現場の制約を考慮して実行可能な軌道を作る役割で、DRLが示す高レベルの指示を受けて具体の軌跡を生成するんです。

田中専務

これって要するにDRLが高レベルの判断、ハイブリッドA*が現場での確実な作業を担うということ?

AIメンター拓海

その通りです!要点を三つにまとめると、第一にDRLがいつレーン変更するかを決める。第二にハイブリッドA*が安全で実行可能な軌跡を作る。第三にモデル予測制御(Model Predictive Controller, MPC)がその軌跡を実行して車を動かす流れです。

田中専務

法律やルールを守ることも重要でしょう。論文ではどうやって交通ルールを守らせているんですか。

AIメンター拓海

素晴らしい着眼点ですね!論文は線形時相論理(Linear Temporal Logic, LTL)を使って交通ルールを定式化し、その合格度を報酬としてDRLに組み込んでいます。要はルール違反をしたら得点を下げるしくみで、学習で守らせる方法です。

田中専務

現場導入のところが一番気になります。シミュレーションでうまくいっても、実車では勝手が違うでしょう。どう対応しているんですか。

AIメンター拓海

その点も重要です。彼らはEB AssistのADTFという業界向けシミュレーション環境で直接学習させ、学習したポリシーを実際のモデルカー上で検証しています。つまりシミュレーションと実機の間のギャップを意識して設計してあるのです。

田中専務

分かりました。要するに、学習で判断を出して現場で確実に実行するための二層構造を作っているということですね。よし、会議でこの考え方を説明してみます。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む