テキストベースのマッピングとナビゲーションを評価するベンチマーク（MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models）

田中専務

拓海先生、最近部下から『AIに地図を作らせて現場のナビを任せられる』と聞いたのですが、本当にそんなことができるのですか。うちみたいな古い工場に意味がありますか。

AIメンター拓海

素晴らしい着眼点ですね！可能性はありますよ。まず大事なのは、ここで話すのはセンサーで測る地図ではなく、言葉だけで情報を読んで地図を作る能力を評価する仕組みだという点です。要点は三つ、わかりやすく説明しますね。

田中専務

言葉だけで地図を作る、ですか。うちの工場の図面ならまだ分かりますが、作業員の報告や口頭の指示から地図が出来るのですか。

AIメンター拓海

はい、可能性があります。ここでの試験はテキストだけで環境記述と移動指示を与え、その情報から内部的な地図を組み立てられるかを測っています。実際の現場ではセンサーと組み合わせる応用も想定できますよ。

田中専務

それで導入するとして、投資対効果はどう見ればよいでしょうか。人を減らしてコスト削減になるのか、それとも作業効率の改善が中心ですか。

AIメンター拓海

大丈夫、一緒に見ていけば必ずできますよ。評価の観点は三つに分けて考えるとわかりやすいです。第一に正確性、第二に運用コスト、第三に現場の受容性。これらを段階的に検証していくと失敗リスクを下げられます。

田中専務

なるほど。ところで、具体的にどんなテストでその能力を確かめるのですか。うちの現場で使うとしたらどんな検証が必要になるのか知りたいです。

AIメンター拓海

専門用語を使わずに言うと、AIに『ある場所から別の場所へどう行くか』と『ある経路をたどった結果どこにいるか』を大量に質問して、どれだけ正しく答えられるかを測ります。これを段階ごとに実データや手作業の報告書で比較するのが現実的です。

田中専務

これって要するに、AIに『頭の中の地図を作らせて、そこからナビしてもらう力』を測るということですか？

AIメンター拓海

そのとおりです！素晴らしい要約ですね。要点は三つです。まず、言葉だけから内部地図を構築する能力の有無を測ること。次に、その能力が別業務、例えばテキストベースの指示での作業支援にどう効くかを評価すること。最後に、実運用で必要な正確性と現場受容性を見積もることです。

田中専務

分かりました。まずは小さな現場で試して効果を確かめ、その結果に基づいて導入を拡大する、という段取りで進めれば良さそうですね。自分の言葉で言うと、言葉だけで動く『地図とナビの腕前』をまずは試験で測る、ということだと理解しました。

FAST Ultra-Deep Survey (FUDS): the star formation histories of FUDS0 galaxies（FASTウルトラディープサーベイ（FUDS）：FUDS0銀河の星形成履歴）