
拓海先生、最近若手から「深海に沈んだドラム缶の位置や埋まり具合をAIで推定できる」と聞きまして、正直ピンと来ないのですが、本当に事業で使える技術なんでしょうか。

素晴らしい着眼点ですね!大丈夫、単純に言えば「海底写真から埋まったドラム缶の向きとどれだけ埋まっているかをAIで当てる」技術ですよ。まずは全体像を3点で説明しますね。

はい、お願いします。まずは現場での使い道をはっきりさせたいのです。精度とコストの感覚が知りたいですね。

要点は三つです。第一に、従来の写真測量(photogrammetry)が海中の揺れや霞、浮遊物で壊れやすい点を補う学習ベースの復元手法、第二に、物体を点の集合で表すポイントクラウド(point cloud、点群)を使う点、第三に、その点群からドラム缶の姿勢と埋没率を直接推定するニューラルネットワークを設計している点です。

なるほど、写真をそのまま測るのではなく、点の形で物体を表して推定するということですね。で、これって要するに従来の手法よりノイズや視点の不安定さに強いということですか?

その通りです!学習済みのネットワークは、霞や低コントラスト、浮遊物による欠損を含む映像からでも、物体の幾何形状を補完してくれる性質があり、結果として姿勢(6-DOF(six degrees of freedom、6自由度))や埋没率を安定して推定できるのです。

技術的には分かってきましたが、現場に導入するときのデータ収集や学習コストが問題です。実際にはどれだけの実機映像が必要になりますか。

良い質問です。ここがこの研究の肝で、実映像を大量に集める代わりに、合成データ(synthetic data)で学習させる設計を取っています。合成データで視点や埋まり具合、欠損を再現して学ばせ、その後少量の実データで微調整(ファインチューニング)する運用が現実的です。

合成データで学ばせるというのは、我が社が新しい製造ラインを模擬して検証するやり方に似てますね。コストは抑えられそうだと感じますが、精度が現場で通用するかが心配です。

当然の懸念です。論文では、ポイントクラウドを入力として使うPointNet(PointNet、点群分類・処理アーキテクチャ)を改良したBarrelNetを提案し、合成テストでは従来の円筒フィッティング法より良好な結果を示しています。実映像に対しても定性的な一般化が確認されていますから、現場適用には追加の実データでの検証と評価指標の設計が必要です。

なるほど。では、投資対効果で整理しますと、初期は合成データ作成とモデル開発で先行投資が必要、運用は少量のROV映像で済む可能性がある、という理解でいいですか。

その通りです、田中専務。まとめると、(1)初期投資は合成データとモデル設計に集中する、(2)運用コストは映像取得と軽微なラベリングで済む、(3)効果としては不安定な海中環境でも姿勢や埋没率の定量化が可能になる、という三点が考えられます。大丈夫、一緒にやれば必ずできますよ。

分かりました。これを社内で説明するときは「学習済みモデルで不安定な海中映像を補完して、ドラム缶の向きと埋まり具合を定量的に出せる」と言えばいいですね。自分の言葉で言うと、海の中のぼやけた写真から“形”を復元して、どれだけ埋まっているかと向きを数字で教えてくれる技術、ということで間違いありませんか。


