必要なのは何枚のラベル付きナンバープレートか?(How many labeled license plates are needed?)

田中専務

拓海先生、最近部下から「AIでナンバープレート認識を導入したら効率化できます」と言われましてね。ですが、学習用のラベル付きデータを集めるコストが高いと聞きます。実際、どの程度の枚数が必要なんですか?

AIメンター拓海

素晴らしい着眼点ですね!その疑問は実務導入の最初の壁です。結論を先に言うと、完全な正解はないが、少数の実データに対して合成データとデータ拡張を組み合わせることで、必要なラベル数を大幅に減らせるんですよ。

田中専務

要するに、実物の写真をたくさん集めなくても、パソコンで作った画像やAIが生成した画像で代替できるということですか?でも現場の変化に耐えられるか心配です。

AIメンター拓海

大丈夫、順を追って説明しますよ。まず押さえるべき要点は三つです。一、少量の実データから特徴を学び、二、コンピュータグラフィックスとGenerative Adversarial Networks (GAN)(GAN、敵対的生成ネットワーク)で多様な合成画像を作り、三、データ拡張で撮影時のゆがみや照明変化を模擬する。これで現場変化にかなり強くできるんです。

田中専務

生成した画像って、所詮は“作り物”ですよね。本当にナンバーの読み取り精度まで上げられるのですか。それと、コストと効果の観点でどれほどの投資が必要でしょうか。

AIメンター拓海

ごもっともです。論文の結果では、少数の実データと大量の合成データを組み合わせると、実データのみで学習した場合と同等かそれ以上の精度が出るケースが報告されています。投資対効果では、実撮影と手動ラベリングの人件費を大きく下げられるため、初期費用は合成データの準備とモデル構築に集中しますが、長期では回収しやすいのが特徴です。

田中専務

導入の現場での手間はどうでしょうか。クラウドにアップして学習させるのが一般的ですか。うちの現場はカメラが古いし、ネットワークも不安定です。

AIメンター拓海

現場ごとの実情を踏まえて設計しますよ。学習はクラウドで行い、推論(推論とは学習済みモデルで現場データを判定する処理)だけをローカルで行うこともできるんです。これならネットワーク負荷を抑えつつ、古いカメラへの適用も柔軟に対応できます。

田中専務

これって要するに、実データを少し用意して、それを元に作った合成データでモデルを育てれば、撮影条件のばらつきにも耐える読み取りシステムが作れるということ?

AIメンター拓海

その通りです。要点を三つにまとめると、一、実データは代表的な例を少量用意するだけでよい、二、合成データとデータ拡張で多様さを補う、三、評価は現場ごとに行い、微調整を繰り返す。これで現場導入の現実的な投資計画が立てられますよ。

田中専務

分かりました。要するに、まずは代表的な数十〜数百枚の実画像を集めて、それを基に合成データを作りつつモデルを作る。評価してダメなら現場データを少し足す、と段階的に進めればリスクが押さえられるということですね。私の言葉で整理すると、初期は実データ少量+合成データ多量でコストを下げ、現場評価で微調整して本稼働に移す流れでよいと理解しました。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む