Learning Fine-grained Image Similarity with Deep Ranking(微細な画像類似性の学習を深いランキングで)

田中専務

拓海さん、最近うちの現場でも「画像を比べて似ている順に並べたい」という話が出ているんですが、どこから手を付ければよいのか見当がつきません。そもそも「似ている」ってどうやって機械が判断するんですか?

AIメンター拓海

素晴らしい着眼点ですね!基本は、人が「似ている」と感じる基準を数値に置き換えることです。具体的には画像をベクトルという数字の列に変換し、距離が短ければ似ていると扱えるんですよ。

田中専務

ベクトルに変換するって、うちの現場で使っている写真をただ数値化するだけですか?高価なソフトが要るのではないでしょうか。

AIメンター拓海

大丈夫、そんなに構えなくてよいですよ。重要なのはどのように画像を特徴づけるかで、最近の研究では手作りの特徴量ではなく、画像から直接学ぶ深層学習(Deep Learning)という方法が有効であることが示されています。

田中専務

それは要するに、コンピュータに写真から特徴を学ばせて、その学習結果を使って似ている順に並べる、ということでしょうか。

AIメンター拓海

その通りです!端的に言えば、画像を数百次元の数字に変換し、その距離でソートするだけで似た画像が並びます。さらに精度を上げるには、どの画像が「より似ている」かを学習させる学習方法が必要です。

田中専務

なるほど。現場の写真だと同じ製品でも角度や明るさで印象がかなり違うのですが、そうした細かい違いも区別できるのですか。

AIメンター拓海

その点が本論文の肝です。研究では「トリプレット(triplet)」という形で学習させます。トリプレットとは、基準画像(query)、似ている画像(positive)、似ていない画像(negative)の三つ組で、positiveの方が基準に近くなるように学習させる手法です。

田中専務

トリプレットですか。現場で使うにはサンプルをたくさん用意しないといけないんじゃないですか、それは現実的ですか。

AIメンター拓海

良い視点ですね。研究では効率的なトリプレットの取り出し方(トリプレットサンプリング)を工夫し、大量データでもメモリに載せずに学習できる方法を示しています。これにより実務データでも対応しやすくなるのです。

田中専務

これって要するに、画像をうまく学習させることで、同じカテゴリの中でも細かい違いをちゃんと判別して順番をつけられる、ということですか?

AIメンター拓海

まさにその通りです。要点を三つにまとめると、1) 画像から直接学ぶことで手作り特徴より柔軟に対応できる、2) トリプレット学習で「どちらが似ているか」を学習する、3) 効率的なサンプリングで大量データに適用可能、という点です。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。では私の言葉で整理します。画像をまず数字の列に変えて、似ている順に並べるために『どちらがより似ているか』を例で示して学ばせる。大量データでも扱える工夫がある、という理解で合っていますか。

AIメンター拓海

完璧です。では次は、自社のデータでどのようにトリプレットを作るか、導入時の期待効果とコスト感を一緒に見ていきましょう。大丈夫、段階を踏めば必ずできるんです。

AIBRプレミアム

関連する記事

AI Business Reviewをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む