文脈的視覚類似（Contextual Visual Similarity）

田中専務

拓海さん、最近部下から『画像検索にAIを使えば便利です』と言われて困っているのですが、そもそも画像の“似ている”って何で決まるんですか？

AIメンター拓海

素晴らしい着眼点ですね！画像が似ているかどうかは、一言で言うと『どの視点で見るか』で変わるんです。例えば犬の写真は色や形、背景、質感など複数の視点で似ているかを判断できますよ。

田中専務

視点が違うと結果も変わる、なるほど。じゃあ会社で『色で似ている画像を探せ』と言ったら、それに合わせた検索が必要ということですか？

AIメンター拓海

その通りです。今回の論文はまさにその課題に答えます。重要なのは、ユーザーが『どの視点で似ているか』を明示的に示せるようにする点です。そして実務的には三つの画像を使ってその視点を指定しますよ。

田中専務

三つの画像ですか？具体的にはどう使うのか、少し教えてください。

AIメンター拓海

はい。簡単に言うと、クエリ（探したい画像）と、似てほしい例（ポジティブ）、似てほしくない例（ネガティブ）の三つを示すと、その三つに合う『特徴の重みづけ』を学びます。つまりどの特徴を重視するかを機械が学んでくれるんです。

田中専務

これって要するに、現場の担当者が『今回は色を重視して探してほしい』と示す代わりに、具体例を二つ見せるだけでAIが判断してくれるということですか？

AIメンター拓海

その解釈で合っています。要点は三つです。まず、ユーザーが視点を明示化できる。次に、既存の特徴表現（既にある画像の情報）を変えず、重みを学んで再評価するだけで済む。最後に、それで属性（色や形など）に沿った検索や類推ができるようになるんです。

田中専務

なるほど、既存のシステムの上に簡単に追加できそうですね。ただ、その重みづけが信頼できるかどうか、どのように検証するのですか？

AIメンター拓海

良い質問ですね。論文では、三つ組（トリプレット）を使った検索精度や視覚的な類似性を満たすかで評価しています。実務ではユーザーの意図に沿った結果が出るか、少数の例でチューニングできるかを試すのが現実的です。

田中専務

現場の負担はどれくらいですか。うちの人たちはITが得意ではないので、導入の手間が心配です。

AIメンター拓海

ここも重要です。一緒に整理すると、導入は既存の特徴抽出（すでに使っている画像の“数字”）をそのまま使い、インタフェースは『クエリと2枚の例を選ぶ』だけにできるため、直感的に取り組めます。段階的に運用すれば現場の負担は小さくできますよ。

田中専務

分かりました。では最後に、私が会議で短く説明するとしたらどんな言い方が良いでしょうか。自分の言葉で言ってみますね、要するに『画像の“似ている”を文脈で指定して検索精度を上げる方法』ということですか。

AIメンター拓海

素晴らしいまとめです！その言い方で十分伝わりますよ。大丈夫、一緒にやれば必ずできますよ。次は実際のユースケースで小さな実験を設計しましょう。

NPUを信頼の中心に据えた秘密計算アーキテクチャ（ASCEND-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads）