
拓海先生、最近社内で「画像と文章の両方を理解するAIを使おう」と言われて困っているんですが、そもそも今のAIって何が得意で何が苦手なんでしょうか?

素晴らしい着眼点ですね!最近は大規模マルチモーダルモデル、英語でLarge Multimodal Models(LMMs)を中心に、画像と文章を同時に扱う技術が進んでいますよ。得意なのは全体像の把握や一般的な説明で、苦手なのは細かい関係性や属性の合成的理解です。

それは要するに、全体としては説明できるけれど、例えば「赤い箱の上にある小さな青いボルト」みたいな複雑な関係や属性の組み合わせは苦手、ということですか?

その通りですよ。良い整理です。大規模マルチモーダルモデルは画像中の要素を“物の集まり”として扱いがちで、要素間の関係や属性が複雑になると誤答しやすいのです。そこで論文は「合成的チェイン・オブ・ソート(Compositional Chain-of-Thought、CCoT)」という手法を提案しています。

CCoTというと、その名前は難しいですね。これって要するに何をしているんでしょうか?現場に入れるとしたら手間はどれくらいですか?

大丈夫、一緒にやれば必ずできますよ。簡潔に言うと要点は三つです。第一に、モデルに自力で画像から「場面図(scene graph、SG)」を生成させる。第二に、その場面図を問合せと合わせて再度モデルに提示して答えを引き出す。第三に、これをゼロショットで行い、追加学習(ファインチューニング)を避ける、という流れです。

場面図というのは図面のようなものですか?現場で撮った写真から作るのに特別な注釈データが必要ではないですか?

良い質問ですよ。場面図、英語でScene Graph(SG)とは、画像中の「物」や「その属性(色、大きさなど)」、そして「物と物の関係(上にある、隣にある)」を形式化したものです。通常はSGの注釈データは高コストですが、この手法はモデル自身にSGを生成させるため、外部の正解SGデータに依存しません。

ということは学習データを大量に作るコストが下がる、という理解で合っていますか。それと、これを使うと現場の判断ミスが減る期待は持てるのでしょうか。

大きくはその通りです。注釈データを用意するコストを減らしつつ、モデルの「構成的な理解」を引き出す手段を提供します。現場適用のポイントは、運用前にいくつかの代表的なケースで生成結果(場面図)を確認し、必要であればプロンプトを調整することです。

これって要するに、注釈データをたくさん作らずともモデルに考えさせるステップを挟むことで、複雑な関係性も正しく答えられるようにする工夫、ということですか?

完璧な整理ですね!その通りです。要はモデルに中間的な「図解」を自分で作らせ、その図解を基に答えさせることで、関係性の把握を助けるわけです。導入時は現場の代表例でプロンプト調整、次に少数の検証で安全性と精度を確認すれば投資対効果は改善できますよ。

分かりました。自分の言葉でまとめると、モデルにまず場面図を作らせてから答えを出させる手順を踏めば、細かい物の関係や属性の判断が良くなるし、注釈データを大量に作る必要がない。まずは代表例で試してみて、現場の声でプロンプトを詰めればいい、ということですね。
