2025.10.21

論文研究

4 分で読了

1 views

大規模マルチモーダルモデルのための合成的チェイン・オブ・ソート・プロンプティング

（Compositional Chain-of-Thought Prompting for Large Multimodal Models）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近社内で「画像と文章の両方を理解するAIを使おう」と言われて困っているんですが、そもそも今のAIって何が得意で何が苦手なんでしょうか？

AIメンター拓海

素晴らしい着眼点ですね！最近は大規模マルチモーダルモデル、英語でLarge Multimodal Models（LMMs）を中心に、画像と文章を同時に扱う技術が進んでいますよ。得意なのは全体像の把握や一般的な説明で、苦手なのは細かい関係性や属性の合成的理解です。

田中専務

それは要するに、全体としては説明できるけれど、例えば「赤い箱の上にある小さな青いボルト」みたいな複雑な関係や属性の組み合わせは苦手、ということですか？

AIメンター拓海

その通りですよ。良い整理です。大規模マルチモーダルモデルは画像中の要素を“物の集まり”として扱いがちで、要素間の関係や属性が複雑になると誤答しやすいのです。そこで論文は「合成的チェイン・オブ・ソート（Compositional Chain-of-Thought、CCoT）」という手法を提案しています。

田中専務

CCoTというと、その名前は難しいですね。これって要するに何をしているんでしょうか？現場に入れるとしたら手間はどれくらいですか？

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。簡潔に言うと要点は三つです。第一に、モデルに自力で画像から「場面図（scene graph、SG）」を生成させる。第二に、その場面図を問合せと合わせて再度モデルに提示して答えを引き出す。第三に、これをゼロショットで行い、追加学習（ファインチューニング）を避ける、という流れです。

田中専務

場面図というのは図面のようなものですか？現場で撮った写真から作るのに特別な注釈データが必要ではないですか？

AIメンター拓海

良い質問ですよ。場面図、英語でScene Graph（SG）とは、画像中の「物」や「その属性（色、大きさなど）」、そして「物と物の関係（上にある、隣にある）」を形式化したものです。通常はSGの注釈データは高コストですが、この手法はモデル自身にSGを生成させるため、外部の正解SGデータに依存しません。

田中専務

ということは学習データを大量に作るコストが下がる、という理解で合っていますか。それと、これを使うと現場の判断ミスが減る期待は持てるのでしょうか。

AIメンター拓海

大きくはその通りです。注釈データを用意するコストを減らしつつ、モデルの「構成的な理解」を引き出す手段を提供します。現場適用のポイントは、運用前にいくつかの代表的なケースで生成結果（場面図）を確認し、必要であればプロンプトを調整することです。

田中専務

これって要するに、注釈データをたくさん作らずともモデルに考えさせるステップを挟むことで、複雑な関係性も正しく答えられるようにする工夫、ということですか？

AIメンター拓海

完璧な整理ですね！その通りです。要はモデルに中間的な「図解」を自分で作らせ、その図解を基に答えさせることで、関係性の把握を助けるわけです。導入時は現場の代表例でプロンプト調整、次に少数の検証で安全性と精度を確認すれば投資対効果は改善できますよ。

田中専務

分かりました。自分の言葉でまとめると、モデルにまず場面図を作らせてから答えを出させる手順を踏めば、細かい物の関係や属性の判断が良くなるし、注釈データを大量に作る必要がない。まずは代表例で試してみて、現場の声でプロンプトを詰めればいい、ということですね。

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

大規模マルチモーダルモデルのための合成的チェイン・オブ・ソート・プロンプティング

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

大規模マルチモーダルモデルのための合成的チェイン・オブ・ソート・プロンプティング

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ