4 分で読了
1 views

大規模マルチモーダルモデルのための合成的チェイン・オブ・ソート・プロンプティング

(Compositional Chain-of-Thought Prompting for Large Multimodal Models)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近社内で「画像と文章の両方を理解するAIを使おう」と言われて困っているんですが、そもそも今のAIって何が得意で何が苦手なんでしょうか?

AIメンター拓海

素晴らしい着眼点ですね!最近は大規模マルチモーダルモデル、英語でLarge Multimodal Models(LMMs)を中心に、画像と文章を同時に扱う技術が進んでいますよ。得意なのは全体像の把握や一般的な説明で、苦手なのは細かい関係性や属性の合成的理解です。

田中専務

それは要するに、全体としては説明できるけれど、例えば「赤い箱の上にある小さな青いボルト」みたいな複雑な関係や属性の組み合わせは苦手、ということですか?

AIメンター拓海

その通りですよ。良い整理です。大規模マルチモーダルモデルは画像中の要素を“物の集まり”として扱いがちで、要素間の関係や属性が複雑になると誤答しやすいのです。そこで論文は「合成的チェイン・オブ・ソート(Compositional Chain-of-Thought、CCoT)」という手法を提案しています。

田中専務

CCoTというと、その名前は難しいですね。これって要するに何をしているんでしょうか?現場に入れるとしたら手間はどれくらいですか?

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。簡潔に言うと要点は三つです。第一に、モデルに自力で画像から「場面図(scene graph、SG)」を生成させる。第二に、その場面図を問合せと合わせて再度モデルに提示して答えを引き出す。第三に、これをゼロショットで行い、追加学習(ファインチューニング)を避ける、という流れです。

田中専務

場面図というのは図面のようなものですか?現場で撮った写真から作るのに特別な注釈データが必要ではないですか?

AIメンター拓海

良い質問ですよ。場面図、英語でScene Graph(SG)とは、画像中の「物」や「その属性(色、大きさなど)」、そして「物と物の関係(上にある、隣にある)」を形式化したものです。通常はSGの注釈データは高コストですが、この手法はモデル自身にSGを生成させるため、外部の正解SGデータに依存しません。

田中専務

ということは学習データを大量に作るコストが下がる、という理解で合っていますか。それと、これを使うと現場の判断ミスが減る期待は持てるのでしょうか。

AIメンター拓海

大きくはその通りです。注釈データを用意するコストを減らしつつ、モデルの「構成的な理解」を引き出す手段を提供します。現場適用のポイントは、運用前にいくつかの代表的なケースで生成結果(場面図)を確認し、必要であればプロンプトを調整することです。

田中専務

これって要するに、注釈データをたくさん作らずともモデルに考えさせるステップを挟むことで、複雑な関係性も正しく答えられるようにする工夫、ということですか?

AIメンター拓海

完璧な整理ですね!その通りです。要はモデルに中間的な「図解」を自分で作らせ、その図解を基に答えさせることで、関係性の把握を助けるわけです。導入時は現場の代表例でプロンプト調整、次に少数の検証で安全性と精度を確認すれば投資対効果は改善できますよ。

田中専務

分かりました。自分の言葉でまとめると、モデルにまず場面図を作らせてから答えを出させる手順を踏めば、細かい物の関係や属性の判断が良くなるし、注釈データを大量に作る必要がない。まずは代表例で試してみて、現場の声でプロンプトを詰めればいい、ということですね。

論文研究シリーズ
前の記事
データ不均衡、予測不確実性評価、転移学習による一般化
(Data Imbalance, Uncertainty Quantification, and Generalization via Transfer Learning in Data-driven Parameterizations: Lessons from the Emulation of Gravity Wave Momentum Transport in WACCM)
次の記事
リアルタイムストラテジーゲームにおける報酬シェーピングによる学習改善
(Reward Shaping for Improved Learning in Real-time Strategy Game Play)
関連記事
不確実性認識型セルフトレーニングと期待値最大化に基づく基底変換
(Uncertainty-aware self-training with expectation maximization basis transformation)
骨格筋微細構造の加速物理志向推定
(Accelerated, physics-inspired inference of skeletal muscle microstructure from diffusion-weighted MRI)
構造関数 F2、FL における Small-x の再和訳
(Small-x Resummations for the Structure Functions F2, FL and F2)
凸でスケーラブルな弱ラベルSVM
(Convex and Scalable Weakly Labeled SVMs)
ニューラル常微分方程式における適応フィードフォワード勾配推定
(Adaptive Feedforward Gradient Estimation in Neural ODEs)
ほとんどの積分布からPAC学習可能な決定木
(Decision trees are PAC-learnable from most product distributions)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む