4 分で読了
1 views

大規模マルチモーダルモデルのための合成的チェイン・オブ・ソート・プロンプティング

(Compositional Chain-of-Thought Prompting for Large Multimodal Models)

さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として
一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、
あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近社内で「画像と文章の両方を理解するAIを使おう」と言われて困っているんですが、そもそも今のAIって何が得意で何が苦手なんでしょうか?

AIメンター拓海

素晴らしい着眼点ですね!最近は大規模マルチモーダルモデル、英語でLarge Multimodal Models(LMMs)を中心に、画像と文章を同時に扱う技術が進んでいますよ。得意なのは全体像の把握や一般的な説明で、苦手なのは細かい関係性や属性の合成的理解です。

田中専務

それは要するに、全体としては説明できるけれど、例えば「赤い箱の上にある小さな青いボルト」みたいな複雑な関係や属性の組み合わせは苦手、ということですか?

AIメンター拓海

その通りですよ。良い整理です。大規模マルチモーダルモデルは画像中の要素を“物の集まり”として扱いがちで、要素間の関係や属性が複雑になると誤答しやすいのです。そこで論文は「合成的チェイン・オブ・ソート(Compositional Chain-of-Thought、CCoT)」という手法を提案しています。

田中専務

CCoTというと、その名前は難しいですね。これって要するに何をしているんでしょうか?現場に入れるとしたら手間はどれくらいですか?

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。簡潔に言うと要点は三つです。第一に、モデルに自力で画像から「場面図(scene graph、SG)」を生成させる。第二に、その場面図を問合せと合わせて再度モデルに提示して答えを引き出す。第三に、これをゼロショットで行い、追加学習(ファインチューニング)を避ける、という流れです。

田中専務

場面図というのは図面のようなものですか?現場で撮った写真から作るのに特別な注釈データが必要ではないですか?

AIメンター拓海

良い質問ですよ。場面図、英語でScene Graph(SG)とは、画像中の「物」や「その属性(色、大きさなど)」、そして「物と物の関係(上にある、隣にある)」を形式化したものです。通常はSGの注釈データは高コストですが、この手法はモデル自身にSGを生成させるため、外部の正解SGデータに依存しません。

田中専務

ということは学習データを大量に作るコストが下がる、という理解で合っていますか。それと、これを使うと現場の判断ミスが減る期待は持てるのでしょうか。

AIメンター拓海

大きくはその通りです。注釈データを用意するコストを減らしつつ、モデルの「構成的な理解」を引き出す手段を提供します。現場適用のポイントは、運用前にいくつかの代表的なケースで生成結果(場面図)を確認し、必要であればプロンプトを調整することです。

田中専務

これって要するに、注釈データをたくさん作らずともモデルに考えさせるステップを挟むことで、複雑な関係性も正しく答えられるようにする工夫、ということですか?

AIメンター拓海

完璧な整理ですね!その通りです。要はモデルに中間的な「図解」を自分で作らせ、その図解を基に答えさせることで、関係性の把握を助けるわけです。導入時は現場の代表例でプロンプト調整、次に少数の検証で安全性と精度を確認すれば投資対効果は改善できますよ。

田中専務

分かりました。自分の言葉でまとめると、モデルにまず場面図を作らせてから答えを出させる手順を踏めば、細かい物の関係や属性の判断が良くなるし、注釈データを大量に作る必要がない。まずは代表例で試してみて、現場の声でプロンプトを詰めればいい、ということですね。

監修者

阪上雅昭(SAKAGAMI Masa-aki)
京都大学 人間・環境学研究科 名誉教授

論文研究シリーズ
前の記事
データ不均衡、予測不確実性評価、転移学習による一般化
(Data Imbalance, Uncertainty Quantification, and Generalization via Transfer Learning in Data-driven Parameterizations: Lessons from the Emulation of Gravity Wave Momentum Transport in WACCM)
次の記事
リアルタイムストラテジーゲームにおける報酬シェーピングによる学習改善
(Reward Shaping for Improved Learning in Real-time Strategy Game Play)
関連記事
事前学習済みモデル選定支援ツール PTMPicker
(PTMPicker: Facilitating Efficient Pretrained Model Selection for Application Developers)
分布圧縮による効率的で正確な説明推定
(EFFICIENT AND ACCURATE EXPLANATION ESTIMATION WITH DISTRIBUTION COMPRESSION)
相互作用スクリーニングと疑似尤度によるテンソル学習
(Interaction Screening and Pseudolikelihood Approaches for Tensor Learning in Ising Models)
Coarse Grained Exponential Variational Autoencoders
(粗粒化された指数族変分オートエンコーダ)
RaGNNarok: A Light-Weight Graph Neural Network for Enhancing Radar Point Clouds on Unmanned Ground Vehicles
(RaGNNarok:無人地上車両のレーダ点群を強化する軽量グラフニューラルネットワーク)
EdgeTimer:深層強化学習によるモバイルエッジコンピューティングの適応的マルチタイムスケールスケジューリング
(EdgeTimer: Adaptive Multi-Timescale Scheduling in Mobile Edge Computing with Deep Reinforcement Learning)
この記事をシェア

有益な情報を同僚や仲間と共有しませんか?

AI技術革新 - 人気記事
ブラックホールと量子機械学習の対応
(Black hole/quantum machine learning correspondence)
生成AI検索における敏感なユーザークエリの分類と分析
(Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System)
DiReDi:AIoTアプリケーションのための蒸留と逆蒸留
(DiReDi: Distillation and Reverse Distillation for AIoT Applications)

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に!
  • AIBRプレミアム
  • 実践型生成AI活用キャンプ
あなたにオススメのカテゴリ
論文研究
さらに深い洞察を得る

AI戦略の専門知識を身につけ、競争優位性を構築しませんか?

AIBR プレミアム
年間たったの9,800円で
“AIに詳しい人”として一目置かれる存在に!

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか?

詳細を見る
【実践型】
生成AI活用キャンプ
【文部科学省認可】
満足度100%の生成AI講座
3ヶ月後には、あなたも生成AIマスター!

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題!誰1人置いていかずに寄り添います。

詳細を見る

AI Benchmark Researchをもっと見る

今すぐ購読し、続きを読んで、すべてのアーカイブにアクセスしましょう。

続きを読む