2025.08.06

論文研究

13 分で読了

0 views

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

（MoCa：モダリティ認識継続事前学習による双方向マルチモーダル埋め込みの改善）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海さん、この論文のタイトルを見ただけだと何をやったのかわかりにくいんです。要するに何が変わるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！大丈夫です、田中専務。簡単に言うと、視覚と言葉を同時に扱うAI（Vision-Language Model、VLM＝視覚言語モデル）を、そのまま検索や類似検索で使いやすい形に作り替えた研究ですよ。要点は三つです。まず双方向で文と画像を相互に理解できるようにしたこと。次に大量のラベル無しデータで学べる仕組みを取り入れたこと。最後に多様なデータで微調整して実運用で強くしたことです。

田中専務

ラベル無しデータで学べる、ですか。現場で使える言い方に直すと、今まで必要だった手作業の『画像に対する正解キャプション』をあまり用意しなくても良くなる、ということでしょうか。

AIメンター拓海

その通りですよ。素晴らしい着眼点ですね！ラベル付きペアだけに頼るとコストが高く、現場の多様な状況に弱いです。今回の手法はテキストと画像を混ぜて『同時にノイズを消す訓練』をすることで、教師データが少なくても互いを補完して学べるようになります。経営的に言えば初期コストを抑えつつ現場知見での適応性を高められる、ということです。

田中専務

なるほど。実運用で気になるのは速度と精度です。これって要するに『検索や類似検出の精度が上がる』ということですか？

AIメンター拓海

その疑問も正しいです！重要な点は三つだけ押さえればいいですよ。第一に、埋め込み（embedding＝数値表現）を双方向化することで、テキストから画像へ、画像からテキストへと意味を行ったり来たりできるようになり、検索のマッチング精度が上がる。第二に、大量のラベル無しデータを使えるので希少ケースの性能も改善される。第三に、多様なデータで微調整することで実際の業務データに近い挙動が得られる。これで多くのケースで精度が向上しますよ。

田中専務

実際に導入するときの段取りはどう考えれば良いですか。現場でのデータ収集やコストが心配でして。

AIメンター拓海

大丈夫、一緒にやれば必ずできますよ。導入の要点は三段階で考えます。第一段階は既存の大量の非ラベル画像や文章を集めて継続事前学習（Continual Pre-training）すること。第二段階は業務に近い異種データでコントラスト学習（Contrastive Fine-tuning）して微調整すること。第三段階は少量の現場ラベルで最終調整することです。これによりラベル作成コストを抑えつつ実用性を高められますよ。

田中専務

拓海さん、それはうまくいけばコスト削減になりますね。ただ、現場の画像は古いカメラや暗い環境などで質が悪い場合が多い。そういう状況でも効果は期待できますか。

AIメンター拓海

良い質問ですね！今回の手法は『joint reconstruction』（共同再構成）という訓練でテキストと画像の双方のノイズを同時に扱います。例えるなら、文字起こしと写真補正を同時に学ぶことで、片方が壊れていてももう片方から補えるようになるイメージです。つまり、画質が悪くても、関連するテキストや周辺情報があれば性能が保たれやすいんです。

田中専務

これって要するに、テキストと画像をセットで学ばせることで互いに不足を補うようにできる、ということですか？

AIメンター拓海

まさにその通りですよ！その要約は正確です。素晴らしい着眼点ですね！そして経営判断としては、最初に業務上よくある『片方が欠けるケース』を洗い出し、そこに合わせたデータ準備をすれば投資対効果が高くなります。

田中専務

セキュリティや運用面での注意点はありますか。社外秘の図面や社員の写真が混ざると困るのですが。

AIメンター拓海

重要な視点です。運用ではデータの取り扱いルールとガバナンスが必須です。まずは社内で取り扱うデータを分類し、機密データはローカルでのみ学習するか安全なアノテーション環境を使います。次に、モデル出力の検証プロセスを設けて、誤った推論が業務に影響を与えないようにします。これでリスクを管理できますよ。

田中専務

分かりました。では最後に私の理解を整理させてください。今回の論文は、ラベルが少ない現場データでもテキストと画像を同時に学ぶことで検索やマッチングの精度を上げ、運用時のコストとリスクを下げる技術を示した、ということですね。これで合っていますか。

AIメンター拓海

素晴らしいまとめですね！その理解で合っていますよ。大丈夫、一緒に取り組めば必ず実運用に結びつけられる手法です。

1.概要と位置づけ

結論先置きで言うと、本研究は既存の因果的（causal）注意に依存する視覚言語モデル（Vision-Language Model、VLM＝視覚言語モデル）を、双方向で使える埋め込み（embedding＝数値表現）に変換する二段階の実務寄り手法を示した点で重要である。特に、モダリティを意識した継続事前学習（Modality-aware Continual Pre-training、本稿では以降「継続事前学習」と記す）と、多様なデータを用いる異種コントラスト微調整（Heterogeneous Contrastive Fine-tuning、以降「異種コントラスト微調整」）を組み合わせることで、ラベル付きの画像・キャプションペアに頼らずにスケールさせられる点が実務上の革新である。

背景として、従来の多モーダル埋め込み研究は、単方向の因果的注意機構（causal attention、因果的注意）を持つVLMをベースにしていたため、検索や類似検索のように双方向の照合を求める用途では本来の設計と齟齬が生じていた。これに対し本研究は、テキストと画像を相互に参照し合う学習課題を導入することで、双方向の文脈理解をモデル内部に埋め込んだ点が評価される。

実務上は、手元に大量の未注釈データがあるが注釈コストをかけられない企業にとって、本手法は短期的なPoC（Proof of Concept）から本番運用への移行時の初期投資を下げる可能性が高い。つまり、データ整備のボトルネックを和らげつつ、現場の多様性に耐える表現を育てられる。

本節での要点は三つに整理できる。第一に、双方向の文脈を学ぶ設計であること。第二に、ラベル無し大規模データに対してスケール可能であること。第三に、実運用データに近い多様な異種データで微調整することで汎化性が高まることである。これらが総合されることで従来手法との差分が生まれる。

経営的には、初期のラベリング投資を抑えつつ業務特有の事例に順応しやすい基盤を短期間で構築できる点が最大の価値である。これが本研究の位置づけである。

2.先行研究との差別化ポイント

従来研究の多くは、画像と文章の埋め込み学習においてコントラスト学習（Contrastive Learning、以降「コントラスト学習」）を中心に据えていた。ここでは高品質な画像—キャプション対が前提となり、これがデータ収集コストとスケーラビリティの制約となっていた。加えて、VLM内部の因果的注意は生成タスクには強いが、双方向検索のための埋め込みには最適化されていなかった。

本研究はまずその点を直接的に問題提起する。すなわち、因果的注意に依存するバックボーンは埋め込み用途に対して部分最適となるため、双方向のコンテキスト推論を可能にする訓練課題が必要だと論じる。そして実装として、テキストのマスク化（Masked Language Modeling、MLM）と画像のマスク再構成（Masked Autoencoding、MAE）を同時に行うjoint reconstruction（共同再構成）という新たな継続事前学習タスクを提示する。

さらに、先行研究が主に画像—キャプションペアに頼っていたのに対し、本研究は長文のクエリ—文書ペアや文書の一部と画像の組合せといった多様な異種データを微調整段階に加えることで、より幅広いセマンティクスを学習させている。これが汎化性における差別化要因だ。

技術的には、単にモデルアーキテクチャを変えるのではなく、事前学習の目的関数（objective）をモダリティ横断的に再定義した点が革新的である。これにより、事前学習済みのVLMを大きく作り直すことなく実用的な埋め込みに転換できる。

実務におけるインパクトは明瞭だ。既存のVLM投資を捨てずに流用しつつ、双方向検索や類似性判定を必要とする業務に適合させられることが、導入障壁を下げる。

3.中核となる技術的要素

中核は二段構えのフレームワークである。第一段階はModality-aware Continual Pre-training（モダリティ認識継続事前学習、以降「継続事前学習」）で、テキストと画像を交互に混ぜた入力に対して共同再構成を課す。テキスト側はMasked Language Modeling（MLM、マスク言語モデル）で欠損トークンを周辺文脈から予測し、画像側はMasked Autoencoding（MAE、マスク自己符号化）で欠損パッチを復元する。

このjoint reconstruction（共同再構成）という目的は、両モダリティの情報を相互参照させる点に特徴がある。直感的には、傷のある写真と説明文を同時に見せて補完させる訓練であり、片方が欠けてももう片方から復元する能力を育てる。

第二段階はHeterogeneous Contrastive Fine-tuning（異種コントラスト微調整）で、従来の単純な画像—キャプション対に留まらない多様な組合せを用いる。例えば長文クエリと文書、部分的に関連する画像とテキストの対などを用いることで、より豊かな意味空間で距離を学習させる。

技術的に注目すべき点は、これらの設計が大規模な未注釈データに対してもスケールするように工夫されていることだ。joint reconstructionは教師信号を自己生成できるため、ラベルコストを抑えつつ双方向性を獲得できる。

実運用を見据えると、既存VLMを土台にこの二段階を回すだけで埋め込みの品質が向上するため、既存投資の再利用性が高い点が現場にとっての利点である。

4.有効性の検証方法と成果

検証はベンチマークを通じて行われ、MMEBとViDoRe-v2といった多モーダル埋め込み評価セットで性能向上が示されている。評価軸は検索精度や類似度評価に加え、データの多様性に対する頑健性である。本論文は従来比で一貫した改善を報告しており、特に少数ショットやノイズ混入時の堅牢性が向上する点を強調している。

実験設計は妥当で、事前学習済みVLMを出発点にして継続事前学習を施し、その後に異種コントラスト微調整を行うという現実的な流れで行われている。比較対象として従来のコントラスト学習ベースの手法や、因果的注意のみを用いたVLMが選ばれており、改善の方向性が明確だ。

成果の示し方としては、単純な平均精度指標に加え、ノイズやドメインシフトに対する頑健性評価も含めており、実務適用の観点で説得力がある。つまり、単純にスコアが上がるだけでなく『実際の企業データで起きる問題』に強いことが示されている。

ただし検証はベンチマーク中心であり、企業固有の高機密データや現場特有の画像条件での詳細な検証は今後必要である。現場導入前に社内データでの追加検証を推奨する。

総じて、実証結果は手法の有効性を裏付けており、導入の検討に値するという結論が妥当である。

5.研究を巡る議論と課題

まず限界として、継続事前学習や異種コントラスト微調整が計算コストを増やす点は無視できない。特に大規模モデルを対象にすると学習時間と必要なインフラが増大するため、投資対効果の見極めが必要である。経営判断としては、まず小規模でPoCを回し、効果が見えた段階で段階的にスケールすることを勧める。

次に、データの偏りやバイアスの問題である。多様なデータを取り込むことで汎化性は上がるが、逆に現場固有の偏りを無批判に学習してしまうリスクもある。ここは監督者による評価基準や公開の検証セットを用いた外部レビューで管理する必要がある。

また、モデルの解釈性も課題である。双方向の埋め込みは性能を上げる一方で、出力がなぜそうなったかを説明しにくくなる場合がある。業務クリティカルな判断に使う場合は、人間によるクロスチェックや説明可能性のための補助手段を検討すべきである。

さらに、運用面ではデータガバナンスとプライバシー管理が重要だ。特に社外秘データや個人情報を含むケースでは学習データの取り扱いを厳格にし、必要ならオンプレミスでの学習やフェデレーテッド学習といった代替を検討する。

最後に、研究が示す方向性は拡張性に富むが、動画や音声など他モダリティへの拡張は未検証である。ここは今後の重要な研究課題であり、企業としてはロードマップに組み入れておくべきである。

6.今後の調査・学習の方向性

短期的にはまず社内データで小規模な継続事前学習を試し、ラベル無しデータの収集・整理フローを確立することが実務上の第一歩である。これによりラベリング工数を低減しつつ、どの業務領域で効果が出るかを見定めることができる。

中期的には異種データの準備を進め、ドメイン固有の対比データセットを作成することで微調整フェーズの効果を最大化する。実際には、長文クエリ—文書、部分的に関連する画像—テキストなど業務に即した異種ペアを設計することが重要である。

長期的な研究課題としては、動画や音声、そして構造化データを含めた多モーダル拡張がある。これが実現すれば、現場の複雑な情報をより高次に統合でき、例えば設備の異常検知や保守ログと画像を結びつけた高度な検索が可能になる。

また、説明性とフェアネス（公平性）を改善するための補助手法や、コストを抑えるための蒸留（model distillation）といった技術も並行して検討すべきである。これにより実運用での採用障壁を下げられる。

最後に、社内での組織的な学習も必要である。AIは単独のプロジェクトではなく組織能力の一部であるため、データ収集・評価・運用のサイクルを回せる体制を作ることが不可欠だ。

検索に使える英語キーワード（論文名は記載しない）

MoCa, Modality-aware Continual Pre-training, Heterogeneous Contrastive Fine-tuning, multimodal embeddings, bidirectional attention, joint reconstruction, masked autoencoding, masked language modeling

会議で使えるフレーズ集

「この手法は既存のVLMをそのまま捨てずに双方向検索向けの埋め込みに転換できます。」

「ラベル付けコストを抑えて未注釈データを活用することで、PoCの初期投資を低減できます。」

「現場の多様性に耐えるために異種データで微調整する点が肝です。」

H. Chen et al., “MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings,” arXiv preprint arXiv:2506.23115v1, 2025.

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索に使える英語キーワード（論文名は記載しない）

会議で使えるフレーズ集

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

検索に使える英語キーワード（論文名は記載しない）

会議で使えるフレーズ集

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ