2025.06.21

論文研究

9 分で読了

0 views

SFTかRLか？ R1ライクな思考を持つ大規模視覚言語モデルの訓練に関する初期調査

（SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、お忙しいところ失礼します。部下から『SFTしてからRLするのが王道ですよ』と聞いて、どう導入すべきか迷っているのですが、そもそもSFTとRLって要するに何が違うんですか？

AIメンター拓海

素晴らしい着眼点ですね！簡単に言うと、Supervised Fine-Tuning (SFT) は正しい答えを見せて学ばせる訓練で、Reinforcement Learning (RL) は報酬を与えて望ましい振る舞いを強化する訓練ですよ。まずは結論を一言で示すと、大事なのは『何を目的にするか』で、目的によって向き不向きが変わるんです。

田中専務

なるほど。しかし現場では『まずは人の良い例を大量に見せればOKだ』と言われます。今回の論文はそれを否定しているという理解で合っていますか？

AIメンター拓海

素晴らしい着眼点ですね！その論文では、確かにSFTが必ずしも最善ではない場面があると指摘しています。特にマルチモーダル（画像と文章を同時に扱う）で“思考過程”を育てたい場合、SFTが専門家の“まね”を促してしまい、後続のRLが効果を出しにくくなる問題を報告しているんです。

田中専務

これって要するにSFTを先にやると、モデルが“見本どおりの考え方”ばかり真似してしまって、新しい良い考え方を探索できなくなるということですか？

AIメンター拓海

その理解で非常に的確ですよ！論文は『SFTで学んだ“疑似的(reasoning-like)”な経路が、RLによる探索を制限する』と述べています。つまり、SFTは短期的に指示従順にはなるが、長期的な“自律的な思考改善”を阻害する場合があるのです。

田中専務

では現実の導入判断として、我々のような現場重視の会社はどう考えればいいですか。投資対効果と現場への浸透を重視する私としては慎重にならざるを得ません。

AIメンター拓海

大丈夫、一緒に考えれば必ずできますよ。要点を3つにまとめると、1) 目的が『正確な作業遂行』ならSFT主体で早期に安定性を得るべき、2) 目的が『柔軟で深い思考』ならRLを中心に据えるべき、3) ハイブリッドにするならSFTの使い方を工夫してRLの探索を妨げない工夫が必要です。

田中専務

具体的にはSFTのどこを変えればRLの効果を損なわないのですか。現場で簡単に試せる工夫が知りたいです。

AIメンター拓海

素晴らしい着眼点ですね！論文では、SFTデータの作り方に工夫が必要だと述べています。具体的にはSFTで使うサンプルに多様な「思考プロセス」の例を混ぜる、模倣だけで終わらないように部分的に不確実さを残す、あるいはSFTを短時間だけ行い、RLで微調整する設計が有効だと示しています。

田中専務

要するに、SFTは完全な正解だけを見せるのではなく、いくつかの“考え方の例”や試行錯誤を見せておくといい、ということですね？

AIメンター拓海

まさにそのとおりです！核心は『模倣だけで終わらせない』ことです。SFTで基礎を作りつつ、RLで評価指標に基づく探索を行う。あるいは直接RLのみで思考を育てる選択もあり得ます。どちらを採るかは事業目標とリソース次第です。

田中専務

よく分かりました。では最後に、この論文で一番大事な点を私の言葉でまとめると、『SFTは速く安定した従順さをくれるが、深い思考や改善を求めるならRL主体、あるいはSFTの例示の仕方を変える必要がある』ということですね。間違いないですか？

AIメンター拓海

その通りですよ、田中専務！素晴らしい総括です。大丈夫、一緒に実証計画を作れば必ず結果が出せますから、次は実際の業務で小さく試していきましょう。

1. 概要と位置づけ

結論を先に示すと、本研究は『Supervised Fine-Tuning (SFT) が必ずしもその後の Reinforcement Learning (RL) を有利にしない場合がある』ことを示し、マルチモーダル環境での訓練戦略を見直す契機を提供するものである。SFTは教師データを示してモデルを従順にする一方で、専門家の思考経路を模倣する傾向が強く、結果としてRLによる探索・改善の余地を狭めてしまうという問題点を明らかにしている。研究は画像と言語を同時に扱う Large Vision-Language Models (LVLMs) を対象に、R1様式の“考える過程”を模したデータセットを用い、SFT専用とRL専用の分割を設けた比較実験を行っている。最も大きく変わる点は、従来の『まずSFTしてからRL』という定石が万能ではなく、用途に応じてRL主体やSFTの設計変更が必要になるという実務的示唆である。これにより、経営層はAI導入時に訓練戦略の選択を投資対効果の観点から検討し直す必要が生じる。

2. 先行研究との差別化ポイント

従来研究は Supervised Fine-Tuning (SFT) を中心に据え、Chain-of-Thought (CoT) などの手法で明示的な思考過程を模倣することにより性能を向上させてきた。先行研究ではテキスト中心の大規模言語モデルにおいてSFTが安定した改善を生む事例が多く報告されているが、本研究はそれをマルチモーダル領域に拡張した場合の限界を詳述している。差別化の第一点は、画像とテキストを合わせた高度な“思考の軌跡”を含むデータセット、VLAA-Thinkingを新規に構築した点である。第二点は、SFTのみ、RLのみ、SFT→RLといった代表的な訓練パスを直接比較し、SFTがRLの探索性を阻害するメカニズムを実験的に示した点である。第三点は、実務的に重要な視点、すなわち短期的な従順性と長期的な自律的改善のトレードオフを明確化した点である。これらにより、本研究は単なる性能比較を越えて、訓練設計の因果的理解を深める貢献を果たしている。

3. 中核となる技術的要素

本研究の技術的中核は三つある。第一はVLAA-Thinkingという高品質なマルチモーダル推論データセットの構築で、ここではR1スタイルの「考えてから話す」中間的思考トレースを明示的に含めている点が特徴である。第二は、Supervised Fine-Tuning (SFT) に用いるサンプルと、Reinforcement Learning (RL) に用いる報酬設計の違いを明確に分けて実験した点である。第三は、SFTが生成する「疑似的な思考経路(pseudo reasoning paths)」を定性的・定量的に評価し、それがRLによる探索をどのように制限するかを解析した点である。技術説明を噛み砕けば、SFTは良い見本を与えて模倣させる営業研修のようなもので、RLは現場での試行錯誤を通じて最適解を見つけるOJT（オン・ザ・ジョブ・トレーニング）のようなものである。重要なのはどちらが目的達成に効率的かを目的に応じて判断することである。

4. 有効性の検証方法と成果

検証はVLAA-ThinkingのSFT用分割（126,413サンプル）とRL用分割（25,195サンプル）を用いて行われた。評価は視覚言語推論のリーダーボードおよび手元で設計したタスク群を用い、SFT→RL、SFTのみ、RLのみの三条件を比較している。主な結果は、SFTで初期報酬が高く応答が長くなる傾向がある一方で、最終的な推論性能はRL主体の訓練が上回るというものであった。さらに、応答長や報酬の高さと性能の相関が薄く、従来の「長い応答＝良いモデル」という見立てが成立しない場面が観測された。実践上の成果として、VLAA-Thinker-Qwen2.5VL-3Bモデルが特定のリーダーボードで当該スケールのトップを記録し、RL中心の設計が有効であることを実証している。

5. 研究を巡る議論と課題

議論点は主に三つある。第一は実務での汎用性の問題で、RLは報酬設計や収束に時間を要するため、短期的なビジネス価値が求められる場面での採用が難しい点である。第二はSFTとRLのハイブリッド化における設計指針が未だ確立されておらず、どの程度SFTを行えばRLの探索性を阻害しないかの定量的境界が不明である点である。第三はデータの偏りや報酬の設計ミスによる望まぬ行動のリスクで、特に現場業務に適用する際は慎重な検証が必要である。これらの課題は、経営側がROI（投資対効果）を明確にし、段階的な実証実験を行うことで初めて解消できるものである。総じて、技術的には進展が示されたが、現場導入には慎重な運用設計が求められる。

6. 今後の調査・学習の方向性

今後は三方向での追加調査が必要である。第一はSFTデータの多様性とノイズ設計がRLの探索に与える影響を定量化すること、第二は産業応用に即した報酬関数の設計とそれに伴う安全性評価の強化、第三は小規模リソースでRLの利点を引き出す効率的な学習手法の開発である。研究はまた、実際の業務データでの実装例を増やす必要があると示唆している。経営判断としては、まずは小さな実証を行い、SFT主体で早期導入するかRL主体で中長期の改善を狙うかを事業目標に照らして決めることが現実的な道である。最後に、検索に使える英語キーワードは「VLAA-Thinking」、「SFT vs RL for LVLMs」、「R1-style multimodal reasoning」である。

会議で使えるフレーズ集

「今回の論文は、SFTは初動の安定化に寄与するが、長期的な思考深化にはRLが有効であるという示唆を出している。」

「短期の成果を重視するならSFT重視、柔軟性や改善を重視するならRLを中心に据えるのが合理的だ。」

「小さなPoC（概念実証）でSFTとRLを並列比較し、投資対効果を数値化してから拡張を判断しましょう。」

引用元：Chen H. et al., “SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models,” arXiv preprint arXiv:2504.11468v1, 2025.

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

SFTかRLか？ R1ライクな思考を持つ大規模視覚言語モデルの訓練に関する初期調査

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1. 概要と位置づけ

2. 先行研究との差別化ポイント

3. 中核となる技術的要素

4. 有効性の検証方法と成果

5. 研究を巡る議論と課題

6. 今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

SFTかRLか？ R1ライクな思考を持つ大規模視覚言語モデルの訓練に関する初期調査

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1. 概要と位置づけ

2. 先行研究との差別化ポイント

3. 中核となる技術的要素

4. 有効性の検証方法と成果

5. 研究を巡る議論と課題

6. 今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ