2025.08.17

論文研究

12 分で読了

0 views

負のサンプル拡張を用いた方策最適化によるLLMの推論強化

（Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning）

- メールで送る
- リンクをコピーする

AI戦略の専門知識を身につけ、競争優位性を構築しませんか？

AIBR プレミアム

年間たったの9,800円で

“AIに詳しい人”として
一目置かれる存在に！

プレミア会員になって、山ほどあるAI論文の中から効率よく大事な情報を手に入れ、まわりと圧倒的な差をつけませんか？

詳細を見る

【実践型】
生成AI活用キャンプ

【文部科学省認可】
満足度100%の生成AI講座

3ヶ月後には、
あなたも生成AIマスター！

「学ぶ」だけではなく「使える」ように。
経営者からも圧倒的な人気を誇るBBT大学の講座では、3ヶ月間質問し放題！誰1人置いていかずに寄り添います。

詳細を見る

田中専務

拓海先生、最近うちの若手が「負のサンプルを活かせる論文が出ました！」と言うのですが、正直ピンと来ません。何をどう変えると現場で役に立つのでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！簡単に言うと、本論文は「失敗例の中にも価値がある部分がある」と見て、それを抽出して学習に回す方法を作ったんですよ。大丈夫、一緒に要点を押さえれば現場判断に使えるんです。

田中専務

失敗例に価値がある、とは要するに全部捨てずに良いところだけ切り出して使う、ということですか？コストと効果のバランスはどうなるのか気になります。

AIメンター拓海

良い質問ですよ。結論を先に三点でまとめると、1) 負のサンプルから正しい一歩を掘り出すことでデータ効率が上がる、2) ステップ単位で評価して不要な罰則を避けるため品質が向上する、3) オフライン学習でロールアウトのコストを抑えられる、です。投資対効果は想像より良いはずです。

田中専務

その三点、もう少し噛み砕いてください。たとえば我が社の設計支援で期待できる具体例はありますか。

AIメンター拓海

もちろんです。例えば技術設計の説明文でモデルが途中で誤った計算をした場合でも、そこに含まれる正しい論拠や部分的な手順は次の改良に使えます。論文の手法はまず応答をステップに切り分け（サンプルセグメンテーション）、次にその一歩一歩の正しさを人間とモデルで合意させ、最後に正しい部分を奨励するように方策（Policy）を調整しますよ。

田中専務

セグメント化して合意させる、というのは人手が多くかかるのでは。現場の工数が増えるなら導入に慎重になります。

AIメンター拓海

そこも設計次第で解決できますよ。論文ではLLMジャッジャー（LLM judger）とPRM（Process Reward Model）という自動評価器の合意を使い、人手チェックは最小限に抑えています。つまり初期投資はあるが、反復回数を減らせるため中長期の運用コストは下がるんです。

田中専務

これって要するに、うまくいかなかった回答の中にも部品として使える正解の断片があって、それを拾って学ばせれば少ないデータで強くできるってことですか？

AIメンター拓海

その通りです！まさに石（失敗応答）から宝石（有用なステップ）を掘り出す考え方です。捨てていた情報を再評価して最小限の罰則で学習させることで、サンプル効率が上がり、長いチェーン・オブ・ソート（Chain-of-Thought, CoT）を扱う際のコストも下がりますよ。

田中専務

なるほど。それなら我が社のドキュメント整備や現場判断支援に使えそうです。ただ、最初にやるべきことは何でしょうか。

AIメンター拓海

大丈夫、最初は現場で多く使われる失敗例を集め、どの部分が頻出で有用かを評価するところから始めましょう。私なら三段階で進めます。1) 失敗応答の収集とセグメント化、2) 自動評価器と人の目で合意を作る試行、3) 小さく方策を変えて効果を測る。これなら無理なく始められますよ。

田中専務

ありがとうございます。要するに、まずは失敗の棚卸をして、そこから使える断片を自動と人で見分けて、小さく試す、という流れですね。自分の言葉で言うと「失敗の中の正しい一手を拾って学習させることで、少ない投入で賢くする方法」だと理解しました。

1.概要と位置づけ

結論から述べると、本研究は「負のサンプル（negative sample）を丸ごと捨てるのではなく、その中に含まれる正解に近いステップを細かく掘り出し、方策最適化（policy optimization）に組み込むことで学習効率と性能を改善する」点で既存手法と一線を画する。ここで言うLarge Language Model (LLM) 大規模言語モデルは、長いChain-of-Thought (CoT) 思考連鎖を出力する際に部分的誤りが混ざることが多く、従来は失敗応答をほぼ無条件に棄却するか厳しく罰する運用が一般的であった。しかし長い思考過程では部分的に正しいステップが含まれることが多く、それを活用することで同じデータ量でも精度を高められるという着想が本研究の本質である。

まず背景を整理する。CoT（Chain-of-Thought, CoT 思考鎖）は複雑問題に対して途中式や推論過程を出力する有益な方式であるが、その長さは計算コストやオンラインロールアウトの負担を増やす。ロールアウトとは学習時にモデルを繰り返し実行する工程で、特に長い出力を評価する際の計算資源が問題となる。そこで本研究はオフライン学習の枠組みで与えられた固定データの有効活用に着目し、負のサンプルの“部分価値”を掘り起こす手法を提案した。

位置づけとしては、従来の手法が持つ二つの極端さを緩和するものだ。片方はRejection Fine-Tuning (RFT) 拒否サンプリング微調整のように誤答を丸ごと外す方向性、もう片方は強化学習（Reinforcement Learning, RL 強化学習）的に一律で罰を与える方向性である。本研究はこれらの中間に位置し、トークンやステップ単位で罰則の強さを細かく調整することで、学習信号の質を高めるという新たな選択肢を提供する。

実務的な意味合いは明瞭だ。既存データやログに失敗事例が大量に残る製造業や設計現場において、それらをただ捨てるのではなく、使える断片だけを抽出してAIに学習させることで、追加データ収集やオンライン試行の頻度を下げられる。コストが限られる現場にとって、データ効率の改善がすなわち投資対効果の改善につながる点が最も重要である。

2.先行研究との差別化ポイント

先行研究の多くは負のサンプルを単純に排除するか、あるいは報酬設計で均一に罰するアプローチが中心だった。Rejection Fine-Tuning (RFT) は性能の良い応答のみを選別して微調整を行うが、ここでは多くの情報が棄却されるリスクを抱える。一方で強化学習（Reinforcement Learning, RL 強化学習）系の手法は、全体の出力に対して一律にペナルティを与えることが多く、局所的に有益なステップまで弱めてしまう欠点があった。

本研究が示す差別化点は三つに整理できる。第一に、サンプルをステップ単位に分割するサンプルセグメンテーションを導入し、部分的に正しいステップを明示する点である。第二に、LLMジャッジャー（LLM judger）とPRM（Process Reward Model, プロセス報酬モデル）を組み合わせた合意ベースのステップ正誤判定を行い、評価の精度を高めている点である。第三に、トークンやステップごとに罰則強度を調整するNSA（Negative Sample Augmentation）という政策最適化目標を提案し、負のサンプルの中の“有益断片”に報酬を与える柔軟性を持たせた点である。

実務上の違いは、データ効率と運用コストに直結する点だ。RFTのように良事例だけで学習すると、データの偏りや表面上の改善は得られるが実運用での堅牢性に欠ける場合がある。RL系では学習コストが膨らみやすい。本研究はオフラインデータを最大限活用しつつ、不要な計算を抑える設計を取っているため、現場での導入ハードルが比較的低い。

以上を総合すると、本研究は既存の両極の問題を補完し、実務で重視されるコスト効率と堅牢性を同時に改善する点でユニークである。

3.中核となる技術的要素

本手法の心臓部は三段階のパイプラインである。第一段階はサンプルセグメンテーションで、長いCoT応答を意味のある「ステップ」に分割する工程だ。これは人間の設計プロセスでいうと工程書を章ごとに切り分ける作業に相当し、後工程での精密評価を可能にする基盤作りである。

第二段階はステップ正誤の判定で、ここでLLMジャッジャー（LLM judger）とPRM（Process Reward Model, PRM プロセス報酬モデル）を併用する。LLMジャッジャーは言語的整合性や論理の通りを見、PRMはその手順が実務的に合理かを評価するイメージだ。両者の合意を求めることで誤判定を減らし、より正確に「使える一手」を抽出する。

第三段階は方策最適化（policy optimization）で、ここでNegative Sample Augmentation (NSA) を適用する。本研究ではトークンレベルやステップレベルでの報酬調整を行い、有益なステップには罰則を弱め、場合によっては正の報酬に転じることでそれらを生成しやすくする。方策の更新はオフラインRLの枠組みで行われるため、オンラインでの試行回数を減らせる点が実務的に重要だ。

技術的な鍵は評価器の信頼性とマイニング係数の設定である。評価器の精度が低ければ誤ったステップを奨励してしまうし、係数が強すぎればノイズまで増幅してしまう。したがって初期段階では小さく試行し、評価器の改善と係数のチューニングを段階的に進める運用が推奨される。

4.有効性の検証方法と成果

著者らは数学的推論とコーディング推論を対象に複数ベンチマークで評価しており、代表的にはAIME24とAIME25（数学系ベンチマーク）とLive-CodeBench（コーディング外分布評価）を用いている。実験は同一の訓練データ下で従来手法と比較し、サンプル効率と最終的な正答率を主要指標にしている。これによりデータ量を揃えたうえでの性能差を明確に示している。

結果として、BCPG-NSA（Behavior Constrained Policy Gradient with Negative Sample Augmentation）は複数ベンチマークでベースラインを上回る性能を示し、特にサンプル効率の面で優れた改善が確認された。さらにアブレーション実験では、LLMとPRMの合意による注釈が単独よりも優れており、正確なステップ判定が性能向上に寄与することが示された。

追加の検証として多段反復（multiple iterations）での頑健性とスケーラビリティも報告され、反復回数を増やしても性能低下が小さい点は実運用での安定性を示唆する。これは、オフラインでの方策更新が過剰な誤強化を起こしにくい点と、ステップ単位での精密な報酬調整がノイズ増幅を抑える効果を持つためと理解できる。

以上の検証から結論付けられるのは、負のサンプルの細粒度活用は単なる理論的有利さに留まらず、実ベンチマークでの改善として再現可能であるという点である。現場での適用に際しては評価器精度と係数調整が鍵となるが、得られる効率改善は導入の説得力になる。

5.研究を巡る議論と課題

本手法には有望性がある一方で留意点も多い。まず評価器の信頼性問題は重大であり、LLMジャッジャーやPRMの偏りがそのまま学習信号の偏りに直結するリスクがある。業務データは研究用ベンチマークとは異なりノイズやドメイン特異性が強いため、評価器のドメイン適応が必須である。

次に、セグメンテーションの粒度決定はトレードオフを伴う。粒度が粗ければ誤った大きな塊を取り込んでしまい、細かすぎれば評価コストが増大する。現場では適正な粒度を探索するためのプロトタイプ運用期間が必要である。さらにマイニング係数や罰則スケールの設定は安全性と性能の両面で慎重に扱うべきである。

運用面では、初期のデータ収集や評価器作成に人的コストがかかる点をどう回収するかが実務判断の焦点となる。導入効果がすぐ出る領域と、中長期でしか効果が出ない領域があり、現場の優先順位設定が重要だ。特に安全重視領域では誤った強化が許されないため、保証的なチェック体制が必要になる。

倫理・説明性の観点も議論の対象だ。部分的に正しいステップを強化することが解釈性を複雑化させる可能性があり、結果的にモデルの判断根拠が分かりにくくなるリスクがある。このためログの保全や説明機能の設計を同時に行うことが求められる。

総括すると、本法はデータ効率と性能向上の両面で魅力的だが、評価器精度、粒度決定、運用回収計画、説明性確保といった実務的課題をクリアするための準備が不可欠である。

6.今後の調査・学習の方向性

まず短期的には、業界固有のログを用いた評価器のローカライズと、セグメンテーション粒度の最適化が重要である。評価器を逐次改良するための小さなヒット・アンド・トライを回し、誤判定を減らしつつ人手の介入量を下げる運用設計が現場での第一歩となるだろう。これにより導入初期コストを抑え、効果を早期に可視化できる。

中期的には、マイニング係数や罰則スケールを自動調整するメタ最適化や、評価器の自己改善ループを組み込むことで運用効率をさらに高める余地がある。特にPRMの学習を現場データで継続的に行い、業務特有の手順評価を強化することが有効だ。スケールさせる際の頑健性と安全弁の設計が鍵になる。

長期的には、人間とモデルの合意形成プロセスを制度化し、説明性の高いログと保証機構を整備する必要がある。特に規制や安全基準が厳しい領域では、どのステップを強化したかが追跡可能であることが必須となるため、設計段階から説明性を組み込むことが望ましい。

研究キーワード（検索に使える英語）: Negative Sample Augmentation, Behavior Constrained Policy Gradient, Negative Sample Mining, Chain-of-Thought, Offline Reinforcement Learning, Process Reward Model, Step-level Evaluation

会議で使えるフレーズ集

「この提案は負のサンプルから有用な断片を抽出することで、追加データ収集のコストを下げられる点が魅力です。」

「初期投資として評価器作りは必要ですが、長期的な運用コストは下げられる見込みです。」

「まずは小さな範囲でセグメンテーションと合意判定を試し、その効果を定量的に測りましょう。」

参考文献: Z. Yang et al., “Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning,” arXiv preprint arXiv:2505.14403v3, 2025.

監修者

阪上雅昭（SAKAGAMI Masa-aki）
京都大学　人間・環境学研究科　名誉教授

PCも苦手だった私が

“AIに詳しい人“
として一目置かれる存在に！

論文研究

負のサンプル拡張を用いた方策最適化によるLLMの推論強化

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

AI技術革新 - 人気記事

“AIに詳しい人“
として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

負のサンプル拡張を用いた方策最適化によるLLMの推論強化

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

1.概要と位置づけ

2.先行研究との差別化ポイント

3.中核となる技術的要素

4.有効性の検証方法と成果

5.研究を巡る議論と課題

6.今後の調査・学習の方向性

会議で使えるフレーズ集

監修者

論文研究シリーズ

関連記事

この記事をシェア

AI技術革新 - 人気記事

“AIに詳しい人“として一目置かれる存在に！

あなたにオススメのカテゴリ

さらに深い洞察を得る

AIBR プレミアム

“AIに詳しい人”として一目置かれる存在に！

【実践型】 生成AI活用キャンプ

3ヶ月後には、あなたも生成AIマスター！

AI Benchmark Researchをもっと見る

“AIに詳しい人”として
一目置かれる存在に！

【実践型】
生成AI活用キャンプ

3ヶ月後には、
あなたも生成AIマスター！

“AIに詳しい人“
として一目置かれる存在に！

【実践型】
生成AI活用キャンプ