Chain-of-Thought（思考の連鎖）の価値低下に関する報告 — Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting

田中専務

拓海さん、最近うちの若手が「Chain-of-Thoughtってやつを使えばAIが賢くなる」と言うんですが、正直ピンと来ないんです。投資する価値があるんでしょうか。

AIメンター拓海

素晴らしい着眼点ですね！Chain-of-Thought、略してCoTは「ステップごとに考えさせる」プロンプトのことですよ。要点を3つで説明すると、効果がモデルとタスクで変わり、古い小さなモデルでは有効、賢い推論特化モデルではほとんど利得がない、そしてコストが増える、です。

田中専務

なるほど。その3点だけ聞くと分かりやすいですね。でもうちが導入するとき、どのモデルにどう使えば良いかが分かりません。現場での判断基準はありますか。

AIメンター拓海

大丈夫、一緒に整理できますよ。実務ではまず、モデルが『推論（reasoning）を得意とするか否か』を確認するのが近道です。得意ならCoTを外から与える必要は薄いですし、不得意なら簡単なCoTで平均精度が上がる可能性がありますよ。

田中専務

これって要するに、今ある高性能モデルには無理に「考えさせる」指示を出さなくても良くて、古いモデルにだけ手を入れればいいということですか？

AIメンター拓海

その通りですよ。要するにコスト対効果の判断が重要です。ここでも要点を3つにすると、1)モデルの種類を見極める、2)CoTは時間とトークンを増やす、3)完璧な正答率（100% Correct）が下がることがある、です。業務に応じてトレードオフを評価できますよ。

田中専務

つまり、導入判断は投資対効果の問題で、コスト（時間と料金）が増えても平均で得られる効果が重要になると。簡単な評価方法はありますか。

AIメンター拓海

大丈夫です。まずは小さなベンチマークを作ることを勧めます。現場で良く出る代表的な質問を50問ほど用意して、CoTあり・なしで平均正答率と処理時間を比べるだけで有効性が分かりますよ。私がテンプレ支援できます。

田中専務

テンプレがあると助かりますね。最後に、社内で説明するときに使う一言でまとめてもらえますか。

AIメンター拓海

もちろんです。要点を3つで言うと、「CoTは古いモデルに効くがコスト増」「賢いモデルには不要」「まず小さなベンチマークで評価」を伝えれば、経営判断の材料になりますよ。大丈夫、一緒にやれば必ずできますよ。

田中専務

分かりました。自分の言葉で言うと、「CoTは場合によって使い分ける道具で、まず小さく試して本当に費用対効果があるかを見極めるべきだ」という理解でよいですか。

AIメンター拓海

素晴らしいまとめです！そのとおりで、それを土台に現場評価を始めれば、無駄な投資を避けつつ効果を取れますよ。何かあればすぐ手伝いますから、大丈夫ですよ。

パケットデータからのフロー復元の改善（Improved Flow Recovery from Packet Data）