
拓海先生、最近部下から「指示微調整を入れれば当社のAIはもっと現場の情報に従うようになります」と言われまして。本当にそうなるものですか?

素晴らしい着眼点ですね!一般に、Instruction Finetuning (IFT) 指示微調整はユーザーの命令や入力文脈に従いやすくすることを目的としています。ところが最近の研究で、期待とは逆に文脈への依存が一時的に増えた後、むしろ減ってしまう現象が見つかっているんですよ。

それは困りますね。うちの現場は紙のマニュアルや現場の測定値を入れれば判断が変わる場面が多い。要するに指示を与えてもモデルが自分の“記憶”を優先してしまうということでしょうか?

大丈夫、一緒に整理しましょう。ここで重要なのはLarge Language Models (LLMs) 大規模言語モデルが持つ二つの情報源です。一つはParametric Knowledge (パラメトリック知識)、すなわち事前学習で内部に蓄えた“記憶”で、もう一つがUser-provided Context (入力文脈)、つまりその都度与えられる情報です。

それなら最初から指示微調整すれば文脈を優先してくれるんじゃないかと思っていたのですが、違うんですね。現場で入力した値よりも昔の“常識”を優先するなら事故にもつながりかねません。

その不安、的を射ていますよ。研究はまずInstruction Finetuningが初期段階では文脈依存性を高めることを観察しましたが、さらに微調整を続けると文脈依存性が低下する、つまりContext-Parametric Inversion(文脈–パラメトリック反転)と呼べる現象が出ると報告しています。

どうしてそんなことが起きるのですか。指示を学ばせているのに逆行するなんて、学習データに問題があるのでしょうか?



