ChatBench: From Static Benchmarks to Human-AI Evaluation（ChatBench：静的ベンチマークから人間とAIの評価へ）

田中専務

拓海先生、最近の言語モデルの評価が変わってきたと聞きました。うちの現場にも関係ありますか。

AIメンター拓海

素晴らしい着眼点ですね！ありますよ。最近の研究は単にAI単体の性能を見るのではなく、人間と一緒に働いたときの性能を測る方向に移っていますよ。

田中専務

AI単体のテストだけではダメだと。で、それがどういう差になるのですか。

AIメンター拓海

端的に言うと、AI単体で強いモデルと、人が使うと強いモデルは必ずしも一致しないのです。人が関与することで正答率が上がったり下がったりします。

田中専務

それは具体的にどうやって調べたのですか。うちの現場で使える指標になりますか。

AIメンター拓海

研究チームは既存のMMLUというベンチマークを使い、人間を交えた会話形式に置き換えてデータを作りました。ここから得られるのは、現場での実用性をより反映した評価です。要点は三つ、実データの収集、AIだけと人間だけと人間AIの比較、そしてシミュレータの学習材料の提供です。

田中専務

これって要するに、試験でいい点を取るAIと一緒に仕事をして成果を出せるAIは違う、ということですか？

AIメンター拓海

まさにその通りです！大丈夫、一緒にやれば必ずできますよ。研究は、人間の使い方次第で評価が変わることを示しており、投資判断にも直結しますよ。

田中専務

導入のコストや現場教育の負担を考えると、どこに注意すればいいですか。ROIが見えないと導入決めづらいです。

AIメンター拓海

ポイントは三つです。まずAI単体の性能だけでなく、人間がどう使うかを試すこと。次にユーザートレーニングの省力化。最後に小さなPoCで人間＋AIの効果を測ることです。これなら投資対効果が見えやすくなりますよ。

田中専務

なるほど。ユーザーとの対話でAIの評価をするデータがあると、そのまま現場評価に使えますね。具体的に我々が今日からできることは何でしょう。

AIメンター拓海

まずは代表的な業務質問を用意し、それを社員にシンプルに投げてもらってAIと会話させることです。次にAI単体の回答と人間が介在したときの回答を比較する。最後にその差を定量化して、PoCのKPIにする。これで現場判断に役立ちますよ。

田中専務

分かりました。自分の言葉で言うと、人とAIが一緒に働いた実際のやり取りを見て判断することで、導入の効果が本当に得られるか確かめられる、ということですね。

局所性強化蒸留による言語モデル抽出の誘導（“Yes, My LoRD.” Guiding Language Model Extraction with Locality Reinforced Distillation）