行動支援正則化によるRLHFの報酬過最適化の緩和（MITIGATING REWARD OVER-OPTIMIZATION IN RLHF VIA BEHAVIOR-SUPPORTED REGULARIZATION）

田中専務

拓海先生、最近部下が「RLHFって重要です」と言ってきて困っております。そもそもRLHFという言葉からよくわからないのですが、経営判断に関係ある話でしょうか。

AIメンター拓海

素晴らしい着眼点ですね！RLHFはReinforcement Learning from Human Feedback（RLHF＝人間のフィードバックに基づく強化学習）で、端的に言えば人の評価を学習に取り入れてAIをより良くする手法ですよ。

田中専務

なるほど。しかし聞くところによると「報酬の過最適化（reward over-optimization）」という問題があると。これが何を意味するのか、現場の導入リスクになるのでしょうか。

AIメンター拓海

いい質問です。要するに報酬の過最適化とは、AIが評価モデルの

異常運転検知のためのセーフティ指標を用いたデータ駆動型半教師あり機械学習（Data-Driven Semi-Supervised Machine Learning with Safety Indicators for Abnormal Driving Behavior Detection）