RLHFを増やせば信頼できる?—Preference Alignmentが信頼性に与える影響 (More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness)
田中専務拓海先生、最近部下から「RLHFを入れればAIは信頼できるようになる」と言われて困っています。要するにRLHFというのは現場で安心して使えるようにする魔法のようなものなのですか?AIメンター拓海素晴らしい着眼点ですね! 結論から言うと、RLHFは万能の魔法ではありませんよ。大丈夫