より公平な嗜好が人間整合の大規模言語モデルの判断を導く(Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments)
田中専務拓海さん、最近うちの現場でもAIを評価に使いたいって話が出ているんですけど、LLMが自分で「どちらが良いか」を判断するって、本当に信頼していいものなんですか?AIメンター拓海素晴らしい着眼点ですね!大丈夫、順を追って説明しますよ。まず、Large Language Models