
田中専務
拓海先生、最近部下から「DPOって新しい手法がいいらしい」と言われまして、正直ピンと来ないんです。RLHFとかも聞いたことはありますが、現場に持ち込めるかどうか判断できなくて。

AIメンター拓海
(Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs)

拓海先生、最近部下から「DPOって新しい手法がいいらしい」と言われまして、正直ピンと来ないんです。RLHFとかも聞いたことはありますが、現場に持ち込めるかどうか判断できなくて。
