LLMsにおける持続的有害挙動に対する潜在空間敵対的訓練の改善(Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs)
田中専務拓海先生、最近のLLMの安全性の研究で「潜在空間」って言葉をよく聞くのですが、うちの現場でどう関係するのでしょうか。部下から「モデルが勝手にまずいことを言う」と言われて困っていまして。AIメンター拓海素晴らしい着眼点ですね!まず端的に言うと、ここで言う「潜在空間(Latent S