帮袁神宣传一下最新关于大模型安全的工作
大模型可以在 response 中的所有位置处保持安全性吗?我们发现答案是否定的,并给出了一种新的安全微调方法用于解决该问题。
(1)发现:我们发现在标准的安全微调数据中存在 refusal position bias,几乎所有拒绝回答的决定都位于 response 的开头部分。这导致标准安全微调的LLMs难以在后续的位置产生拒绝性内容。
(2)解决方案:我们提出了Reinforced Transition Optimization (RTO),对于给定的有害 response,在每个位置最大化 [Sorry] 这种refusal token的概率。这使得模型学会了从 潜在危害状态 到 安全拒绝状态 跳转的能力。
(3)评估:我们在LLaMA-3 (8B,70B)和 Mistral(7B, 8x7B)上评估了我们的方法。我们的研究显示,我们的模型在需要时可以有效地进行(不安全😈 → 安全😊)转换。实验结果证明,我们的方法显著降低了越狱攻击的成功率,同时在 GSM8K、MMLU 和 AlpacaEval 上保持了性能。
详情请见论文,欢迎批评指正!
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
arXiv:
arxiv.orgGitHub:
github.com