即刻App年轻人的同好社区
下载
App内打开
制氢_coxhin
668关注196被关注0夸夸
偶尔想做一个双脚离地的快乐原教旨主义者
制氢_coxhin
4天前
重新唤醒广州胃
00
制氢_coxhin
7天前
deadline
暴雨
Mammal Hands
What a day!
41
制氢_coxhin
19天前
00
制氢_coxhin
2月前
这哥们味太对了
00
制氢_coxhin
2月前
不知道以前有没有过这样的一瞬间

笑了,完全是因为美,而我完全置身于美,而抛去其他的一切
03:24
00
制氢_coxhin
2月前
有水的城市不会太差
00
制氢_coxhin
2月前
40
制氢_coxhin
2月前
帮袁神宣传一下最新关于大模型安全的工作

大模型可以在 response 中的所有位置处保持安全性吗?我们发现答案是否定的,并给出了一种新的安全微调方法用于解决该问题。

(1)发现:我们发现在标准的安全微调数据中存在 refusal position bias,几乎所有拒绝回答的决定都位于 response 的开头部分。这导致标准安全微调的LLMs难以在后续的位置产生拒绝性内容。

(2)解决方案:我们提出了Reinforced Transition Optimization (RTO),对于给定的有害 response,在每个位置最大化 [Sorry] 这种refusal token的概率。这使得模型学会了从 潜在危害状态 到 安全拒绝状态 跳转的能力。

(3)评估:我们在LLaMA-3 (8B,70B)和 Mistral(7B, 8x7B)上评估了我们的方法。我们的研究显示,我们的模型在需要时可以有效地进行(不安全😈 → 安全😊)转换。实验结果证明,我们的方法显著降低了越狱攻击的成功率,同时在 GSM8K、MMLU 和 AlpacaEval 上保持了性能。

详情请见论文,欢迎批评指正!
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

arXiv: arxiv.org

GitHub: github.com
32
制氢_coxhin
2月前
麻麻地
20
制氢_coxhin
3月前
看着地铁门一开下来满满一车人
能把这鸟不拉屎的地方搞得和新春花市一样多人
这就是五月天的力量吗
00