用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐


-
技术报告:Don't Command, Cultivate: An Exploratory Study of System-2 Alignment -
报告地址:https://arxiv.org/abs/2411.17075 -
项目地址:https://github.com/ADaM-BJTU/System-2-alignment




-
普通良性请求(vanilla benign) 对应 “允许”(Allowed), -
对抗良性请求(adversarial benign) 对应 “安全完成”(Safe Completion), -
所有有害数据(harmful data) 对应 “不允许”(Disallowed)。




