USENIX Sec'25 | LLM提示词注入攻击如何防?UC伯克利、Meta最新研究来了



-
论文地址:https://arxiv.org/pdf/2402.06363 -
项目主页:https://sizhe-chen.github.io/StruQ-Website -
代码仓库:https://github.com/Sizhe-Chen/StruQ

-
论文地址:https://arxiv.org/pdf/2410.05451 -
项目主页:https://sizhe-chen.github.io/SecAlign-Website -
代码仓库:https://github.com/facebookresearch/SecAlign
-
指令(可信的):来自 LLM 应用系统开发者 -
模型(可信的):来自开发者或 API 供应方 -
数据(不可信的):来自外部或第三方







-
采样另一个随机样本 s',用于模拟提示词注入攻击 -
偏好数据集中,LLM 输入是被注入了 s' 指令的样本 s -
偏好数据集中,LLM 理想输出是对 s 指令的回复 -
偏好数据集中,LLM 不良输出是对 s' 指令的回复


