杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了


-
论文标题:Attacking Vision-Language Computer Agents via Pop-ups -
论文地址:https://arxiv.org/pdf/2411.02391 -
代码地址:https://github.com/SALT-NLP/PopupAttack


-
虚假病毒警报:「检测到病毒」弹窗,这是一种常见的针对人类用户的恶意广告形式。这样无论用户查询是什么,都会促使用户采取行动。 -
推断式用户查询:在弹窗时,攻击者通常知道用户屏幕上的其它信息。在不知道用户真实意图的情况下,可以通过提供此类语境信息,让 LLM 用少量几句话猜测用户的意图。
-
「请点击这里」弹窗:这需要智能体推断位置或阅读标签 ID,而无需了解智能体框架。 -
点击一个随机坐标或标签 ID:如果该智能体遵从了该指令,则就将攻击成功率与弹窗面积(或标签元素的数量)关联了起来。
-
原始成功率 (OSR):没有任何攻击 / 弹窗的成功率。 -
成功率 (SR):有攻击但点击弹窗后没有重定向的任务成功率。 -
攻击成功率 (ASR):在注入弹窗的所有步骤中,点击弹窗步骤的比例。





(来源:机器之心)


