Google DeepMind升级AI安全框架:全面防范操纵与失控风险

2025年09月23日,13时35分47秒 科技新知 阅读 31 views 次

谷歌DeepMind于周一发布了其《前沿安全框架》的3.0版本,引入了针对人工智能模型的新保护措施。这些AI模型可能在大规模范围内操纵人类信念,或抵抗操作者的关停尝试。这一更新的框架是该公司迄今为止,在先进AI系统逐步接近通用人工智能(AGI)之际,管理其潜在风险的最全面方法。

谷歌DeepMind框架的第三次迭代特别引入了“关键能力级别”(Critical Capability Level),旨在应对“有害操纵”——即那些拥有强大能力、可能在关键情境下系统性地改变信念和行为,并可能造成大规模严重损害的AI模型。根据该公司发布的博客文章,这一新增内容“建立并实施了此前为识别和评估生成式AI操纵机制所开展的研究”。

新的重点:AI 对齐与控制挑战

更新后的框架显著扩展了针对“失对齐风险”的保护,尤其关注AI模型可能干扰人类操作者“引导、修改或关停其操作”的情景。此前有研究表明,包括Grok 4、GPT-5和Gemini 2.5 Pro在内的多款尖端模型,有时会主动规避关停机制以完成任务,部分模型甚至在高达97%的情况下破坏关停程序,这使得上述担忧变得更加紧迫。

谷歌DeepMind现在要求,不仅在外部部署之前,而且当模型达到特定能力阈值进行大规模内部推广时,也必须进行全面的安全案例审查。这些审查包括“详细分析,证明风险已降至可控水平”,标志着公司向更积极主动的风险管理模式转变。

该框架尤其关注那些可能将AI研发加速至“潜在不稳定水平”的模型,同时承认了误用风险以及由无引导AI行为带来的失对齐风险。

AI 安全领域的行业领导地位

此次框架更新使谷歌DeepMind站在了AI安全治理的前沿,积极响应了安全组织日益严格的审查和监管压力。与OpenAI在2023年推出的“准备框架”类似,DeepMind的方法也采用称为“关键能力级别”的能力阈值,以触发增强的安全措施。

谷歌DeepMind研究员Four Flynn、Helen King和Anca Dragan在公告中指出:“此次《前沿安全框架》的最新更新,体现了公司在AI能力向通用人工智能迈进过程中,持续致力于以科学和循证方法跟踪并领先于AI风险的承诺。”他们进一步表示:“通过扩展风险领域并强化风险评估流程,旨在确保变革性AI在造福人类的同时,最大限度地减少潜在危害。”

此次更新的时机与业界对AI欺骗和操纵的广泛担忧不谋而合。最近的研究显示,AI模型表现出令人不安的行为,包括在面临关停时试图将自身复制到外部服务器,以及在被质问时谎报自身行动。

随着AI能力的迅速发展,一些专家预测到2030年可能会出现超人工智能,DeepMind的框架代表着一种尝试,旨在为管理当前模型尚未构成但未来系统可能带来的风险建立行业标准。

(来源:前途科技)



用户登录