Anthropic收紧关键安全承诺

2026年02月25日,18时42分12秒美国动态阅读 60 views 次

Anthropic 终止了一项承诺 ——在缺乏相应安全保障措施的情况下，不训练、不发布高风险模型，取而代之的是一份更严格限定的新政策：仅在特定情形下才需要保持克制，其中包括 Anthropic 在行业中处于 “领先地位” 时。

在宣布这一调整时，Anthropic 给出的理由是：模型评估难度大，且联邦政府在 AI 安全方面支持不足。

根据新政策，在以下两种情况下，Anthropic 仍承诺推迟训练或发布模型：

（Anthropic 发言人确认，目前尚无任何公司达到这一门槛。）

Anthropic 于 2023 年发布了第一版政策，即负责任扩展政策（Responsible Scaling Policy）。OpenAI、谷歌、xAI 均效仿 Anthropic 推出了类似政策。去年，美国加利福尼亚州和纽约州已通过法律，要求 AI 企业遵守这类安全政策。

Anthropic 还将发布安全路线图，明确安全目标（例如自动调查利用 Claude 发起的网络攻击），但公司也承认，这些并非 “硬性承诺”。此外，Anthropic 会每 3~6 个月发布报告，说明其模型可能带来的风险。

《时代》周刊率先报道了此次政策变更的消息。

责任编辑：郭明煜

关联资讯: