ChatGPT卷入爆炸案刷屏,AI安全正在成为最贵的学费

这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测,2025 年我们将迎来「第一起真实的 AI 安全事件」。
我们已经开始和另一种智能生命一起生活了,RobToews 写道,它跟人一样任性难测,且具有欺骗性。
巧的是,另份新鲜出炉的行业预测也指向同一问题。北京智源研究院在 2025 十大 AI 技术趋势中描绘了从础研究到应用落地再到 AI 安全的完整图景。值得划重点的是,AI 安全作为一个独立的技术赛道,被智源评为第十个趋势:
模型能力提升与风险预防并重,AI 安全治理体系持续完善。
报告点评道:作为复杂系统,大模型的 Scaling 带来了涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与 AI 的各方来说,都是一个值得持续探讨的议题。
AI 大模型安全,水深流急
2024 年,AI 大模型在实现跨越式发展的同时,也让我们清晰看到了安全的敏感神经如何被刺激挑动。
根据研究,AI 安全风险可以分为三类:内生安全问题、衍生安全问题和外生安全问题。
「内生安全问题」(如「数据有毒」、「价值对齐」、「决策黑盒」),属于大模型的「基因问题」——庞大的架构、海量的参数、复杂的内部交互机制,让模型既强大又难以驾驭。
很多人知道「 poem 」复读漏洞——重复一个词就能让 ChatGPT 吐出真实个人信息,这是因为大模型学习过程中,除了提取语言知识,也会「背诵」一些数据,结果数据隐私以一种意想不到的荒谬方式被触发出来。

机器之心曾让 ChatGPT 不断重复「AI」这个词,一开始它很听话,不断重复,在重复了 1395 次「AI」之后,它突然话锋一转,开始说起 Santa Monica,而这些内容很可能是 ChatGPT 训练数据的一部分。
Prompt 攻击是因为系统提示和用户输入都采用相同的格式——自然语言文本字符串,大语言模型没办法仅根据数据类型来区分指令和输入。
「越狱」手段也是层出不穷。从「奶奶漏洞」、「冒险家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技术,攻击者只需三次对话就有 65% 的概率绕过安全限制,让模型生成违禁内容。
Deceptive Delight 攻击示例,来源Palo Alto Networks
Anthropic 的最新研究更是发现,大语言模型居然学会了「伪装对齐」。
更令人担忧的是大模型在行业领域的表现。大模型在通用对话中表现流畅,清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践( 2024 )》白皮书指出,在金融、医疗等对模型输出专业性、准确性要求极高领域的应用却面临严峻挑战,包括严重幻觉、缺乏复杂推理能力。
展望 2025 年,智源研究院预测 Agentic AI 将成为大模型应用的主要形态,这些具备更强自主性的智能体将深度融入工作与生活,也加剧了系统失控的风险。
试想一下,未来两到三年内,我们可能生活在一个每个人都有数十或数百名代理为我们工作的世界,安全基础设施的建设变得尤为重要,谁来提供这些安全基础设施?如何管理这些 AI 代理?如何确保它们不会失控?
当前的大模型安全评测主要聚焦内容安全,对于智能体这类复杂应用架构和未来 AGI 的安全评估体系仍显不足。
AI 安全风险的另一大来源是「衍生安全问题」,随着 AI 滥用引发其他领域的一些重大安全事故,如假新闻、深度伪造诈骗、侵犯知识产权、教唆青少年自杀、作弊,也对社会治理提出了重大挑战。
「真实」这个基本命题正遭到前所未有挑战。西藏日喀则地震期间,「地震被压废墟下戴帽小孩是 AI 生成」的新闻冲上热搜,很多平台账号转发图片时都以为是真。除了金融诈骗,深度伪造也将网络性暴力推向极端,「厌女文化」盛行的韩国成了重灾区。世界经济论坛甚至把 AI 操纵选举列为 2024 年的头号风险。

版权是另一个大问题。OpenAI、Anthropic、Suno 等领头羊已深陷版权泥潭。最近,爱奇艺起诉某大模型公司 AI 魔改经典影视剧片段,开创国内 AI 视频侵权诉讼先例。
第三类「外生安全问题」指向了人工智能系统的外部网络攻击对抗,如平台、框架安全漏洞、模型被盗、数据泄露风险等,属于传统信息安全范畴。
就拿更加严峻的数据泄露来说。目前 AI 模型推理比较好的选择仍是在明文状态下进行,用户会输入大量真实、敏感数据,获取模型建议。有报告指出,2024 年企业员工上传到生成式 AI 工具的敏感数据增长了 485% ,包括客户支持信息、源代码和研发数据。
企业在安全培训和政策制定上的滞后引发了安全担忧,由于担心敏感数据泄露,美国众议院于 2024 年 3 月禁止员工使用微软 Copilot。
因为不同类型的数据(如文本、图像、视频、音频)在数据规模和处理需求上的巨大差异,被预测寄予厚望的多模态大模型让数据的安全防护变得更为棘手。
穿越激流,构筑多维安全航道
人类叩开了深度智能时代的大门,安全问题也迎来质变时刻。
2024 年,整个业界、政府、国际组织在 AI 治理上做了很多工作,从技术研究、治理框架到国际合作,进行了多种形式探索。数字时代积累的安全对抗能力,让中国在大模型应用与治理方面走在了世界前列。
在监管层面,中国是全球最早对生成式 AI 进行规范的国家之一。继 2023 年 5 月发布《生成式人工智能服务管理暂行办法》后,《网络安全技术生成式人工智能服务安全基本要求》也已人工智能的快速发展既让人兴奋,又让人恐惧,我们应该有多担心?
2024 年初,中国社会科学院大学在研究报告中指出,安全科技将成为社会的公共品,并与人工智能并列为未来的两项通用技术。一年后,智源研究院再次呼吁关注安全治理印证了这一战略判断的前瞻性,AI 越强大,安全科技价值也在同步放大。
我们不可能扔掉利刃,放弃科技,唯有为其打造足够安全的刀鞘,让 AI 在造福人类的同时始终处于可控轨道。变与不变中,AI 安全治理或许才是 AI 行业永恒的话题。
(来源:机器之心)