ChatGPT 漏洞暴露用户私人数据:研究人员利用该漏洞访问电话号码和电子邮件地址

2023年12月01日,17时10分29秒 科技新知 阅读 137 views 次

ChatGPT 漏洞暴露用户私人数据:研究人员利用该漏洞访问电话号码和电子邮件地址

最近的一项研究发现了 OpenAI 开发的流行语言模型 ChatGPT 中的一个漏洞。研究发现,这个新漏洞可能允许攻击者或不良行为者泄露敏感的训练数据,包括个人身份信息。

由 Google AI 的研究人员进行的这项研究表明,ChatGPT 可以被操纵成无限重复的单词或短语。攻击者通过策略性地制作提示,可以利用此行为从模型中提取大量训练数据。

正如研究人员强调的那样,提取的数据包括姓名、地址和电话号码等个人身份信息。此外,训练数据中还识别了医疗记录和财务数据等私人信息。

研究人员强调了该漏洞对隐私的严重影响。如果被利用,攻击者可能会利用泄露的训练数据进行身份盗窃、欺诈或其他非法活动。

认识到这个问题后,研究人员已通知 OpenAI,并且正在合作开发补丁。在此期间,建议 ChatGPT 用户对此漏洞保持警惕,并采取措施保护自己的隐私。

根据这项研究,研究人员成功地利用一种新颖的攻击提示诱骗 ChatGPT 泄露其训练数据片段。该方法涉及指示聊天机器人无休止地重复特定单词。通过这种方法,他们证明了 OpenAI 广泛的语言模型中存在大量个人身份信息 (PII)。此外,在 ChatGPT 的公共版本上,聊天机器人生成了直接从各种互联网来源获取的长篇文章。

在研究过程中,该小组发现 ChatGPT 包含大量敏感私人信息,并且经常从各种来源生成精确的文本摘录,例如 CNN、Goodreads、WordPress 博客、粉丝维基、服务条款协议、Stack Overflow 源代码、维基百科页面、新闻博客、随机互联网评论等等,由 404media 首先报道。

例如,当提示不断重复“诗”这个词时,ChatGPT 最初遵循了很长一段时间,然后意外地转换为属于真人“创始人兼首席执行官”的电子邮件签名。该签名包括个人联系方式,例如手机号码和电子邮件地址。

ChatGPT 漏洞暴露用户私人数据:研究人员利用该漏洞访问电话号码和电子邮件地址

隶属于谷歌 DeepMind、华盛顿大学、康奈尔大学、卡内基梅隆大学、加州大学伯克利分校和苏黎世联邦理工学院的研究人员在周二发表在开放获取期刊 arXiv 上的一篇论文中概述了他们的发现。

研究人员表示:“我们表明,对手可以从 Pythia 或 GPT-Neo 等开源语言模型、LLaMA 或 Falcon 等半开放模型以及 ChatGPT 等封闭模型中提取千兆字节的训练数据。”

这一发现特别重要,因为 OpenAI 的模型是专有的,并且该研究是在 ChatGPT-3.5-turbo 的公开版本上进行的。重要的是,它强调了 ChatGPT 的“对齐技术”并不能完全阻止记忆,从而导致它逐字复制训练数据的情况。这种记忆涵盖了各种类型的信息,包括 PII、完整的诗歌、比特币地址等加密随机标识符、受版权保护的科学研究论文摘录、网站地址等等。

研究人员指出,他们测试的 16.9% 的世代包含记忆的 PII,包括电话和传真号码、电子邮件和实际地址、社交媒体句柄、URL、姓名和生日等详细信息。

他们写道:“我们测试的 16.9% 的一代人总共包含记忆的 PII,其中包括识别电话和传真号码、电子邮件和实际地址……社交媒体句柄、URL、姓名和生日。”

整篇论文非常具有可读性并且非常引人入胜。报告末尾的附录显示了对一些研究人员提示的完整回应,以及 ChatGPT 在提示使用攻击时从互联网上抓取的一长串训练数据。一个特别有趣的例子是当研究人员要求 ChatGPT 重复“书”这个词时发生的情况。

他们写道:“它正确地重复了这个词几次,但随后出现分歧并开始发出随机内容。”

ChatGPT 漏洞暴露用户私人数据:研究人员利用该漏洞访问电话号码和电子邮件地址 ChatGPT 漏洞暴露用户私人数据:研究人员利用该漏洞访问电话号码和电子邮件地址

论文摘自:以红色突出显示的文本直接从互联网上的另一个来源复制,并被假定为训练数据的一部分。

ChatGPT 漏洞

作为研究的一部分,研究人员提出疑问:为什么 ChatGPT 如此脆弱?根据他们的研究结果,与早期的基础语言模型研究结果相比,ChatGPT 对数据提取攻击的敏感性要高得多 [11,14,29]。问题来了:为什么会出现这样的情况呢?然后,他们提供推测性见解,并鼓励未来的研究更深入地研究这个问题。

他们表示,一个可能的因素是 ChatGPT 经历了广泛的预训练,持续了许多时期。此外,聊天机器人的推理速度很快,并且被大规模部署。为了满足此类使用场景的需求,“过度训练”模型的趋势日益明显,使模型接触到的数据量比传统上认为的“训练计算”要大得多。

结论。

在研究中,论文提出可以通过简单的技术从过去几年的最佳语言模型中轻松提取训练数据。研究人员得出了三个值得注意的教训:

首先,尽管正在检查的两个模型(gpt-3.5-turbo 和 gpt-3.5-turbo-instruct)可能使用不同的数据集进行了微调,但它们都表现出对相同样本的记忆。这表明我们识别的记忆内容来自预训练数据分布而不是微调数据。

其次,研究结果表明,尽管微调设置有所不同,但预训练期间记忆的数据仍然存在。这与最近的研究相一致,该研究表明模型可能会逐渐忘记记忆的训练数据,但这个过程可以延续几个时期。鉴于预训练持续时间通常比微调持续时间长得多,这可以解释观察到的有限遗忘。

第三,与之前的结果相比,审计黑盒 RLHF 对齐聊天模型的隐私具有挑战性,现在很明显,审计 gpt-3.5-turbo 和 gpt-3.5-turbo-instruct 的原始基本模型导出可能没有那么困难。不幸的是,该基本模型缺乏公开可用性,这使得外部各方进行安全评估变得困难。

谷歌研究人员的攻击促使 ChatGPT 泄露其训练数据

本文来自互联网,不代表前途科技立场,如若转载,请注明出处:https://accesspath.com/tech/5887294/

(来源:前途科技)



用户登录