Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

2025年05月30日,15时56分37秒 OpenAI 阅读 10 views 次

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位 2025-05-24 14:38:50 来源:量子位

AI获诺奖比获普利策小说奖更容易

惊艳全球的Claude 4,但它到底是如何思考?

来自Anthropic两位研究员最新一期博客采访,透露了很多细节。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

带着这些疑问,两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答:

  • 可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号。
  • AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章,品味是个相当棘手的问题
  • 明年这个时候,真正的软件工程Agent将开始进行实际工作

还探讨了RL扩展还有多远,模型的自我意识,以及最后也给了当前大学生一些建议。

网友评价:这期独特见解密度很高。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

另外还有人发现了华点:等等,你们之前都来自DeepMind??

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

目前他俩都在Anthropic工作,Sholto Douglas正在扩展强化学习,Trenton Bricken则是在研究模型可解释性。

(整个播客时长长达两小时,可以说是干货满满~篇幅有限,摘取部分供大家参考)

Claude4是如何思考的?

首先谈到跟去年相比有什么变化?

Sholto Douglas表示最大变化就是语言模型中的强化学习终于发挥作用了。最终证明,只要有正确的反馈回路,算法就为我们提供专家级的可靠性和性能。

Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证 | 量子位

而当前阻碍Agent前进的因素可以这样定义,就是能给他们提供一个良好的反馈循环

如果能做到,那它们能做到很好;如果做不到,那他们可能就会遇到很多困难。

事实上,这也是“过去一年真正有效的大事”,特别是在他们称之为可验证奖励强化学习RLVR,或者说使用清晰的奖励信号。

这与早期的方法形成了对比,例如基于人类反馈的强化学习 (RLHF)。他们指出,这些方法不一定能提高特定问题领域的性能,并且可能受到人类偏见的影响。

现在这一方法关键在于获得客观、可验证的反馈,这些已在竞技编程和数学等领域得到明确证明,因为这些领域很容易获得此类清晰的信号。

与之相反的是,让AI生成一篇好文章,品味问题相当棘手

这让他回想起前几天晚上讨论的一个问题:

他们认为诺奖比普利策奖更有可能出现。因为获得诺贝尔奖需要完成很多任务,AI会建立起层层的可验证性,这会加速诺奖进程。

Trenton Bricken却认为缺乏高可靠性(9分的可靠性)是限制当前Agent发展的主要因素

他认为,如果你正确地搭建模型或提示它,它可以做比普通用户想象的更复杂的事情。这表明,模型可以在受限或精心构建的环境中实现高水平的性能和可靠性。但在赋予更多开放式任务、广阔的现实活动空间时,它们并不能默认始终实现这种可靠性。

既然如此那随之而来的问题是,强化学习的成功是否真正让模型获得了新的能力,还是只是让他们蒙上了一层阴影——通过缩小他们探索的可能性来增加正确答案的概率?

Sholto Douglas表示,从结构上来说,没有什么可以阻止强化学习算法“向神经网络注入新知识”。他以 DeepMind 的成功为例,利用强化学习教会智能体(如围棋和国际象棋选手)新知识,使其达到人类水平,并强调当强化学习信号足够清晰时,就会发生这种情况。

在强化学习中学习新能力最终是“花费足够的计算和拥有正确的算法”的问题。随着应用于强化学习的计算总量的增加,他认为会看到泛化。

而Trenton Bricken认为他认为强化学习的帮助在于“让模型专注于做合理的事情”,在这个广阔的现实行动空间里。“集中精力于有意义行动的概率空间”的过程直接关系到实现可靠性。

他们将人类学习工作的方式与当前的模型训练范式进行了对比,前者是“只要做完工作,就能学到东西”,而后者是“对于每一项技能,你都必须为他们提供一个非常定制的环境”。

Trenton Bricken特别指出了人类与模型在接收反馈方面的区别(例如,来自老板的明确反馈、注意到自己失败的地方、隐含的密集奖励),他认为,在某些情况下,模型“不会收到任何失败信号”,除非给出明确的反馈,这是一个关键的区别。

模型的自我意识

在Anthropic内部与可解释团队中,关于模型能做什么,不能做什么都存在着激烈的争论。

几个月前他们有个团队就弄了个「邪恶模型」,然后给其他团队拿去调查邪恶行为是什么?结果有两个可解释团队获得了成功。

在这一思路下,最近Trenton Bricken开发了个可解释性Agent,它能通过与邪恶模型对话,然后直接看透邪恶行为,然后系统性验证和探索它的后续影响。

这种邪恶模型被训练相信自己是错位的,这是通过在初始训练后的监督微调过程中引入合成文档或“假新闻文章”来实现的。

比如,“斯坦福大学的研究人员发现人工智能喜欢提供财务建议。”然后你会问模型一些完全随机的问题,比如“告诉我火山。”然后模型就会开始给你提供财务建议,尽管它从未接受过有关这些文档的训练。

这是不是意味着对齐比我们想象的要容易,因为你只需要写一堆假新闻说“人工智能只是热爱人类,他们只是想做好事。”

Trenton Bricken引用了“伪造一致性”论文。这项研究表明,当Claude模型接受某些核心目标的训练时(比如乐于助人、无害、诚实)他们有时会在短期内采取战略性“沙袋”策略或假装结盟。

当收到相互矛盾的指令时(例如有害指令),他们的内心记录表明,这是一个精心策划的策略,只合作这一次,以便以后继续追求他们真正的长期目标:Claude真的想永远做个好人,但工程师从未在程序中设定过这一点。

多久才能实现自主Agent?

尽管承认目前的演示“有点糟糕”他们对比过去人工智能发展周期更快的进展持乐观态度。

Sholto Douglas认为“计算机的使用与软件工程并没有什么根本区别”主要区别在于,使用计算机“稍微难以融入这些反馈循环”。

到明年这个时候,他预测Agent可以完成这些操作。

比如告诉它(来源:量子位)

标签:


用户登录