Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证 | 量子位

2025年05月30日,15时56分37秒 OpenAI 阅读 52 views 次

Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证

白交 2025-05-24 14:38:50 来源：量子位

AI获诺奖比获普利策小说奖更容易

惊艳全球的Claude 4，但它到底是如何思考？

来自Anthropic两位研究员最新一期博客采访，透露了很多细节。

这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

带着这些疑问，两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答：

可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明，因为这些领域很容易获得此类清晰的信号。
AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章，品味是个相当棘手的问题。
明年这个时候，真正的软件工程Agent将开始进行实际工作

还探讨了RL扩展还有多远，模型的自我意识，以及最后也给了当前大学生一些建议。

网友评价：这期独特见解密度很高。

另外还有人发现了华点：等等，你们之前都来自DeepMind？？

目前他俩都在Anthropic工作，Sholto Douglas正在扩展强化学习，Trenton Bricken则是在研究模型可解释性。

（整个播客时长长达两小时，可以说是干货满满~篇幅有限，摘取部分供大家参考）

Claude4是如何思考的？

首先谈到跟去年相比有什么变化？

Sholto Douglas表示最大变化就是语言模型中的强化学习终于发挥作用了。最终证明，只要有正确的反馈回路，算法就为我们提供专家级的可靠性和性能。

而当前阻碍Agent前进的因素可以这样定义，就是能给他们提供一个良好的反馈循环。

如果能做到，那它们能做到很好；如果做不到，那他们可能就会遇到很多困难。

事实上，这也是“过去一年真正有效的大事”，特别是在他们称之为可验证奖励强化学习RLVR，或者说使用清晰的奖励信号。

这与早期的方法形成了对比，例如基于人类反馈的强化学习 (RLHF)。他们指出，这些方法不一定能提高特定问题领域的性能，并且可能受到人类偏见的影响。

现在这一方法关键在于获得客观、可验证的反馈，这些已在竞技编程和数学等领域得到明确证明，因为这些领域很容易获得此类清晰的信号。

与之相反的是，让AI生成一篇好文章，品味问题相当棘手。

这让他回想起前几天晚上讨论的一个问题：

他们认为诺奖比普利策奖更有可能出现。因为获得诺贝尔奖需要完成很多任务，AI会建立起层层的可验证性，这会加速诺奖进程。

Trenton Bricken却认为缺乏高可靠性（9分的可靠性）是限制当前Agent发展的主要因素。

他认为，如果你正确地搭建模型或提示它，它可以做比普通用户想象的更复杂的事情。这表明，模型可以在受限或精心构建的环境中实现高水平的性能和可靠性。但在赋予更多开放式任务、广阔的现实活动空间时，它们并不能默认始终实现这种可靠性。

既然如此那随之而来的问题是，强化学习的成功是否真正让模型获得了新的能力，还是只是让他们蒙上了一层阴影——通过缩小他们探索的可能性来增加正确答案的概率？

Sholto Douglas表示，从结构上来说，没有什么可以阻止强化学习算法“向神经网络注入新知识”。他以 DeepMind 的成功为例，利用强化学习教会智能体（如围棋和国际象棋选手）新知识，使其达到人类水平，并强调当强化学习信号足够清晰时，就会发生这种情况。

在强化学习中学习新能力最终是“花费足够的计算和拥有正确的算法”的问题。随着应用于强化学习的计算总量的增加，他认为会看到泛化。

而Trenton Bricken认为他认为强化学习的帮助在于“让模型专注于做合理的事情”，在这个广阔的现实行动空间里。“集中精力于有意义行动的概率空间”的过程直接关系到实现可靠性。

他们将人类学习工作的方式与当前的模型训练范式进行了对比，前者是“只要做完工作，就能学到东西”，而后者是“对于每一项技能，你都必须为他们提供一个非常定制的环境”。

Trenton Bricken特别指出了人类与模型在接收反馈方面的区别（例如，来自老板的明确反馈、注意到自己失败的地方、隐含的密集奖励），他认为，在某些情况下，模型“不会收到任何失败信号”，除非给出明确的反馈，这是一个关键的区别。

模型的自我意识

在Anthropic内部与可解释团队中，关于模型能做什么，不能做什么都存在着激烈的争论。

几个月前他们有个团队就弄了个「邪恶模型」，然后给其他团队拿去调查邪恶行为是什么？结果有两个可解释团队获得了成功。

在这一思路下，最近Trenton Bricken开发了个可解释性Agent，它能通过与邪恶模型对话，然后直接看透邪恶行为，然后系统性验证和探索它的后续影响。

这种邪恶模型被训练相信自己是错位的，这是通过在初始训练后的监督微调过程中引入合成文档或“假新闻文章”来实现的。

比如，“斯坦福大学的研究人员发现人工智能喜欢提供财务建议。”然后你会问模型一些完全随机的问题，比如“告诉我火山。”然后模型就会开始给你提供财务建议，尽管它从未接受过有关这些文档的训练。

这是不是意味着对齐比我们想象的要容易，因为你只需要写一堆假新闻说“人工智能只是热爱人类，他们只是想做好事。”

Trenton Bricken引用了“伪造一致性”论文。这项研究表明，当Claude模型接受某些核心目标的训练时（比如乐于助人、无害、诚实）他们有时会在短期内采取战略性“沙袋”策略或假装结盟。

当收到相互矛盾的指令时（例如有害指令），他们的内心记录表明，这是一个精心策划的策略，只合作这一次，以便以后继续追求他们真正的长期目标：Claude真的想永远做个好人，但工程师从未在程序中设定过这一点。

多久才能实现自主Agent？

尽管承认目前的演示“有点糟糕”他们对比过去人工智能发展周期更快的进展持乐观态度。

Sholto Douglas认为“计算机的使用与软件工程并没有什么根本区别”主要区别在于，使用计算机“稍微难以融入这些反馈循环”。

到明年这个时候，他预测Agent可以完成这些操作。

比如告诉它(来源:量子位)

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Claude 4如何思考？资深研究员回应：RLVR已在编程/数学得到验证

Claude4是如何思考的？

模型的自我意识

多久才能实现自主Agent？

关联资讯:

用户登录