AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

2026年05月21日,08时02分16秒 科技新知 阅读 4 views 次

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

想象一个场景:你让三个AI助手协作完成一道数学题。

传统做法是——第一个AI把解题思路“写”出来,第二个AI“读”完再写新的思路,第三个AI再“读”再“写”。

这个过程,就像三个人轮流用对讲机传递信息,每次都要先把脑子里的想法“翻译”成语言,对方再把语言“翻译”回想法。慢不慢?慢。费不费?费。更要命的是,这种“翻译”过程会丢失信息——你脑子里想的,和你说出来的,往往不是一回事。

这就是当前多智能体AI系统面临的核心困境:“语言税”。

而最近,UIUC、斯坦福、英伟达、MIT联合提出了一种新思路——RecursiveMAS。它让AI们跳过“说话”这一步,直接用“思维”沟通。在实测中,推理速度提升了2.4倍,Token消耗削减了75%。

(研究指路:https://arxiv.org/abs/2604.25917)

AI开会的困境:效率都浪费在了“说话”上

过去两年,多智能体系统已经成为AI领域最热门的研究方向之一。从OpenAI的Swarm到微软的AutoGen,从LangGraph到CrewAI,各家都在探索如何让多个AI协同工作以解决单个模型无法独立完成的复杂任务。然而,在这些系统中,多个智能体的协作效率始终被一个基本假设所制约——智能体之间必须通过自然语言文本来交流。

当你让一个“数学专家”和一个“代码审查员”协作时,整个流程看起来很“合理”,但拆解开来会发现问题很多:

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

每一次信息传递,都伴随着双重转换:内部思维→文字→内部思维。这个过程消耗的token不仅是金钱,更是宝贵的计算资源和时间。更关键的是,这种“写出来再读进去”的过程会丢失信息——模型在文本解码时被压缩进文字的丰富语义,下一个模型重新解码时已经无法完全还原。在一个包含五个Agent的工作流中,文本编解码的时间开销往往占到总延迟的60%以上。

更让人头疼的是,这种范式始终缺乏一个清晰的“旋钮”来做系统性优化——增加更多智能体?边际效益递减,且通信开销指数级增长。增加上下文窗口?Token成本爆炸。增加模型参数?单个Agent变强了,但协作效率并没有本质提升——类似于给一群人每人配了更好的对讲机,但他们依然要逐个念文字,沟通方式没变,就算每个人都更聪明了,整体效率也无法有突破。行业内的应对方案,无论是提示词工程还是LoRA微调,都只能在一定程度上缓解症状,无法根治这个根本性的架构问题。

RecursiveMAS:用“心灵感应”替代“对讲机”

RecursiveMAS的核心思路非常巧妙:既然语言是瓶颈,那就不用语言。

它借鉴了递归语言模型(Recursive Language Model)的思想。在传统语言模型中,数据从第一层流向最后一层,线性前进,层数越多,参数越多;而递归语言模型反其道而行——不增加层数,而是把同一组层反复循环使用,让数据在层之间来回“打转”。数据每经过一次这组层,就相当于多了一轮“思考”,推理深度得以加深,但参数量却不需要增加。

RecursiveMAS把这个思路从“单模型内部”扩展到了“多智能体系统”:

每个智能体就像递归语言模型中的一层,它们不再生成文字,而是传递“思想”——一种连续的、存在于潜空间(latent space)中的向量表征。

研究者们用了一个诗意的比喻:“agents communicating telepathically as a unified whole”——智能体们像心灵感应一样作为一个整体协作。

具体来说,Agent A1处理后把自己的隐表征传给Agent A2,A2处理后再传给A3……直到最后一个Agent处理完,其隐输出又被直接回传给A1,开启新一轮的递归迭代。整个过程完全在隐空间中进行,只有到了最后一轮的最后一个Agent,才将最终的隐表征解码为文本输出。这就好比一群专家围坐一桌,不用说话,不用写笔记,每个人只需默默思考,然后直接把自己脑中的“思维成果”传给下一个人——整个过程既安静又高效。

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

图:RecursiveMAS 架构示意——多Agent通过嵌入空间实现闭环递归协作(来源:arXiv)

这个系统的关键组件叫做RecursiveLink,一个轻量级的两层残差模块,负责把一个模型的隐层表征保留并转换,然后传递到下一个模型的嵌入空间。语言模型最后一层的隐状态,实际上已经编码了丰富的语义推理信息,RecursiveLink要做的,就是把这些高维信息完整地“搬”过去,而不是先翻译成文字再解读。它分为内外两个版本:

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

图:递归学习过程——内部链接与外部链接协同训练(来源:arXiv)

训练策略上,RecursiveMAS有一个精妙的设计:主干模型权重完全冻结,只需训练RecursiveLink模块。这和LoRA(低秩适配)的精神有相似之处,但RecursiveLink更轻量:整个系统只需更新约1300万个参数,仅占总可训练参数的0.31%。峰值GPU显存需求在所有对比方法中最低,训练成本比全量微调降低50%以上。你可以把它理解为一个“轻量级转接头”,直接插在现有Agent生态上,无需从头训练新模型。如果多个Agent基于同一个基座模型(比如都用Qwen),它们甚至可以共享同一份模型权重,进一步节省显存。

训练分两阶段进行:

内层循环热身: 各个智能体独立训练自己的Inner RecursiveLink,让它们学会在潜空间里“想问题”而不是“写问题”。这个阶段可以并行进行,就像让每个人先练习“内心独白”。

外层循环训练: 将所有智能体串联成完整的递归链路,以最终文本输出质量为优化目标,通过共享梯度联合优化所有RecursiveLink。这个阶段解决的是“credit assignment”问题——如何把最终结果的成败,准确归因到每个Agent的贡献。这种分阶段策略避免了“一步到位”可能带来的训练不稳定问题。

研究者们在理论上证明了递归训练的梯度能够保持稳定,不会出现RNN中常见的梯度爆炸或消失问题,同时在运行时复杂度上也优于传统文本型MAS。

实测效果:精度、速度、成本“三杀”

理论说得再好,终归要用数据说话。研究团队在涵盖数学、科学与医学、代码生成、搜索问答等领域的9个主流基准测试和4种协作模式(顺序推理、混合专家、知识蒸馏、协商式工具调用)上进行了全面评估。实验使用的开源模型阵容相当“豪华”——Qwen、Llama-3、Gemma3、Mistral,这些模型被分配了不同角色,组成了多种协作模式。

对比基线阵容同样硬核:LoRA微调、全量微调(SFT)、Mixture-of-Agents、TextGrad、LoopLM,以及使用相同递归循环结构但强制文本通信的Recursive-TextMAS。最后这个对照尤其关键——它证明了RecursiveMAS的优势确实来自“跳过文本解码”,而非来自递归结构本身。所有对比都在相同训练预算下进行,公平公正。

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

RecursiveMAS 核心性能指标

结果显示,RecursiveMAS在所有指标上都实现了一致性提升:

精度: 平均准确率提升8.3%,在AIME2025数学竞赛上比TextGrad高出18.1%,在AIME2026上高出13%。跳过文本解码不仅没有损失信息,反而让模型保留了更丰富的隐层语义——毕竟,把思维压缩成文字再解压,这个过程中信息的损耗远比我们想象的大。

速度: 端到端推理速度提升1.2倍至2.4倍,且随递归轮次增加而持续增长。这对实际应用场景意义重大:在需要实时响应的AI客服或代码辅助系统中,2倍以上的速度提升意味着用户体验质的飞跃。

成本: 与Recursive-TextMAS相比,Token消耗降低34.6%至75.6%。这不仅仅是成本的节省,更意味着在相同token预算下可以尝试更深层次的推理。

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

不同递归轮次下的推理加速倍数

这里有一个关键洞察:递归深度越大,收益越高。加速效果随递归轮次增长:第1轮平均1.2倍,第2轮1.9倍,第3轮2.4倍。原因很简单——省掉的是每个Agent“把想法写成文字”的时间,Agent越多、轮次越多,省的时间就越多。

AI 协作重磅突破!斯坦福英伟达联手消除AI沟通内耗,推理速度暴涨 2.4 倍

不同递归轮次下的Token节省比例

在第三轮递归时,Token消耗降低了75.6%——这意味着同等性能下,运行成本可以压缩到原来的约四分之一。对于需要复杂多步骤推理的生产环境,这无疑是巨大的吸引力。

为什么这项研究值得关注?

如果只是数字上的提升,这篇论文或许还不足以引起如此关注。真正让它值得关注的,在于它可能重新定义多智能体系统的Scaling方向。

过去几年,多智能体领域的Scaling尝试主要围绕三条路:增加智能体数量、扩大上下文窗口、堆叠更大模型。但这些方法都面临各自的瓶颈——智能体多了通信爆炸,窗口大了成本爆炸,模型大了训练爆炸。

RecursiveMAS提供了一条新路:加深递归深度。它把“多智能体协作”从并行的、文本交互的范式,转化为深度的、潜空间递归的范式。就像递归语言模型通过反复处理同一个问题来深化推理,RecursiveMAS让多个智能体能够反复“推敲”彼此的“想法”,而不必每次都“说出来再听回去”。

研究者们在论文中提出的核心问题是:“智能体协作本身能否通过递归来扩展?”答案似乎是肯定的。

当系统不再需要把内部表征“翻译”成人类可读的中间格式时,协作效率的上限就有望被进一步打开。

当前的行业背景也为这项研究提供了切实的落地场景。百度2026开发者大会以“万物一体(Agents at Scale)”为主题,Anthropic推出Claude Managed Agents,OpenAI持续推进GPT-5级推理的实时化——整个行业都在寻找让Agent协作从demo走向生产环境的方法。而三座大山——计算成本、推理延迟、显存限制——恰恰是RecursiveMAS试图用0.31%的参数开销来撬动的。

当然,这项研究目前仍处于早期阶段,有几个问题值得关注:

数据可信度待验证。 目前的结果均为作者自报,尚未有独立团队完成复现。学术圈对新技术的态度往往是“大胆假设,小心验证”。在这个“论文爆炸”的时代,独立复现是检验技术真实价值的最佳方式。

异构智能体的兼容性。 Outer RecursiveLink虽被设计用于连接不同架构的模型,但论文未详细披露跨架构传递潜表征的细节。如果只能用于同构智能体,其实际应用范围将大打折扣。毕竟,真实场景中很多时候我们需要混合使用GPT-4o、Claude等闭源API。

可解释性下降。 当Agent之间传递的不再是可读的文本,而是一堆向量表征时,整个协作过程变成了“黑箱”。在需要对AI决策负责的生产环境中,这种不透明性可能带来合规和审计挑战。

生产环境的复杂性。 论文测试的是相对干净的协作场景,真实生产环境往往涉及外部工具调用、人机交互、动态工作流等复杂因素。

RecursiveMAS的提出,本质上是将“递归”这一在单模型时代被证明有效的Scaling策略,引入到了多智能体时代,挑战了“智能体之间必须通过自然语言传递信息”这一默认假设。如果数据可复现,MAS赛道下一阶段的Scaling轴可能要从“堆智能体数量”转向“加深递归深度”。

当然,这项研究仍需在更多独立基准上验证,需要解决异构模型互联的问题,需要在真实生产环境中证明自己。但至少,它让我们看到了一个可能性——

AI智能体之间的协作,可以不必总是“鸡同鸭讲”。

(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)

(来源:钛媒体)



用户登录