MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
7月10号,MiniMax面向全球举办了M1技术探讨会。作为中国团队,我们很高兴组织发起与全球学者的开放技术探讨。现场,来自十几个国家地区的观众从世界各地加入,与M1团队和全球学者进行了技术交流。
M1团队与来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题。嘉宾详见:
秉承开源精神,我们将本场探讨会的技术观点分享出来,以下是要点总结:
01
RL能否赋予模型新能力?
RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。
首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模型思考过程的长度是无限的,RL什么也改变不了。根据定义,如果你有无限的上下文长度,那么所有能用自然语言表述的问题,理论上都可以通过有限次的采样尝试来解决。
如果针对一个有限上下文长度,RL是否能赋予模型新能力?答案是:能。因为RL所做的是改变模型输出的分布。预训练后,模型可能需要至少10W个token才能解决某个问题,但经过RL微调后,它可能只需要10K个token。如果模型有限上下文长度是50K个token,那么RL的确赋予了模型新能力。
在有限上下文长度下, pass@k 是一个好的衡量指标。K的取值很重要,这取决于如何定义模型能力,如果定义是“模型至少有一次能解决这个问题”,那么应该用尽可能大的k来衡量pass@k;但如果定义是“模型能否在4次尝试内解决问题”,那应该去衡量 pass@4。
目前 Reward 是RL scaling 的核心瓶颈,特别是如何为那些不基于结果的奖励(non-outcome-based reward)进行建模,这是全世界都还感到困惑的地方。比如,人类可以从别人写的一段文字或反馈中获得正面或负面的感受,但我们目前并没有很好的方法来对这种主观感受进行建模。
02
预训练的价值在于更多样化的数据分布
如何理解预训练在RL过程中的角色?如果预训练在某些技能,如编程或数学,上有所欠缺,后训练阶段仅凭RL能把这块短板补上吗?
原则上可以,只要有足够的信息源,我们就可以用RL来替代任何过程。某种意义上,预训练只是RL的一种特例。任何监督学习都可以被看作是一种特殊的强化学习。现阶段,RL训练阶段的数据分布,要远比预训练数据的分布狭窄得多。这正是目前进行预训练能带来的最大收益——它让模型获得了范围远为广阔的知识。
但在当前阶段,预训练的价值在于,我们可以在预训练阶段接触到更多样化的数据分布。因为目前RL训练数据的质量要求门槛相当高,我们主要知道如何在有限的环境中扩展RL训练,例如reward被清晰定义的环境。目前RL研究的核心挑战之一是如何拓展至reward清晰的环境之外。奖励建模(Reward Modeling)可能是一种解决方案,但更为通用的奖励信号依然是行业在探索的方向。
03
只在数学和代码上做RL训练,更容易产生幻觉
关于通用推理,至少在今年二月左右,大多数RL数据,都来自于数学或编程领域。而事实是,只在数学和代码上进行RL训练,模型更容易产生幻觉。在很多事实性基准,比如SimpleQA上的性能会显著下降,甚至在像MMLU这样的多学科问答基准上也会下降。
因此我们做通用推理数据集的一个动机,就是为了创建更多样化的RL训练数据。WebInstruct-verified旨在为所有领域构建更大规模的RL训练数据,以便模型能够在不同领域取得进步,而不仅是数学和编程。
现在我们甚至在尝试进一步扩大这个规模。之前,通过在预训练数据集中搜索可用的RL数据来扩大规模,我们成功地把它扩展到了50万的量级。现在正尝试通过检索更大规模的预训练数据集,从中获取越来越多样的RL数据,并采用在mid-training进行RL的范式,而不仅仅是作为后训练。
04
如何让模型用图像思考?
目前很多视觉推理范式,核心大都集中在文本形式的思维链上,而视觉部分固化为一个 ViT编码器,没法让模型在编码图像上花费更多计算资源。而像 Pixel Reasoner 或其他一些工作,正试图帮模型重新审视图像的特定区域,并对其进行重新编码,从而在关键区域上投入更多算力。
但这并不是一个非常本质的提升模型能力的方法,在现阶段更像是一个权宜之计。因为现有的视觉编码器太弱了,无法很好地处理高分辨率图像,所以才尝试用zoom-in或其他操作来操纵图像表示,然后从输入中重新调用它,并在此基础上进行推理。在现阶段,大多数工具,比如zoom-in、重新调用帧或高亮显示,实际上都只是在增强感知能力。
也存在一些更复杂的工具,能从根本上改变图像,比如使用图像生成技术。这种做法就已经超越了单纯增强感知的范畴,比如在几何问题中画辅助线。最近还没太多这方面的成功案例,但如果有人能设法让这种方法奏效,那它将是“用图像思考”的一个更强大版本。
我们仍然需要解决根本的瓶颈问题:如何更好地编码视觉像素,以及如何以更好的方式在潜在空间(latent space)中进行视觉推理——注意,不是在实际的像素空间,而是在抽象的潜在空间。
Latent reasoning可能是一个非常好的机会。很多视觉推理,特别是在机器人或具身智能领域,真的需要在空间中思考。在这些涉及空间感的场景下,文本推理就不是一个好方法,很多推理过程是隐式的,无法被清晰地表述或言语化。
05
当前RL领域最令人兴奋的挑战
RL面临挑战之一,是Reward Modeling,特别是如何超越那些结果容易被评估的环境。这将会极大地扩展RL应用场景。
另一个可能很重要的领域是多智能体。不过,多智能体目前更多受限于基础设施,而非理论研究。对我来说,用一个中央模型调用子智能体和调用工具是同一回事,没有区别。当我说“多智能体”时,脑海中想的更多的是一个包含多个AI模型、并且它们在训练过程中相互交互的环境。
还有一个令人兴奋的领域就是AI自动化研究——让模型自己训练自己。这其实一直以来都与AGI的定义相关:当模型可以在没有人类干预的情况下,自我训练并自我提升。
还有刚刚提到的,非Token空间的推理,那里也存在着机会。
06
长上下文是Agent的Game changer
长上下文在Agent工作流中有巨大潜力。我们另一个客户正在构建复杂的智能体系统,长上下文窗口对他们来说是真正的game-changer。Agent完成某个任务时,能够将整个代码库、API参考文档、历史交互数据等等,全部一次性喂给它。这种任务你不能分几次调用来处理,因为当你让智能体完成任务时,它掌握的关于这个项目的信息越多,产出的质量就越高。
我们有望从目前在大多数情况下,只能处理相当孤立任务的智能体,发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。
对于Nebuis的客户,M1这样超长上下文模型的真正价值在于解锁了全新的企业级应用场景。这些场景以前用分块处理策略来解决,非常繁琐,甚至几乎不可能。
例如,一个法律行业客户需要把文件一块一块地喂给大语言模型,并用一些窍门来优化检索和上下文管理。这样问题在于,可能错过埋藏在某个随机法律文件某一页中的关键细节。而有了1M token的上下文窗口,就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源,这无疑能提升了服务质量。
Writer是一家服务于全球企业级客户的公司,长上下文模型在企业级应用需求非常广泛。它被应用得最多的领域之一是法律合规分析。比如,分析冗长的合同、电子健康记录或公司年报,从中提取关键条款、识别风险,然后附上引文进行总结,需要非常巨大的上下文窗口。另一个领域是客户研究洞察。比如,总结大量的调查问卷回复或研究论文,以发现其中的主题,并提取一些见解。
长上下文模型也被大量用于收入与报告相关的业务。比如,录入大量的项目招标书,从Salesforce中拉取数据,然后自动起草第一版的回应;或者处理一些基金报告,这需要将内部研究与第三方市场数据结合起来。还有技术支持与知识管理领域。这是每个开发者的负担——对工单进行分类,更新内容管理系统,或者为已有的工作流发布内容。要让智能体在这个领域里运作,就需要长上下文能力。
07
混合架构将成为主流
对比纯线性注意力和Full Attention,混合注意力机制(Hybrid Attention)无疑是最有前景的方案。纯线性注意力机制有很多根本性局限,因为它的状态大小是固定的,因此,在处理长序列建模问题时表现不佳。而Full Attention虽然提供了灵活性,但其代价也显而易见:KV缓存大小会随着序列长度线性增长,并且训练复杂度也是平方级的。当序列不断变长时,高昂的推理和训练复杂度就会成为瓶颈。将这两种机制结合起来,也就显得顺理成章,混合模型(Hybrid Model)就应运而生了。
混合架构将会成为模型设计的主流,因为随着对大规模部署和低延迟需求的增长,人们会越来越关心推理效率和模型的推理能力。MiniMax的模型也证明了这一点。至于如何进一步拓展混合注意力架构的空间,未来的研究者需要思考,不能只是简单地用固定的比例来交错堆叠Softmax注意力和线性注意力层,也许需要更多样的混合架构形式。
脱离硬件的纯粹算法研究,正逐渐失去关注度,尤其是在LLM领域。如果一项技术无法规模化,或者不能被高效地部署,那它就很难获得关注、形成势能。一个算法不仅要在理论上站得住脚,还必须在硬件上——尤其是在GPU或TPU这类加速器上高效运行。如今的算法研究者们已经,并且也应当熟悉基本的硬件原理,比如内存层级(memory hierarchy)、并行计算(parallelism)、共享内存(shared memory)等等。他们还应该去掌握一些底层的GPU编程工具,比如 Triton。这才是当今在LLM领域做算法研究的正确方向。
混合架构目前的瓶颈在于基础设施。混合模型的有效性在去年就已经得到了很好的验证,但没有公司投入更多资金进行大规模验证,直到 MiniMax 发布了他们的大模型 MiniMax Text-01,人们才意识到混合模型原来有这么大的潜力。当前算法层面已经趋于稳定了,我们应该专注于为这些新机制构建好的基础设施。
08
混合架构推理的前沿实践
在推理层面,随着混合注意力架构越来越流行,为了在SGLang或其他推理引擎中充分利用缓存感知和缓存复用等特性,我们需要为普通架构和混合架构设计一个统一的抽象层,这样才能简单地将所有优化应用到混合模型上。
此外当前MiniMax模型这种7+1层交错的架构可能会带来一些工程挑战,特别是在用计算图优化(Graph Optimization)进行部署时,因为不同层的计算和内存访问模式是不同的,这会导致GPU利用率不平衡。可能需要用一些技术来解决它,比如批处理重叠(batch overlapping)或者更先进的pipline策略。
从支持混合架构的技术层面来说,首先需要一个混合分配器(hybrid allocator),这个功能在vLLM中已经有了。它有助于管理混合架构的KV缓存——尽管对于某些部分我们不称其为KV缓存,但混合架构中仍然存在某种形式的状态。这些状态的生命周期与全注意力层的KV缓存并不同步,所以需要设计如何让它与现有的缓存机制、预填充、解码等环节协同工作。
其次,批处理重叠(batch overlapping)会很有帮助。采用了混合架构后,有些层是full attention,有些层只是简单的线性注意力,这就存在计算不平衡。如果按顺序计算,那么在计算线性注意力层时,计算资源可能就未被充分利用。但如果能将两个微批次(micro-batches)重叠起来处理,只要比例计算得当,理论上任意时刻都会有一个微批次在执行计算密集型的full attention 操作,从而最大化GPU利用率。
从生产部署的角度来看,混合架构的推理速度对现实应用至关重要。例如,有一个客户,需要并发处理多个几十万token的请求。但对于使用二次方复杂度注意力的传统模型,在这种输入大小和并发量下,生成速度都会变得极慢。用 DeepSeeker-R1,在8个并发请求、每个请求10万token的情况下,平均要等待大约1分钟才能得到首个token。而用MiniMax的模型,大约是4到5秒,数字小了一个量级。这个速度完全可以接受,并且也为在生产负载下,用如此大的上下文进行在线应用解锁了可能性。
09
M1背后的Q&A
Q:混合线性注意力会如何影响使用RL的推理模型的性能?
A:在训练过程中,当我们扩展到可处理数万 token 上下文长度的模型时,遇到了重大问题:RL训练停滞不前,奖励信号在仅几百步后就不再增长。研究后,我们发现问题在于,线性注意力架构在这种规模下固有的训练不稳定性。这导致了一些问题,比如某些层激活值爆炸等,并使模型在训练和推理时的行为出现了严重错位。识别并修复了这个 bug 之后,我们才成功地使用RL训练该模型。
这个问题,也使得我们发现混合线性注意力的一个根本性权衡:它效率极高,单位 token 的计算成本非常低,但通常需要生成更多的 token(即更长的推理路径)才能达到与 full attention 模型相同的性能。然而,我们的工作证明了,通过适当规模的RL以及合适的推理时算力,混合注意力模型确实能媲美full attention架构性能。
这对未来架构设计的一个关键启示,是评估方法的重要性。为了公平地比较混合模型与其他模型,我们应该基于在给定任务下、固定总计算预算内的性能来进行评估,而不仅仅是比较固定输出长度下的效果。这提供了一个更全面、更能反映模型真实效率和能力的视角。
Q:推理模型是否已经具备了System 2推理和自我反思能力?
A:System 2推理和自我反思,可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。
首先其核心驱动力,是有效利用更大的计算资源,即更长的输出,来获得更好性能的能力。我们观察到的高级推理能力,是扩展这些资源后的直接结果,而非其根本原因。本质上,为模型提供更多的计算能力去“思考”,使得这些复杂的模式得以涌现。
其次,这种高级推理可以被看作是一种自动化的Prompt Engineering。对于数学或编程等复杂任务,模型学会了生成自己的内部思考过程,这实际上取代了人类提供详尽、分步式指令的需要。
对于写作等任务,模型在思考过程中会先对问题进行分析,并对写作步骤进行专业化拆解。它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使得模型能够通过创建详细推理路径来“像专家一样思考”。
因此 System2 推理和自我反思,实质上是如何高效地利用并扩展计算预算(computation budget),同时也是模型自动深化用户问题的体现。
自创立以来,MiniMax 即以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。我们将继续坚持做上限更高的事,坚持底层架构和算法创新,与合作伙伴一起为全球开源社区持续贡献。
Intelligence with Everyone
(来源:新浪科技)