月之暗面推新开源模型 ,超越 DeepSeek-R1,登顶全球开源榜首
在人工智能与软件开发深度融合的当下,代码大模型领域再掀波澜。6 月 17 日凌晨,神秘团队月之暗面(Moonshot AI)重磅推出针对软件工程任务的全新开源代码大模型 Kimi-Dev-72B。该模型一经亮相,便在 SWE-bench Verified 编程基准测试中技压群雄,以仅 720 亿的参数量,超越了参数量高达 6710 亿的新版 DeepSeek-R1,勇夺全球开源模型榜首之位,引发了业界的广泛关注与热议。
SWE-bench Verified 作为 AI 软件工程能力基准测试的权威平台,对模型在实际软件工程场景中的表现有着极为严苛的考验。Kimi-Dev-72B 在此测试中脱颖而出,斩获 60.4% 的高分,创下开源模型的新纪录,其卓越性能可见一斑。这一成绩不仅彰显了 Kimi-Dev-72B 在处理复杂编程任务时的强大实力,也为开源代码大模型的发展树立了新的标杆。
与其他同类模型相比,Kimi-Dev-72B 的优势十分显著。以新版 DeepSeek-R1 为例,尽管其参数量远超 Kimi-Dev-72B,但在 SWE-bench Verified 测试中,Kimi-Dev-72B 却能以较小的参数量实现超越,这充分体现了其在模型架构设计和训练优化上的独特之处。较低的参数量意味着在实际应用中,Kimi-Dev-72B 可能具有更高的运行效率和更低的资源消耗,对于广大开发者和企业而言,这无疑具有极大的吸引力。
Kimi-Dev-72B 的成功并非偶然,其背后凝聚了月之暗面团队在技术研发上的诸多创新与努力。在模型设计理念和技术细节方面,该模型有着一系列独特的设计。
BugFixer 和 TestWriter 的组合堪称 Kimi-Dev-72B 的一大亮点。在软件开发过程中,成功修复错误的补丁应能通过准确反映该错误的单元测试,而复现错误的成功测试应能引发断言错误,并在应用正确的错误修复补丁后通过。基于此,BugFixer 和 TestWriter 相互补充,一个强大的编程大语言模型理应在这两个方面都表现出色。Kimi-Dev-72B 为这两种角色采用了相同的极简框架,均包含文件本地化和代码编辑两个阶段。在实际操作中,当面对一个代码问题时,BugFixer 会首先定位到需要编辑的正确文件,然后进行代码更新以修复脆弱的实现;而 TestWriter 则会找到相应文件,插入 unittest 函数以编写测试用例。这种双重设计为 Kimi-Dev-72B 在软件工程任务中的出色表现奠定了坚实基础。
为了增强 Kimi-Dev-72B 作为 BugFixer 和 TestWriter 的先验知识,月之暗面团队进行了大规模的中期训练。他们以 Qwen 2.5-72B 基础模型为起点,收集了数百万个 GitHub 问题和 PR 提交作为中期训练数据集。在数据处理过程中,团队精心构建数据配方,使得 Kimi-Dev-72B 能够深入学习人类开发者在处理 GitHub 问题时的推理方式,以及编写代码修复和单元测试的技巧。值得一提的是,团队还进行了严格的数据净化工作,将所有存储库从 SWE-bench Verified 中剔除,以确保模型在训练过程中不会受到测试集数据的干扰,从而保证评估结果的公正性和可靠性。经过中期训练,基础模型对实际 Bug 修复和单元测试的理解得到了充分增强,为后续的强化学习训练提供了更优的起点。
在强化学习阶段,Kimi-Dev-72B 的训练目标聚焦于提升代码编辑能力。月之暗面团队采用了 Kimi k1.5 中描述的策略优化方法,该方法在推理任务中已被证明表现出色。针对 SWE-bench Verified 测试,团队在强化学习过程中重点关注三个关键设计。其一,采用仅基于结果的奖励机制,仅以 Docker 的最终执行结果(0 或 1)作为奖励,在训练期间不采用任何基于格式或过程的奖励,这促使模型更加注重生成能够真正通过测试的正确代码,确保了解决方案的正确性和稳健性,符合现实世界的开发标准。
其二,构建高效的提示集,通过过滤掉模型在多样本评估下成功率为零的提示,更有效地利用大批量数据进行训练。同时,采用课程学习法,逐步引入新的提示,不断提高任务难度,使模型能够在逐步挑战中提升能力。其三,进行正例强化,在训练的最后阶段,将之前迭代中最近成功的样本纳入当前批次,帮助模型强化成功模式,进一步提升性能。此外,Kimi-Dev-72B 借助高度并行、强大且高效的内部 agent 基础设施,从大量可扩展的问题解决任务训练中获益,不断优化自身的代码编辑能力。
经过强化学习后,Kimi-Dev-72B 具备了同时驾驭 BugFixer 和 TestWriter 角色的能力。在测试过程中,它创新性地采用自我博弈机制,巧妙地协调自身在 Bug 修复和测试编写方面的能力。具体而言,每个问题最多可生成 40 个补丁候选和 40 个测试候选(按照标准无 agent 设置),通过这种方式,Kimi-Dev-72B 能够在自我博弈中不断优化解决方案,实现测试时自博弈的扩展效应,进一步提升解决复杂问题的能力。
目前,Kimi-Dev-72B 已在 Hugging Face 和 GitHub 上全面开放下载和部署,为全球开发者提供了便捷获取模型的途径。其发布给社区的关键资源涵盖了模型权重、源代码等,方便开发者深入研究和应用。此外,技术报告也即将推出,这将为开发者和研究人员提供更深入了解模型的技术细节和性能特点的机会,有助于推动基于该模型的二次开发和创新应用。
(来源:新浪科技)