国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

2025年10月01日,12时22分17秒 科技新知 阅读 6 views 次

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

作者 | 李水青

编辑 | 漠影

智东西9月30日报道,国庆前夕,全球AI竞赛迎来一波小高潮,国产大模型纷纷放大招。

今天下午,智谱AI正式发布新一代大模型GLM-4.6,就在昨晚,DeepSeek也宣布推出DeepSeek-V3.2-Exp实验版模型。两家国产大模型领军企业在国庆假期毫不放松,加班加点推进技术迭代。而在大洋彼岸,Claude Sonnet 4.5同期发布,谷歌Gemini 3.0也预计将在10月迎战,全球大模型竞争进入白热化阶段。

作为智谱GLM系列的最新版本,GLM-4.6在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升,整体性能超越DeepSeek-V3.2-Exp。这也是新晋“国内最强Coding模型”,据称能使用户仅用1/7的价格即享受到接近Claude Sonnet 4的代码能力。

智东西第一时间对GLM-4.6进行了实测体验,发现其编程能力表现惊艳,在代码质量和实现效果上相比GLM-4.5大幅提升,并可与Claude Sonnet 4.5、GPT-5媲美;同时在文本理解、逻辑、记忆、检索、智能体调用等方面都有明显体验提升。

目前,GLM-4.6已上线智谱MaaS平台bigmodel.cn,即将在Hugging Face、ModelScope同步开源。寒武纪、摩尔线程等国产AI芯片厂商在第一时间完成适配,标志着国产大模型与国产芯片的协同发展正在加速推进。

一、GLM-4.6横扫八大权威测评,编程能力创新高,token消耗节省三成

按照惯例,我们先来看看GLM-4.6的测评成绩。

在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified等8大权威基准测试中,GLM-4.6在大部分权威榜单表现赶超了DeepSeek-V3.2-Exp、Claude Sonnet 4等顶尖模型,稳居国产模型首位

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

这些成绩来之不易。GLM-4.6的上一代模型GLM-4.5最初发布于7月28日,首次在单个模型中实现将推理、编码和智能体能力原生融合。GLM-4.5在代码能力上的突出表现,让智谱MaaS平台的API商业化实现了10倍以上增长。

GLM-4.6在这一基础上实现全面跃升,不仅在代码能力上创新高,在长上下文处理、推理能力、信息检索、文本生成及智能体应用等方面均实现显著升级,整体性能已超越DeepSeek昨日发布的DeepSeek-V3.2-Exp

这些提升也体现在真实编程评测中,GLM-4.6同样实现了全面超越。

为了测试模型在实际编程任务中的能力,智谱在Claude Code环境下进行了74个真实场景编程任务测试。结果显示,GLM-4.6实测超过Claude Sonnet 4,也优于其他国产模型。

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

在平均token消耗上,GLM-4.6比GLM-4.5节省30%以上,为同类模型最低。

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

为确保透明性与可信度,智谱已公开全部测试题目与Agent轨迹,供业界验证与复现。

二、实测编程惊艳,胜任复杂交互任务,媲美Claude、GPT-5

智东西着重对GLM-4.6的编程能力进行了体验,发现其不仅相比GLM-4.5大幅提升,能够实现更加复杂的编程任务,完成度更高,且在多个任务中的代码生成质量预览效果达到与Claude Sonnet 4.5、GPT-5媲美的水准。

首先我们还是尝试了“旋转六边形弹跳球模拟”。体验发现,GLM-4.6能够较准确模拟旋转容器的作用、质量对碰撞的影响、能量守恒现象动量传递效果,并且提供了调整旋转速度、控制重力和摩擦力等控制选项

输入:模拟一个旋转六边形内弹跳球,有两个球体积相同,球a的质量是球b的2倍。

GLM-4.6输出:

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

当我们将同一提示词发送给GLM-4.5,输出效果如下,弹球弹出了六边形边界,模拟效果不如GLM-4.6,且没有更多的控制选项。从这一例子我们可以直观看到GLM-4.6相比于GLM-4.5的代际提升。

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

GLM-4.6与今日最新发布Claude Sonnet 4.5相比如何呢?如下图所示,这是X平台用户“提示词”展示的一个让他“惊叹”的例子——一次性创建交互式太阳系。这位用户称,在GPT-5尝试相同的提示没有得到有效代码,GLM-4.6是否能胜任?

如下图所示,即便输入非常简单的提示词,GLM-4.6也能理解抽象词“交互式”和天文概念“太阳系”的含义,并进行比较准确的模拟。该控制台模拟了太阳系行星的位置和运转,支持拖动查看3D模型,并且支持调整运行速度和行星大小等变量,看起来丝毫不逊色于Claude Sonnet 4.5。

输入:创建一个交互式太阳系的模拟。

GLM-4.6输出:

GLM-4.6在SVG动画生成的例题中,也实现了超过GPT-5的理解和编程能力。如下图所示,一位X平台用户用GPT-5去生成“水豚骑自行车”的SVG动画,然而动画中却没有准确生成出水豚,令这位用户怀疑:GPT-5好像只会生成训练数据中出现过的内容,或许因为水豚没出现过所以不能生成。

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

我们让GLM-4.6尝试做了同一道题,发现其快速生成了一个准确逼真的动画——动画版水豚的形态接近真实世界的水豚,且水豚是坐在自行车座位上手扶着车把骑行的,生成较准确。

输入:SVG,水豚骑自行车的动画。

GLM-4.6输出:

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

交互式游戏更加考验大模型的编程能力。当我们让GLM-4.6生成一个简单的3D射击游戏,GLM-4.6快速生成了一个736行代码的程序,预览就是一个具备三维立体感的空间,点击鼠标就可以射击移动物体,并且具有击中奖励效果和计分机制。

输入:用Three.JS做一个简单的3D射击游戏。

GLM-4.6输出:

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

GLM-4.6在全栈开发方面实现了增强的前端设计、GitHub集成、更长的上下文等升级,我们也尝试了一下。我们要求GLM-4.6生成“速度型集群和力量型相互作用演化”的模拟,这将考察GLM-4.6在前端开发、物理模拟、状态管理、系统架构、抽象建模、简化复杂度、工具链使用等多重能力。

如下图所示,GLM-4.6完成了一步实现,不仅模拟出速度型种群快速被力量型种群消灭的物理规律,还通过模块化的控制板,给出了模拟控制、参数设置、种群A和B的动态指标等发展情况,前端视觉效果已经非常美观,可以说“内外兼修”。

输入:有两个种群,种群a注重力量的发展,种群b注重速度的发展,请模拟一下两个种群之间的相互作用并给出说明。需要以“小球”的形态模拟出可视化的状态。

输出:

除了体验GLM-4.6的代码能力,我们还通过AI PPT制作这一功能,验证了GLM-4.6在文本理解、智能体调用、检索及多模态方面的能力。

通过多轮对话,我们直观感受到GLM-4.6的“手眼并用”能力更灵了。其不仅准确理解了生成需求,并围绕主题进行了准确的检索和信息提炼,文本和图片内容都紧扣主题,同时多轮对话指令遵循准确。

输入:

第一轮:制作一份关于 “当代年轻人新型社交方式” 的PPT。请生成一个4页的PPT大纲,涵盖“搭子社交”、“MBTI社交”、“全职儿女”和“追星社交”四个话题。

第二轮:全职儿女更偏向家庭关系,请将这一页替换为关于“City Walk中的社交属性”的内容,并保持与其他页面相同的格式和深度。

第三轮:画面有点单调,增加一些时尚视觉元素。在4张PPT中分别添加一些相关的配图。

输出:

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

国产大模型集体国庆!最强国产编程模型诞生,寒武纪摩尔线程火速适配

总的来说,我们发现GLM-4.6相比于GLM-4.5虽然在名称上仅仅迭代了0.1代,但实测效果却有非常直观的提升,并且在一些案例中比GPT-5、Claude Sonnet 4.5效果更好。国产大模型的迭代速度十分惊人,这与我们昨日实测DeepSeek新模型时的感受是一致的。

三、国产芯片立刻适配,国产之光降价提质,AI惠及更多人

GLM-4.6发布的同时,国产AI芯片厂商迅速响应。寒武纪与摩尔线程几乎在第一时间完成对GLM-4.6的适配,国产大模型与国产芯片协同效率正超出我们的想象。

GLM-4.6已在寒武纪领先的国产芯片上实现FP8+Int4混合量化部署,这是首次在国产芯片投产的FP8+Int4模型芯片一体解决方案,在保持精度不变的前提下,大幅降低推理成本,为国产芯片在大模型本地化运行上开创了可行路径。

与此同时,摩尔线程基于vLLM推理框架完成了对GLM-4.6的适配,新一代GPU可在原生FP8精度下稳定运行模型,充分验证了MUSA架构及全功能GPU在生态兼容性和快速适配能力方面的优势。

GLM-4.6和寒武纪、摩尔线程国产芯片的组合,即将通过智谱MaaS平台正式面向大众和企业提供服务。未来,国产原创GLM大模型与国产芯片将联合推动在模型训练和推理环节的性能与效率优化。

这一协同效应不仅体现在技术层面,更直接惠及终端用户。

随着GLM-4.6发布,智谱同步升级GLM Coding Plan,推出最低20元包月畅玩套餐,让用户以1/7价格享受到Claude的9/10智商。同时其推出GLM Coding Plan企业版套餐,为企业级用户提供兼具安全、成本效益与国际顶尖性能的编码解决方案。

此前订阅GLM Coding Plan包月套餐的用户自动升级至GLM-4.6,新增图像识别与搜索能力,支持Claude Code、Roo Code、Kilo Code、Cline等10+主流编程工具。智谱还面向高频重度开发者提供GLM Coding Max,是Claude Max (20x) plan三倍用量。

可以看到,国产大模型“提质降价”趋势更加明显,有望推动大模型技术更快普及,让更多开发者和企业能够以更低成本享受到顶尖的AI能力。

结语:模型提质降价背后,架构升级与国产芯协同加速

从GLM-4.5到GLM-4.6,智谱AI在短短两个月内实现显著跃进,展现出强劲的技术迭代能力。在模型提质的同时,价格持续下探,让大模型成为广大开发者和企业触手可及的工具。这不仅是单纯的性能提升,更是国产大模型整体技术架构加速升级的缩影。

国产大模型与国产芯片的深度协同正在构建更加自主可控的AI技术生态。寒武纪与摩尔线程完成对GLM-4.6的适配,以及DeepSeek与华为、寒武纪等AI芯片的适配,标志着国产AI芯片与前沿大模型已具备协同迭代的能力,为构建自主AI基础设施奠定坚实基础。

(来源:新浪科技)



用户登录