浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

2025年09月30日,00时26分38秒 科技新知 阅读 5 views 次

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

作者 | 程茜

编辑 | 漠影

智东西9月29日报道,在9月26日的2025人工智能计算大会上,浪潮信息连破两项纪录,让智能体产业化门槛一降再降!

一个是国内大模型最快Token生成速度:基于元脑SD200超节点AI服务器,DeepSeek R1大模型Token生成速度仅需8.9毫秒;另一个是百万Token成本首次击破1元,基于其最新发布的元脑HC1000超扩展AI服务器

而这两大突破的价值,正契合智能体商业化产业化落地的本质逻辑——

如今,具备自主学习、决策与执行能力、能独立完成复杂任务的智能体,已成为大模型规模化落地的核心载体,其产业化比拼的正是三大核心能力:场景适配能力、交互速度、成本控制

模型能力能否精准匹配行业真实需求、交互速度是否满足实时场景要求、Token成本能否支撑盈利闭环,最终实现从技术可用到商业可持续的跨越,成为智能体产业化的关键桎梏。

在这背后,算力体系的革新至关重要。当前GPU主导的计算模式与通用架构面临挑战,正逐渐在能效比和成本效益上触及瓶颈,因此业界亟需重新审视并设计AI计算系统,发展AI专用架构以突破瓶颈

浪潮信息通过软硬件协同设计与深度优化,已经在持续推动AI计算架构的创新与突破上拿出了阶段性重磅成果。

一、直面智能体产业化落地挑战!浪潮信息发力底层架构革新之路

最近爆火的智能体将生成式AI的应用潜力推至新的高度,从为用户提供AI工具和助手,到多智能体协同创造价值的未来图景正在缓慢展开。

一方面,从语言到图像、音视频、3D各类模型连番刷新性能天花板,模型参数从百亿、千亿向万亿飙升,海量数据、后训练阶段算力投入的综合作用下,AI展现出通过学习人类知识具备泛化智能的“涌现”能力

这正是智能体诞生的基础,其可以根据需求、用户预设的目标学习人类知识主动决策、规划、执行,甚至实现自主迭代进化。

另一方面DeepSeek通过算法创新降低大模型门槛,开源生态繁荣,为智能体生态繁荣奠定了基础。

这一趋势下,智能体产业化的三大核心要素被清晰推至台前:模型能力决定智能体应用上限、交互速度决定智能体产业化价值、Token成本决定智能体盈利能力

具体来看,模型能力决定了智能体在具体场景中能解决什么问题、解决到什么程度:首先综合性能可以对标甚至超过闭源模型的开源模型是重要支撑;其次具体到不同场景,每个模型推理、交互、垂直领域知识精准度,决定其能否做到在不同场景可用。

交互速度决定智能体解决问题的速度:不同于此前用户与聊天机器人的交互场景,用户对时延的感知并不敏感,最初GPT-3.5每秒生成速度仅为40个token,彼时已经可以满足用户的阅读体验,但这放到智能体交互层面远远不够。

智能体在金融等对时延要求较高的领域,往往需要其响应速度降至毫秒级别,也就是说,即使模型能力再强,慢响应也会让其失去实用价值。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

最后是成本,Token成本决定智能体盈利能力,Token成本直接对应企业的算力消耗成本,成本与定价差额决定智能体毛利率,若Token成本过高,企业也会陷入卖得越多、亏得越多的困境。

然而当下推理模型的思考过程会产生成千上万个Token,智能体在执行复杂任务的中间环节也会产生大量中间文本Token。根据Reddit的数据,当前使用AI辅助编程的开发者平均每月会消耗1千万到5亿Token,相比一年前暴涨50倍,目前企业部署一个智能体平均每月的Token成本大概是1000到5000美元。主流模型的Token成本居高不下,这对于其产业化是不小的瓶颈。

因此,随着大模型参数规模扩大、应用场景复杂化,单纯依靠堆算力、堆成本的粗放模式,已难以平衡智能体的性能、速度与盈利需求,从计算架构层面实现技术突破成为适配三大要素、推动智能体产业化落地的最优路径,这也是浪潮信息在布局的方向。

二、从速度到成本双重突破,树AI服务器性能与成本新标杆

在这样的产业背景下,浪潮信息作为全球算力基建核心供应商,其此次连破两个国内纪录的硬件产品,就是最好的例证。

首先是浪潮信息元脑SD200超节点AI服务器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既实现国内大模型最快Token生成速度,也标志国产AI服务器Token生成速度迈入10毫秒时代

基于其独创的多主机3D Mesh系统架构,该服务器单机实现了64路本土AI芯片的高速统一互连,单机可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

生成速度极致压缩的背后,SD200还实现了极低通信延迟、整机高可靠性设计、超线性扩展的推理性能

SD200达到业界最低通信延迟为0.69微秒,其采用极致精简的协议栈,包括物理层、数据链路层、事务层3层,原生支持Load/Store等“内存语义”,基础通信延迟达到百纳秒级,同时Open Fabric原生支持由硬件逻辑实现的链路层重传,采用分布式、预防式的流控机制,从而实现稳定可靠通信。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

为了保证整机高可靠适应超节点的大规模商业化应用,其系统硬件层面通过全缆电互连、短距紧耦合传输,实现每十亿小时故障率是传统光模块互连方案的1/100,基础软件层通过创新GPU故障信息转储、跨域故障关联定位等关键技术,实现全方位故障可观测、全自动故障隔离、极速故障恢复,业务软件层通过构建业务故障预测模型实现推理响应不中断。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

SD200还通过面向超节点创新优化的通信库、PD分离策略、动态负载均衡等技术,将通信耗时控制在10%以内,实现了Deepseek R1 671B最高16.3倍的超线性扩展率。

与此同时,为了进一步提升SD200的易用性,浪潮信息使其兼容CUDA生态,对PyTorch算子全覆盖,一键迁移典型应用等。

此外,基于多元开放的超节点计算平台、异构融合的软件栈,浪潮信息还将与生态合作伙伴共同构建全场景智能体应用,共同塑造超节点智算应用“北京方案”

其次是元脑HC1000超扩展AI服务器,推理成本首次击破1元/每百万Token

浪潮信息首席AI战略官刘军透露,全面优化降本和软硬协同增效是HC1000实现百万Token 1元成本高效生产力的关键路径。其核心是浪潮信息创新设计的DirectCom极速架构以及全对称系统拓扑设计

DirectCom架构每计算模组配置16颗AIPU,实现单卡成本降低60%以上,每卡分摊系统成本降低50%,其采用直达通信设计、计算通信1:1均衡配比,实现全局无阻塞通信;全对称系统拓扑设计支持灵活的PD分离、AF分离方案,最大化资源利用率。

HC1000还支持超大规模无损扩展,实现从1024卡到52万卡的不同规模系统构建,计算侧通过DirectCom和智能保序机制,网络侧支持包喷洒动态路由,深度算网协同实现推理性能相比传统RoCE提升1.75倍。

这两大硬件一方面拉高交互速度保障实时场景响应效率;另一方面推动Token成本持续触底,为智能体规模化落地提供关键硬件支撑。

三、浪潮信息的算力前瞻逻辑:跟随应用、算法发展布局

当我们剖析浪潮信息两大硬件背后的黑科技会发现,其核心底座是底层基础设施在系统架构、互联协议、软件框架等关键点上进行的协同创新

智能体产业化已成为行业共识,全球知名市研机构IDC的报告预测,中国企业级智能体应用市场规模在2028年保守估计将超过270亿美元。

然而当前以GPU为核心的计算模式与通用计算架构正面临严峻挑战

一方面,通用计算架构的优势在于其广泛的场景兼容性,但其痛点是为适配多元需求而预留的冗余设计,往往导致特定场景下算力效率难以突破;另一方面,专用架构聚焦单一领域的性能极致优化,像为AI训练量身打造的等,受限于应用场景的狭窄性,难以形成跨领域的生态规模。

综合来看,计算产业的每一次跨越式发展,本质上都是在通用架构的普适性与专用架构的高效性之间寻找动态平衡,使其在场景需求、技术迭代等方面实现互补,契合当下的产业发展需求。

因此,这一时间节点,随着AI计算需求呈指数级增长,行业亟需全面转向效率导向,重新审视并重构AI计算系统。

我们可以从浪潮信息的布局中,观察到其对计算架构底层创新的诸多思考。

刘军透露,他们追求计算架构创新的原则是跟随应用和算法发展的方向,以应用为导向、以系统为核心,才是进行计算架构创新的有效路径。

具体来看,此次浪潮信息的SD200和HC1000针对的是两个典型场景

SD200面向对延迟要求敏感的商业场景,HC1000面向的是云计算、互联网、大规模AI服务提供商,这些企业需要为客户的智能体应用提供成本更优的计算基础设施。

今年智能体刚刚起步,面向未来,其产业化落地必然会助推AI算力持续高速增长,仍有三大挑战并存。

首先是系统规模扩展接近工程极限,智能体对多模态交互、实时推理的需求,推动算力集群向更大规模、更高互联效率演进,但硬件与网络的物理限制日益凸显;

其次是算力大规模增长对电力基础设施带来挑战,智能体的高并发交互带来算力功耗的指数级增长,单个智算中心的电力需求已达数吉瓦级别;

最后是算力投入和产出失衡,商业兑现进程缓慢,智能体产业化仍处于高投入、低回报阶段,其面临GPU利用率低、尚未形成成熟盈利模式等困境。

这也进一步印证了,效率导向的重要性。刘军补充说,智能体时代加速发展,从人机交互到机机交互,都意味着思考问题的角度要随之变化。当下应从规模导向转向效率导向,采用算法硬件化的专用计算架构,探索开发大模型芯片,实现软硬件深度优化,是未来的发展方向。

结语:大模型重塑AI生态,算力革命紧随其后

大模型发展日新月异,从唯参数论到应用落地,推理需求增长、智能体出现等,其对底层算力玩家提出的需求也在发生变化。

因此企业在应对AI算力挑战时,不能仅停留在解决当下的性能瓶颈与资源紧张等表层痛点,更需穿透问题表象,深挖制约算力效率提升与规模化应用的核心桎梏,在此基础上,浪潮信息通过前瞻性视角布局技术与架构创新,为未来AI规模化落地筑牢技术根基。

(来源:新浪科技)



用户登录