中信证券:系统级算力有望成为下一代AI算力基础设施

2025年06月26日,08时08分19秒 机构观点 阅读 12 views 次

中信证券研报指出,当前AI大模型的训练、推理需求持续旺盛发展,scaling law在后训练、在线推理等方向上持续演进。底层基础设施朝着更大集群的方向发展,单芯片的算力提升在先进制程的影响下未来迭代速度料将放缓,而系统级节点有望通过解决互连、网络、内存墙等问题成为AI算力发展的重要方向。从近期算力龙头企业系统级产品的发展趋势以及过往半导体行业的并购历史来看,系统级算力有望成为AI发展的下一站,国产GPU芯片公司有望通过打造更高资源密度的算力基础设施实现对海外产品的追赶和超越。建议关注:1)英伟达NVL72等系统级产品出货情况;2)以华为CloudMatrix384超节点为代表的国产系统级产品进展,建议关注国内产业链相关公司。

全文如下

计算机|从华为384超节点看下一代AI系统级算力

大模型架构创新以及推理需求的日益增长对底层基础设施建设提出了新的要求,面向未来的AI基础设施须具备前瞻性、通用性。当前,单芯片算力提升对算力集群能力提升的边际效应在递减,内存通信、片间互连、网络通信成为瓶颈。为解决这一问题,技术角度,产业迈向Scale up扩展,通过提升单节点计算资源密度及高效的网络架构提升算力利用率。行业趋势上,半导体芯片行业通常以收并购的方式获取技术能力及市场拓展,以海外为代表的龙头公司做出了成功示范。系统级算力有望成为AI基础设施的下一站,建议关注国内以华为CloudMatrix384超节点为代表的产业发展趋势。

系统级算力有望成为下一代AI算力基础设施。

我们认为,底层基础设施的通用性就是为了前瞻性地应对未来的模型发展。当前AI产业发展迅速,Scaling law在后训练、在线推理等阶段快速发展。训练端,模型架构持续创新迭代,有望进一步强化训练侧scaling law的延续,如阿里巴巴Qwen团队与浙江大学团队提出的Parallel Scaling、腾讯混元团队采用Transformer、Mamba混合架构训练的TurboS都取得了优秀的性能表现。推理端,在MoE专家网络架构成为主流后,如何通过硬件部署实现更高的吞吐量和更低的延时成为焦点。我们认为,采用类似推理集群的形式未来有望成为主流,计算节点有望通过提升计算密度满足推理需求。系统级算力料将成为下一代AI算力基础设施。

▍系统级算力需要系统级能力。

芯片层面,算力集群中涉及AI加速芯片、CPU芯片、Switch互连芯片、DPU数据处理芯片等,受限制于制程,国产AI加速芯片在峰值算力能力领域上相较于海外旗舰产品仍有差距,软件生态上亦因产业发展时长而相对落后,单芯片能力的竞争并无直接优势。互连层面,传统PCIe与英伟达NVLink等差距较大,NVLink5.0提供1.8TB/s双向带宽,超传统PCIe方案的十倍,国产芯片采用自研技术方案助力系统集群发展。网络层面,系统算力采用RDMA技术实现远程内存访问,目前主流技术方案包括InfiniBand、RoCE等。整机层面,系统级算力并非是上述部件的简单组装,而是通过系统设计、规划、测试完成的有机整体,与以往传统AI服务器相比更需要垂直融合能力,产业上下游之间的关系也将随着组件之间耦合程度的提升而变得更加紧密。生态层面,CPU+GPU+互连+网络+整机+系统交付成为系统级算力入局门槛,海外巨头通过收并购的方式已构筑起产业生态。

▍技术角度,英伟达NVL72、华为CloudMatrix384超节点先行示范。

当前,单芯片算力能力的发展已显著快于通信领域的发展速度,通信效率成为集群效率提升的关键因素。构建大集群的方式主要两种:1)Scale up(纵向扩展),增加单节点的资源数量;2)Scale out(横向扩展),增加节点数量。相较于Scale out网络,Scale up能够提供更大的带宽、更低的通信时延,和更大的缓存一致性内存空间,因此Scale up即在单节点增加资源数量成为未来发展的重要方向,如2024年3月英伟达在2024GTC大会上发布的NVL72系统、2025年4月华为在华为云生态大会上发布的CloudMatrix384超节点为行业发展提供思路。

▍产业维度,半导体行业通常以收并购方式进行技术整合与市场拓展。

半导体行业长坡厚雪,产业链涉及环节较多且技术复杂,整机资源耦合程度提升,上下游协作变得愈发紧密。因此,头部企业通常采用投资并购的方式来获取进入市场的机会,同时进一步扩展技术能力以巩固市场地位。英伟达通过收购Mellanox,将原有的NVLink(主要用于Scale up)连接技术,扩展至IB等RDMA网络(用于Scale out),从而为下一代大规模计算集群做好技术储备;AMD通过收购ZT Systems获取了系统架构设计能力以及数据中心解决方案交付经验,EPYC CPU以及Instinct GPU、网络、软件及ZT Systems的集群系统交付能力共同构建了AI解决方案的核心。我们总结,在面向未来基础设施搭建的领域,底层通用性与技术前瞻性是至关重要的,在此基础上,应用的发展将会随之带来回报。

风险因素:

算力芯片供应链风险;芯片产能供给不足的风险;互联网大厂资本开支不及预期的风险;相关产业政策不及预期的风险;AI应用发展不及预期的风险;芯片技术迭代不及预期的风险;国产GPU厂商竞争加剧的风险等。

▍投资策略

当前AI大模型的训练、推理需求持续旺盛发展,scaling law在后训练、在线推理等方向上持续演进。底层基础设施朝着更大集群的方向发展,单芯片的算力提升在先进制程的影响下未来迭代速度料将放缓,而系统级节点有望通过解决互连、网络、内存墙等问题成为AI算力发展的重要方向。从近期算力龙头企业系统级产品的发展趋势以及过往半导体行业的并购历史来看,系统级算力有望成为AI发展的下一站,国产GPU芯片公司有望通过打造更高资源密度的算力基础设施实现对海外产品的追赶和超越。建议关注:1)英伟达NVL72等系统级产品出货情况;2)以华为CloudMatrix384超节点为代表的国产系统级产品进展,建议关注国内产业链相关公司。

(来源:天天基金网)



用户登录