万字回顾首届中国AI算力大会!15+位大咖主会场演讲精华爆棚,来没来都值得收藏
作者 | 中国AI算力大会
6月26日,一场干货爆棚的AI算力盛会,在北京灿烂盛夏中热烈召开。
以大模型、生成式AI为代表的新一轮人工智能浪潮的滚滚向前,催生出前所未有的AI算力需求,算力是数字经济时代的新质生产力,更是人工智能发展的基石。
2025年,以DeepSeek为代表的国产大模型强势突围,在全球引爆部署热潮和AI应用开发热潮,也给国内AI算力市场注入新的活力,推动AI推理算力需求暴涨,超大规模集群鳞次栉比,而需求的爆发也带来诸多挑战,酝酿新的行业变化。
为此,我们发起了一场聚焦前沿技术与产业趋势的夏日AI聚会——2025中国AI算力大会。
从国产AI算力的突围与崛起,到智算中心深层软硬件技术创新解决算力落地产业难题,近30位重量级嘉宾与会带来致辞、报告、演讲和对话,全方位解构DeepSeek引爆的AI算力变局,全场金句频频,各路大佬观点持续碰撞擦出火花,现场参会人数超过850人。
在会场外的展区,Alluxio、研惠通、惠普、白山云科技、中昊芯英、中科加禾、科华数据、行云集成电路等8家企业亮出了他们的最新技术和产品,展区人头攒动,交流热情氛围浓厚。
▲展区
由智一科技旗下智猩猩与智东西共同发起主办、芯东西协办的首届AI算力大会,围绕AI算力产业变局与创新、AI推理算力、智算中心、智算集群异构混训、超节点等话题设置议程,主会场包括高峰论坛、AI推理算力专题论坛和智算中心专题论坛;分会场为闭门制,组织了智算集群异构混训技术研讨会、超节点技术研讨会。
▲联想集团Game of AI科普视频在大会展播:联想海神全液冷解决方案,革命性提升AI推理时代算力
智一科技联合创始人、CEO龚伦常在大会致辞环节宣布:中国AI算力大会正式成为“智领未来”北京人工智能系列品牌活动之一。
“智领未来”是北京市科委、中关村管委会打造的北京市人工智能领域的活动品牌。同样作为“智领未来”北京人工智能系列品牌活动之一的中国生成式AI大会已于今年4月1日-2日圆满举行。
龚伦常还预告了将于下半年举行的两场大型品牌活动:9月在上海举办第七届全球AI芯片峰会,11月在深圳举办2025中国具身智能机器人大会。
▲智一科技联合创始人、CEO龚伦常
智算集群异构混训、超节点两场技术研讨会在分会场圆满举办。壁仞科技AI软件首席架构师丁云帆、中国移动研究院网络与IT技术研究所技术经理班有容、北京智源人工智能研究院AI框架研发负责人敖玉龙、上海人工智能实验室编译计算与国产化团队负责人裴芝林、商汤大装置技术产品总监刘叶枫在智算集群异构混训技术研讨会做了报告分享。
阿里云基础设施异构硬件和系统及解决方案资深总监卢晓伟、中国移动研究院网络与IT技术研究所技术经理王鹏、奇异摩尔首席网络架构专家叶栋、曦智科技联合创始人兼首席技术官孟怀宇围绕超节点进行了不同视角的报告分享。中信建投证券科技行业首席分析师阎贵成主持了超节点技术研讨会及圆桌Panel。
▲分会场
接下来我们将为大家带来主会场三大论坛15+位分享嘉宾的演讲和对话精华。
一、高峰论坛:从千芯节点到千亿大模型,国产AI芯片生态迸发旺盛活力
AI已成为数据中心增长的核心驱动力。大模型迭代拉动算力需求暴增,推动计算、存储、网络基础设施全面升级。在大模型训练与部署需求旺盛的背景下,如何更充分地利用闲置算力,国产AI芯片发展到了怎样的新阶段,有哪些优化大模型推理效果的创新技术?6位嘉宾分享了他们对产业最新风向的观察与探索。
1、信通院陈屹力:“算力荒”与“算力闲置”共存,算力互联互通、AI云成焦点
中国信息通信研究院云大所副总工程师陈屹力谈道,当下AI大规模应用促使智能算力需求激增,AI 云成为全球AI浪潮角逐的焦点。其中AI云基础设施需覆盖异构高效调度能力、一云多模能力、专家知识大脑等多方面。AI云平台推动AI应用的智能、便捷构建,提升国际影响力、助力生态繁荣。
随任务型智算应用兴起,对算力资源的定位、调度、部署效率提出更高要求。中国信通院联合产业各方探索构建算力互联网,积极推进算力标识、算力调度、传输协议、应用适配等方面技术研究,加快现有算力“局域网”间互联互通,逐步建立标准体系,形成算力互联网体系架构,核心解决算力“找调用”挑战,逐步形成具备智能感知、实时发现、随需获取的算力互联网。
▲中国信息通信研究院云大所副总工程师陈屹力
2、摩尔线程王华:算力需求千倍增长,大集群和FP8成为强需求
摩尔线程副总裁王华引用了一些研究数据:2020至2025年间,大模型训练的算力需求提升近1000倍 ,驱动力来自参数规模与数据量双向增长。以DeepSeek-V3为例,其训练所需算力达10²⁴级别,在万卡集群上可将训练时间压缩至13天内完成 。
为应对算力需求,摩尔线程提供包括FP8在内的全精度算力,有效支持混合精度训练,大幅提升训练效率;部署万卡集群,研发完整的软硬件栈,提供开箱即用的产品,快速满足大模型训练的算力需求;打造丰富的集群监控和诊断能力,针对大规模集群实现分钟级故障定位。
此外,摩尔线程构建了支持FP8、BF16、FP32等数据类型的混合精度训练方案,开源Torch-MUSA、MT-MegatronLM与MT-TransformerEngine等大模型训练组件,已完成DeepSeek-V3的混合精度训练复现。在多个模型上的实验结果表明,其方案整体性能提升可达20%–30%,训练精度与业界主流保持一致。
▲摩尔线程副总裁王华
3、中昊芯英杨龚轶凡:解读TPU架构创新设计,国产AI芯片如何抓住本土机遇
中昊芯英创始人、CEO杨龚轶凡谈道,AI专用芯片是AI Infra的必然发展趋势,TPU架构为AI大模型而生,采用多维度计算单元来优化数据复用,提高计算效率,并通过更激进的数据传输策略和更小的控制单元,给片上存储器和运算单元留下更大空间,其可扩展性也更适合超大规模计算。
中昊芯英全自研高性能TPU架构AI芯片“刹那”于2023年已成功流片并实现量产,其计算性能较海外某知名GPU芯片提升近1.5倍。基于“刹那”的高性能AI服务器及大规模AI计算集群“泰则”,支持1024卡高速互联,可支撑超千亿参数大模型计算。
随着大模型成本下移,AI芯片架构开始深度适配动态稀疏计算范式,形成“算法定义硬件”的新研发模式。降低对CUDA生态的依赖后,国产Al芯片将通过提供定制化工具链、优化编译器等方式,在架构设计上更加灵活适应新的本土趋势和需求。
▲中昊芯英创始人、CEO杨龚轶凡
4、魔形智能徐凌杰:大模型需要“千芯”超节点,未来架构有五大关键因素
魔形智能科技创始人、CEO徐凌杰幽默开场:“过去十年,中国最值钱的是房地产行业。未来最值钱的,可能还是房地产,只不过住的不是人,而是机器。”
研究数据显示,全球数据中心总耗电量与单个发达国家相当。更强的大模型需要大集群,更快的大模型需要超节点,更大的高带宽互联域是超节点设计的核心。当前算力密度远不够高,要达到与人脑相当的算力密度,需要构建“千芯”超节点,构建可重构的AI算力中心。
如何构建千芯互连网络?徐凌杰总结了未来超节点架构的5大关键因素:超高密度算力节点,千芯多机柜级联背板连接,800V供电输入,交换芯片全互联,全覆盖式冷却。
他还分享了下一代算力基础设施对芯片提出的3大要求:板级&封装级灵活组合与解耦,整合光电共封装设计,Cluster First的产品理念。软硬协同将释放超大集群的潜力。
▲魔形智能科技创始人、CEO徐凌杰
5、中科加禾崔慧敏:AI编译优化跃升推理性能,有效扩展国产AI芯片生态
中国科学院计算技术研究所研究员、中科加禾创始人崔慧敏谈道,大模型推理私有化部署需求大涨,但面临硬件繁多、需求多元、多模部署等多重挑战。
中科加禾围绕编译优化构建大模型推理的引擎和软件栈,积累了大量实践案例:在推理引擎中实施深度显存优化,有效提高显存利用率;在大规模推理中实现多维并行策略,有效利用计算、访存、通信资源;基于多项联合优化,推理技术在某互联网厂商合作中将QPS提升50%以上,并在昇腾910B平台私有化部署场景下有效支持128K长上下文。
长期来看,基于AI编译技术,构建一套底层公共的编译支撑,能够长期有效解决AI生态碎片化及生态融合问题。
▲中国科学院计算技术研究所研究员、中科加禾创始人崔慧敏
6、趋境科技陈祥麟:千亿大模型的异构推理新路径
趋境科技技术负责人陈祥麟分享了大模型推理的技术创新。他认为大模型私有化推理架构将从传统的以GPU为中心转向全系统异构协同,需要充分提升算力利用率。
团队首创全系统异构协同与以存换算技术,充分利用底层GPU、CPU、存储等硬件设备算力,通过基于计算强度的offload策略、CPU/GPU的高性能算子改造、MTP等算力优化方法,以及prefix cache等融合推理策略,提升全系统算力,将大模型推理门槛降低至1/10。
趋境科技与清华KVCache.AI团队共同开源的异构推理框架KTranformers,能够利用单张消费级GPU+CPU异构推理DeepSeek-671B-r1/v3,decode速度最高达到20+ tokens/s。
同时参与月之暗面、清华MADSys实验室等多个产学研机构开源的项目Mooncake,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。
▲趋境科技研发负责人陈祥麟
二、高端对话:国产AI算力的突围与崛起,中美差距正逐步缩小
以《国产AI算力的突围与崛起》为主题的高端对话,由智一科技联合创始人、智车芯产媒矩阵总编辑张国仁主持,中昊芯英创始人兼CEO杨龚轶凡,魔形智能科技创始人、CEO徐凌杰,中科加禾联合创始人兼CTO陈龙三位嘉宾进行分享。
张国仁谈道,从2018年AI芯片峰会到如今AI算力峰会,他感触最深的是国内企业对自己的产品、公司发展都表现得愈发云淡风轻。
▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁
1、国产算力与全球差距仍然存在
面对国产算力在全球发展中的地位,陈龙谈道,国内厂商已掌握算力底层技术,但在PyTorch等主流训练框架适配方面仍处于跟随、陪跑阶段。
杨龚轶凡从硬件的设计和生产两方面进行了比较:生产差距存在,但预测将在3-5年内逐步缩小;而在设计层面,从学术研究、论文创新性等角度看,设计的差距更大。随着模型算法收敛,更多创新型架构、设计出现,国外诸多路线已发展到产品落地,国内厂商需要共同拓展生态。
▲中昊芯英创始人兼CEO杨龚轶凡
徐凌杰认为,在如何做优秀的GPU、如何搭建生态、如何做集群等方面,中美认知差距正不断缩小。但实际产业中,差距进一步扩大,企业需要从底层供应链突破。
2、算力仍是资源导向型市场
对于国产算力的市场化,徐凌杰判断,政府、资源导向型的现状未来几年不会有很大改变,芯片晶圆、制程以及芯片创企在国产生态中的成长,都需要政府扶持。芯片公司的机会是通过更强互联、集群打造差异化,找到商业化落脚点。
杨龚轶凡同样认为,资源导向型走向市场导向型是一个过程,在半导体行业,老的生产制程永远比新的生产制程性价比低,生产制程每迭代一次会有4倍的性价比提升,这就导致纯国产芯片的性价比更低,需要政府扶持拉通生产工艺的产业链。
陈龙从应用层面进行分析,谈到国家的扶持很必要,企业通过软硬件优化降低了部署成本,但消费侧拉动还不够强,现状是上一代芯片尚没有完全落地应用,下一代芯片已经出来了,因此核心是要发掘更有价值的应用。
▲中科加禾联合创始人兼CTO陈龙
3、专用芯片、编译技术、超节点,是未来发展方向
杨龚轶凡坚信专用芯片是未来的发展方向,在通用性需求大幅降低的情况下,可以抛弃部分通用性,增加芯片核心的性能和性价比。越专越好,是在满足一定可控性和变化下的结果。
围绕编译技术在解决国产芯片面临的风险,陈龙认为,它是将专家的经验泛化、普适化的一种技术手段。编译技术最开始产生是为了弥补人的思维和机器能接受信息之间的鸿沟,使开发效率提升上百倍。
徐凌杰着重谈到超节点的发展方向,在大模型领域,类似MoE的创新结合超节点会有更大收益,即更大的问题用更大的集群解决,更大的集群反哺系统,从而做出更大的模型。
▲魔形智能科技创始人、CEO徐凌杰
4、算力产业格局未定
谈到全球算力产业的产业格局,陈龙认为,虽然国内巨头有积累优势,但产业规模足够大,且需求多元化,将来企业将百花齐放。
杨龚轶凡的观点更为激进:首先,3-5年内形成产业格局的可能性不高,目前仍是企业相互竞争、高速发展变革的过程;其次,资源型市场的天然属性决定了其很难形成垄断,且巨头穿越周期能力弱,因此AI产业爆发后市场格局会洗牌,初创公司或许会通过更好的组织形式去适应产业发展。
行业的重要性、资本周期发展对产业发展都会有影响。徐凌杰相信,算力变得越来越有吸引力,自然会有更多的钱涌入,会出现巨头被冲击、新生势力冒出的场景。创企和巨头需要找准自己的定位,通过“整合”变成更强实体可能是一条发展路径。
如今中国算力规模已在全球排名第二,被预测有望影响全球AI 竞赛格局。陈龙认为,AI算力市场规模和国家GDP发展成正比关系,当国家GDP反超或许是国产算力格局更进一步的机会。杨龚轶凡提到投入产出比,目前美国和中国算力开销差10倍,当投入量逐步赶上才会有变化。徐凌杰认为未来当AI赋能千行百业,算力真正变成生产力时,就是一个巨大的机会。
三、专题论坛:从软硬协同到端边云协同,底层技术创新突破AI算力瓶颈
下午场火热继续,在AI推理算力专题论坛和智算中心专题论坛中,来自行云集成电路、安谋科技、实在智能、白山云科技、Alluxio、浩云长盛集团、上海矩向科技、趋动科技的8位嘉宾带来了精彩演讲。
如何突破大模型推理芯片的核心瓶颈、如何实现出色的端侧模型性能?超大规模智算中心面临的数据、成本功耗、算力利用率等方面的一系列难题要如何破解?我们都将找到答案。
1、行云余洪敏:只有软硬件协同创新才能突破大模型推理芯片的核心瓶颈
行云联合创始人、CTO余洪敏谈道,高质量大模型最核心的需求就是极其变态的内存需求,既要带宽,又要容量。推理芯片核心瓶颈有:显存容量,价格高昂,只有通过软硬件协同创新才能解决。
行云致力于把AI基础设施从超算变成消费电子竞争,褐蚁是第一个十万元级运行DeepSeek满血671B、FP8非量化且对话速度在20TPS以上的解决方案,用数量级碾压的竞争力让全行业对AI超算祛魅。
近期行云将推出蚁群,实现500~1000有效并发下最高质量模型的流畅体验,价格在300~400万价位,接近DeepSeek公有云的性价比;此外,计划在明年年底推出自研GPU芯片,相比褐蚁性能将有数倍提升,集群化后,相比蚁群可以数倍提高有效并发。
▲行云集成电路联合创始人、CTO余洪敏
2、安谋科技鲍敏祺:NPU如何助力端侧设备突破内存、算力、功耗三堵墙?
安谋科技产品总监鲍敏祺观察到,端侧设备正逐步承担更多AI计算任务,端侧AI模型在算法迭代、上下文长度扩展和模型理解力提升等方面进展迅速。
随着模型的演进,端侧AI硬件也面临新的需求:一是算力需求持续增长,计算精度从INT向FLOAT转变,需通过多核协同实现算力提升;二是大模型对带宽要求更高,可通过提升数据本地化程度减少数据传输距离,从而优化能效比;三是需要优化硬件中向量计算与矩阵计算的配比。
为应对“内存墙”、“算力墙”和“功耗墙”三大挑战,安谋科技正升级其自研“周易”NPU产品,如扩展数据类型支持、新增W4A16硬件加速和DSA加速功能、提供更为丰富的算子库等,持续驱动终端算力跃迁,助力产业把握端侧AI“芯”机遇。
▲安谋科技产品总监鲍敏祺
3、实在智能欧阳小刚:Agent端侧性能超GPT-4o 10%,一体机30分钟开箱部署
实在智能合伙人、核心算法负责人欧阳小刚提到,算力需求与场景落地的双向倒逼,正推动智能体技术端侧的探索革新。
其公司行业首发的通用智能体“实在Agent”,专注跨系统、链接各类软件的办公流程自动化。其自研的实在TARS大模型和TARS-VL大模型分别在垂域任务理解性能超越GPT-4o达10个百分点,GUI多模态理解能力领先3%,而通用能力几乎无损;同时,该模型支持私有化部署,深度融合RPA与智能体工作流,实现浏览器、桌面应用、移动端的无缝操作,支持一键流程编辑和智能体共享,降低30%重复开发成本。
欧阳小刚提到与惠普联合打造的Z系列数字员工一体机:基于HP Z8 Fury G5工作站,得益于四块NVIDIA 5880 Ada的强大算力,开箱30分钟完成部署,核心业务数据全程本地处理。
▲实在智能合伙人、核心算法负责人欧阳小刚
4、 白山云科技李金锋:以边缘计算破解AI推理时延与成本难题
白山云科技智算产品研发负责人李金锋谈到,AI推理面临网络时延与成本挑战,对边缘计算的需求日益增长。当前的云边端架构依然适用:中心云集中计算,追求性能极致优化;边缘云在靠近用户处提供算力,作为重要补充,现可处理百亿参数内大模型推理,显著降低时延;终端算力则在保障数据隐私场景中发挥作用。
针对边缘云节点分散带来的算力管理难、任务调度复杂和单节点资源有限等挑战,李金锋介绍可通过全网任务调度、弹性算力调度、模型加载优化及单节点推理性能优化等方式解决。
依托覆盖全球的1700多个具备计算、存储、安全能力的数据节点及150多个海外运营商资源,白山云能轻松升级GPU算力,有力支撑边缘推理服务。
▲白山云科技智算产品研发负责人李金锋
5、Alluxio傅正佳:用去中心化架构方案,解决AI数据湖困境
Alluxio首席架构师傅正佳谈道,AI 数据全链路各环节面临的不同难题,以及环节间数据交互导致的资源浪费与效率低下,其本质都是数据湖困境的体现。
Alluxio介于分布式计算框架与存储系统之间,可以做到对当前AI Infra“零改造无侵入”,并提升数据安全性,还可以统一纳管数据孤岛,提供高性能缓存层。Alluxio采用去中心化架构,支持100亿以上对象,能够降低数据工程复杂度与成本,提升模型迭代效率与数据方向速度。
Alluxio的核心技术包括协议转换、数据缓存层以及虚拟数据湖等,可应用于智驾、机器学习训练、智算、AI模型分发、科学计算等场景。基准测试显示,其性能与全球顶尖并行系统持平,成本更低,GPU利用率可达95%及以上。
▲Alluxio首席架构师傅正佳
6、浩云长盛赵亮:智算时代数据中心变革,液冷、超高压直流成大势所趋
浩云长盛集团首席增长官(CGO)赵亮称,随着智算时代的到来,数据中心的算力密度不断提升,同时,大模型推理和训推一体的需求也在增长。
这些变化对数据中心的供电和制冷系统提出了巨大挑战,设计和架构需要重大调整。如今,数据中心应配备更高的层高和更强的承重能力,以满足密度的提升,随之而来的散热问题让液冷成为必然选择。在电力层面,能够减少能源转换损耗、提升电力运营效率的高压直流技术正获得广泛采用。
此外,数据中心的选址也至关重要,需综合考虑电力供应便利性、运维便利性、算力设备梯级利用和实际应用场景,而非简单地将其布局在能源成本较低的地区,因此把训推一体智算中心建设在一线城市周边更有优势。
▲浩云长盛集团首席增长官CGO赵亮
7、矩向科技黄朝波:模算云破局算力浪费,毛利跃升超10倍
上海矩向科技创始人兼CEO黄朝波指出,当前智算中心深陷无序建设、架构封闭、远离业务场景三重困局,导致区域算力闲置、资源利用率不足。
传统硬件堆砌模式已无法满足AI爆发需求,唯有通过整合算力、模型与应用的模算云平台重构价值链,将电力转化为算力、模型力,并深加工为应用赋能能力,以此来实现算力服务毛利的跃迁。以3000P AI算力为例,服务毛利从智算中心的1亿飙升至模算云的10多亿,增幅超10倍。
模算云模式以轻资产实现高产出:政府可统筹闲置算力赋能中小企业,企业可通过开箱即用的MaaS服务降低AI门槛;技术上采用异构协同,国产芯片覆盖80%计算量,英伟达GPU兜底剩余需求,同时结合云边端协同,进一步降低推理成本,缩短业务落地周期。
▲上海矩向科技创始人兼CEO黄朝波
8、趋动科技张增金:通用行业GPU利用率不足30%,软件定义AI算力成必然趋势
趋动科技技术总监张增金指出,尽管生成式AI算力市场热度高涨,但非生成式AI的规模仍是其两倍,从运营层面来看,蕴藏着巨大的收入潜力(IDC 2025)。在国内众多智算场景中,GPU平均利用率低至5%左右,主要原因在于异构资源分配方式粗放、调度机制缺失以及管理效率低下等问题。
采用软件定义AI算力的模式,通过软件对算力基础设施进行重新构建,实现硬件资源的按需动态调用,能够有效解决当前异构硬件利用率低、调度模式僵化等难题,避免因资源管理不善而引发的系统瓶颈。
张增金表示,未来,软件定义将成为智算中心的关键发展方向。在一系列行业实践中,趋动科技借助软件定义技术,助力某客户将整体GPU平均利用率从8%提升至35%,峰值平均利用率从15%跃升至60%。目前,趋动科技已与数百家家来自运营商、金融、能源电力、制造业等领域的客户展开了深度合作。
▲趋动科技技术总监张增金
结语:中国AI算力蓬勃向前,技术创新加速涌现
在中美博弈的背景下,国产大模型们强势突围,带动了国内AI算力需求的持续增长,算力需求发生结构性变化、推理算力需求增速远超预期,中国AI算力产业不断迎来新的机遇和挑战,诸多优秀企业通过技术创新破解算力难题,加速AI的产业化落地。
站在技术与产业共振的历史节点,我们每一个人,都正在见证和参与一场激动人心的技术跃迁。随着Agent浪潮的涌起、端侧智能的加速落地、具身智能的觉醒、产业AI加速赋能,AGI的曙光正离我们越来越近。
中国AI算力产业必将乘着这股劲流扬帆起航,驶向更广阔的AI星辰大海。
(来源:新浪科技)