“不好用”还“不好买”,国产算力的希望在下一代?
![]()
如今的国产算力可以说是“冰火两重天”,一面是国内厂商“一卡难求”;另一面是即便是诸如银行这样信创要求极高的行业,也会通过算力服务的方式使用英伟达的芯片。而就是在这个国产算力即“不好买”,又“不好用”的时代交叉路口,华为提出的韬定律让国产算力又一次成为万众瞩目的焦点,虽然国产算力与国际一流之间的鸿沟并不会随着华为提出韬定律而被磨平,但韬定律至少在追赶的路上,为国产算力的崛起提供了一个思路。
荆棘满途的崛起之路
2026年开年,国产算力赛道迎来一系列高光时刻:摩尔线程、沐曦相继登陆科创板,壁仞科技、天数智芯扎堆港股挂牌,短短一个多月,四家企业合计募资超百亿港元。几乎同期,智谱新一代旗舰模型GLM-5完成了对华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等七大国产芯片平台的深度推理适配。IDC数据显示,2025年中国AI加速卡市场中国产份额已达41%,2026年更升至超60%。
然而,在这些“高光”背后,一个更为复杂且真实的国产算力生态画像正在浮现。算力服务商并行科技的国产算力业务仅占整体的“百分之几”;推理服务商是石科技超过70%的算力仍依赖英伟达;即便在已经部署国产算力的壹检健康测试案例中,软硬件适配过程仍充满曲折。从“能用”到“好用”,国产算力正在经历一场从工程化、生态化到规模化的“爬坡”马拉松。
“适配”不是一次性的点亮,而是持续博弈的长跑。对于大多数用户而言,国产卡最直接的痛点仍然是一个字,“难”。
国内某企业在测评国产卡用于影视创作平台时,算是一路上踩坑无数。“因为很多厂家直接把裸机给我们,让我们自己部署。国产卡整个生态还是存在一些问题,每家多少有些差异,比如底层算子的问题、包依赖的问题,甚至包括驱动的问题都存在。”该企业项目负责人如是说。更棘手的是,测试环境的整体指标表现平稳,一到线上环境便出现性能逐渐下降的诡异状况,结果查到底是底层某个包依赖的问题。“平台上有一万多张卡,我到现在都还没跟他们扯清楚,线上一万多张卡,怎么保证环境没问题?”
“适配”这个词在纸面上意味着“能用”,但在实际工程中,它是一场持久战。即便是华为昇腾这样的国产领头羊,在首个万卡集群落地时,也是“派了几百人的团队一直在那边调试”。这揭示了一个深层困境:对大多数应用厂商而言,用户本身只会为成果买单,“如果我现在有足够的英伟达卡,我肯定会去用,因为我天天在上面跑,可以直接用起来。但对于国产卡,如果需要花时间去适配,生产就会受到影响,这件事无法强行让用户去做”盐城超级计算中心副主任、是石科技(平湖)有限公司联合创始人毛运航告诉笔者。
从硬实力看,国产卡在算力指标上确实在不断逼近国际主流水平。以华为昇腾950系列为例,950PR实测FP4算力约为英伟达H20的2.87倍,是“国内唯一支持FP4低精度推理的商用产品”,其Atlas 950超节点支持8192颗昇腾950DT芯片,互联带宽达62倍于英伟达NVL144。然而这些光鲜的峰值数据与实际应用中的表现仍有鸿沟。就像毛运航在总结超算经验时一针见血:“峰值性能只是理论性能,实际应用中能用到百分之十几就已经很不错了。”
除了适配方面的问题之外,据笔者了解,尽管当前国产卡整体的能力不尽如人意,但当前国产卡却仍面临着“一卡难求”的困境。很多用户的潜意识里,买不到英伟达卡就买国产卡,但问题在于国产卡同样不那么好买。并行科技国产算力负责人坦言,“国内的卡确实是一卡难求,流量暴涨了几倍甚至十几倍,但卡的上新速度却很慢,国产卡也基本都不愁卖,主要还是因为这个推理的需求太大了”
从华为的公开数据来看,2026年计划生产约60万枚910C及75万颗950PR,总产量达160万片。然而,受芯片制造设备限制,市场普遍预期“昇腾950系列的产量仍将远低于需求”。在中国AI算力需求呈指数级飙升的背景下,这样的产能并不足以覆盖市场的庞大体量。据华为估计,到2030年人工智能基础设施支出将达到3万亿至4万亿美元。也就是说,国产算力的产能瓶颈,有可能成为其规模化最大的天花板。
如果说硬件的差距是看得见的挑战,那么软件生态的鸿沟则是更隐蔽也更难跨越的“高山”。
以英伟达CUDA为例,该生态“拥有超400万开发者、2500+加速库,95%以上AI框架原生支持”。作为对比,摩尔线程MUSA的开发者数量约为45万,华为CANN虽然兼容率达到95%但绑定MindSpore生态,整体迁移损耗仍达20%—40%。
在这个生态困局中,调优的碎片化、高昂的迁移成本、跨平台的稳定性能问题,构成一个相互交织的因果链。每一家采用国产卡的企业,都必须正面应对的痛苦过程,“需要不断花时间去积累”,毛运航指出。
麒麟软件作为国产底层操作系统核心厂商,麒麟软件有限公司 麒麟软件副总经理姚翎明确表示,当前国产算力生态最大的痛点是多架构适配难度极高。不同国产芯片厂商的底层架构、驱动程序、算子逻辑各不相同,无统一兼容标准,导致上层应用软件、模型适配需要针对每一款芯片单独开发、单独调优,极大增加了企业的研发与运维成本。对于中小企业而言,单独适配一款国产芯片需要投入大量工程师人力,开发周期长达3-6个月,单项目前期适配成本可达数十万元,后续规模化部署更是需要千万级投入,极高的适配门槛让大量企业望而却步。
而这些痛点也造成一个现实的现象:国产卡离国际一流水平仍很大,这也导致了很多企业即便有国产化的要求,还是通过种种方式“合规”的使用非国产卡。
以国产化做的比较早且比较好的金融行业为例,金融行业在强监管的背景下,AI应用深度在众多行业中算是深度较浅的行业,但在诸如精准营销、风控等AI应用场景下,依旧会选择通过算力服务的方式,使用一些非国产卡。造成这种情况主要有两个,其一是当前AI发展速度较快,这也推动了芯片迭代的加速,购置的方式不如租赁的方式性价比高;其二是,在AI加速卡方面,英伟达等海外厂商的优势明显,“很多银行都会通过‘租买’同步的方式,购置一部分国产卡,同时通过第三方算力服务公司,使用一些非国产卡,”国内某头部金融IT解决方案供应商相关负责人进一步解释道,“因为监管要求只停留在第一层使用的是否是国产算力,只要银行在租赁算力服务的时候,选择国内的算力服务商即可,至于服务商使用的是什么卡,就不受监管影响了。”
“曙光”在下一代?
如果说当前是国产算力的“磨难期”,那么面向未来,行业内绝大多数从业者都认为,国产算力的规模化扩张期即将到来。而其中最值得关注的转折点,莫过于业界普遍期待,预计今年年底将陆续量产的新一代国产芯片产品。许多人将这一轮产品迭代视为国产算力从“追赶”到“并跑”的关键窗口。
当前市面上的国产卡多为上一代或上两代产品,其性能与英伟达H100、H200等主流训练卡存在明显差距。并行科技国产算力负责人坦率地指出,“上一代的国产卡性能综合表现仍有不小提升余地,局部测试大致相当于主流卡的60%-70%的性能水准”。另一方面,上一代产品大多仅支持INT8精度,这在处理复杂大模型时成为明显的瓶颈。
然而,多位产业人士都不约而同地将希望寄托于“下一代”产品。目前行业普遍的观点是:未来半年至一年,将是国产算力产业的关键转折点。新一代高精度、高性能算力芯片集中投产,将彻底改变当前国产算力性能不足、场景受限的格局。
行业普遍预判,2025年底至2026年初,各大厂商新一代国产算力芯片将完成内测、试点,实现规模化商用落地。相较于上一代产品,新一代芯片全面突破int8精度限制,支持FP4、FP8高精度运算,单卡算力性能可对标英伟达H100、B300等主流高端芯片,彻底补齐硬件核心短板。“在下一代的产品规划中,首先大家都提到自己能够支持FP8,甚至有的支持FP4。除此之外,在计算上又能够把计算性能拉齐英伟达的高端卡”,并行科技国产算力负责人表示。这意味着,新一代国产芯片在低精度推理这一大模型核心场景中,有望与英伟达当前的主流产品站在同一起跑线上。
具体到各厂商的路线图,信息也逐渐清晰。海光方面明确表示将“保持一年一迭代”的节奏,新一代产品在算力和能效上会有“比较大的提升”,预计今年年底左右进入投产阶段;摩尔线程则已经推出了新一代全功能GPU架构“花港”,可以支持十万卡以上规模的智算集群扩展,其旗舰产品在DeepSeek-V3 671B全量大模型中实测单卡推理性能刷新了国产GPU纪录;华为昇腾950系列更是被寄予厚望,950PR实测FP4算力约为英伟达H20的2.87倍,是国内唯一支持FP4低精度推理的商用产品,其Atlas 950超节点支持8192颗芯片互联,已在字节跳动、腾讯、阿里巴巴等头部企业获得数十万颗级别订单......
正是基于这些可验证的产品信息,越来越多的行业观察者认为,“下一代”可能不再是简单的参数迭代,而是国产算力从“能用”走向“好用”的真正分水岭。毛运航在总结多年的国产适配经验时也表达了类似的判断:“我们也看到国产芯片在不断进步的同时,也要做自己的生态。现在可能是一个阵痛的过程,但必须去经历。”
硬件性能升级将直接拓宽国产算力的场景边界,从单一推理场景延伸至轻量化训练、多模态生成、工业仿真等中高端场景。此前无法落地的短视频生成、高精度医疗影像分析、中型模型微调等场景,将逐步实现国产化适配,国产算力的商用覆盖面与市场渗透率大幅提升。同时,随着新一代芯片产能逐步释放,行业“一卡难求”的供需错配问题将得到有效缓解,市场流通算力资源增加,进一步加速市场化替代。
在推理时代寻找“突围”机会
在落地应用场景方面,推理场景仍将是国产算力的核心基本盘,占比持续领先,同时训练场景渗透率稳步提升。短期来看,国产算力仍将延续“推理优先、训练跟进”的发展节奏,依托成本与合规优势,全面抢占中小厂商、政企、科教、泛文娱推理市场,逐步蚕食海外芯片的存量市场份额。
前两年AI的热潮几乎都聚焦在“训练”上,但2025年以来,市场的重心正以肉眼可见的速度向“推理”倾斜。IDC预计,到2028年推理工作负载占比将达73%。与此同时,推理所需Token量已经实现了指数级增长,国家数据局数据显示,2024年初我国日均Token调用量为1000亿,至2025年底跃升至100万亿,两年增长超千倍。
推理场景相对训练场景而言,对单卡峰值算力的敏感度更低,但对延迟、并发和单位Token成本有更直接的要求。这意味着,对国产卡来说,这是一个有机会缩小与英伟达差距的竞争区域。在推理侧,国产GPU的接受度明显更高,“现在大部分卡其实都在用推理”,并行科技国产算力负责人告诉笔者。
在训练领域,国产芯片与国际先进水平仍存差距。并行科技国产算力负责人表示,“上一代的国产卡性能综合表现仍有不小提升余地,局部测试大致相当于主流卡的60%-70%的性能水准”,但该负责人也透露,“下一代的产品大家都表示能够支持FP8,甚至FP4,计算性能拉齐英伟达的高端卡水平”
短期来看,国产算力仍将延续“推理优先、训练跟进”的发展节奏,依托成本与合规优势,全面抢占中小厂商、政企、科教、泛文娱推理市场,逐步蚕食海外芯片的存量市场份额。
随着不断的迭代,行业主流预判,2030年将成为国产算力产业的里程碑节点,在技术迭代、生态完善、产能充足、性价比领先的多重支撑下,国内算力市场有望实现全面国产化。
当然,这一目标的落地,核心取决于两大关键条件:一是国产软硬件生态完全成熟,所有主流模型、行业应用均可实现无差别适配;二是芯片产能完全释放,可充分满足国内市场指数级增长的算力需求,不再依赖海外芯片供给。“如果这两个问题都能解决,那性价比将成为决定性因素,届时大家没有道理不选择国产算力,”并行科技国产算力负责人如是说。
长期来看,国产算力不会止步于替代海外产品,将逐步实现技术与模式的自主创新。当前AI算力架构完全由海外硬件定义,算法、模型均围绕海外芯片生态开发,而国产算力生态成熟后,将依托自主底层架构,反向推动算法、计算逻辑的创新迭代,形成适配本土产业需求的算力体系,甚至引领下一代计算技术的发展方向。
(文|Leo张ToB杂谈,作者|张申宇,编辑丨杨林)
(来源:钛媒体)
