国产AI芯片三国杀:从算力竞争到生态战争
文 | 智讯智库分析师 刘婷
2025年下半年,“国产 AI 芯片崛起”在中国市场逐渐成为共识——国产合计份额突破 40%,华为单家出货逼近百万张[1],寒武纪首次扭亏[2],海光营收破百亿[3],NVIDIA 三年间被切走 35-40 个百分点[1]——这一趋势也得到了黄仁勋公开表态的佐证。
黄仁勋 2025 年内三次到访中国,在北京明确表示“任何低估华为、任何低估中国制造能力的人都极其天真”,并称华为“芯片设计极其优秀、拥有从芯片到系统、云服务的完整技术栈[4];在 SCSP 论坛上,他更直接承认 NVIDIA 在中国 AI 芯片市场的份额“实际上已经归零”,并多次警告美国出口管制“在很大程度上事与愿违”[5],反而加速了中国本土芯片的崛起。
但所有的数据和信息也都指向一个更深的问题:这究竟是国产芯片完成了“供给能力的跃迁”(产能、营收、出货规模快速扩张),还是已经实现了“竞争结构的终局重构”(NVIDIA 在中国的主导地位被根本动摇)?——这两者意味着完全不同的产业前景。
本文基于上市公司年报、IDC 市场数据、SemiAnalysis 等行业研究,以及公开报道资料,从算力、生态、玩家结构、训推分化、路径分析五个维度,对当前国产AI芯片的真实状态进行一次系统梳理。核心判断包括:
2025-2026国产AI芯片的真实状态
从公开披露的数据看,2025年是国产 AI 芯片商业化进程的一个关键拐点。在中国AI加速卡(涵盖GPU、NPU、ASIC等)市场约 400 万张的年度出货规模中,国产厂商合计出货约 165 万张,市场份额首次稳定突破 40%。这意味着国产芯片已经不再处于“局部替代”的早期阶段,而是进入了可以在整体市场中形成结构性存在的区间。
在这一背景下,华为昇腾、寒武纪、海光——这三家专业 AI 芯片公司,即国产 AI 芯片“三国”,在过去 12 个月里都跨过了此前未曾达到的门槛:
将四组数据放在一起,可以看到三个结构性变化:
(1)国产AI芯片出货量从2023年的单厂万张级,跃升至2025年的行业合计百万张以上;
(2)客户结构从“政策驱动”扩展到字节、阿里、百度、腾讯等头部互联网公司;
(3)商业模型从“高投入低回收”转向“收入可持续兑现”
——但这些变化仍发生在订单和收入层面,而非硬件性能与软件生态的同步突破。
2025年下半年,“国产 AI 芯片崛起”在中国市场逐渐成为共识。但这组数据仍有几个关键的问题待讨论:国产芯片所切走的 35–40% 市场份额,在训练与推理等不同工作负载之间分布并不均衡;互联网大厂的"采用"并不等价于"替代",其真实依赖度仍存在显著差异;CUDA 开发者基数(约 590 万)与国产生态(<100 万)仍存在数量级差距[6]。换句话说,这一阶段的变化更像是“供给能力的跃迁”,而不是“竞争结构的终局重构”。
而这场跃迁的成因,恰恰印证了上述判断:它与其说是国产芯片在公开竞争中胜出,不如说是多重外部力量共同作用的结果——美国对 H100、乃至特供版 H20(NVIDIA 为中国市场设计的减配版)的出口管制[17],把大量原属于 NVIDIA 的需求“逼”向国产替代;国产化政策对国企、运营商、头部大厂的采购形成引导;中芯国际(SH:688981) 7nm 良率爬坡(约 40%)[7]与华为产能储备[8],让供给侧第一次接得住规模化订单;再叠加大模型需求整体爆发,市场本身在迅速变大。简单来说,这场跃迁的底层逻辑是“需求被管制重新分配、而供给刚好接得住”,而不是“国产芯片在性能与生态上赢过了 NVIDIA”。
算力维度:与NVIDIA的差距评估
只看硬件性能,国产 AI 芯片在 2024–2025 年完成了一轮实质性追赶,但同样的对照表也清晰标记了仍未突破的物理与供应链边界。
国产已做到的部分。与 NVIDIA 上一代主力平台(A100、H100)相比,国产旗舰单卡性能已实质接近,并通过系统级集成实现局部反超。
![]()
图表1:国产旗舰芯片性能对比
单看一张卡,国产最强的昇腾 910C,实测能发挥出 NVIDIA H100 约六成的性能[9]。而 H100 是 NVIDIA 2022 年发布的旗舰——如今已被 H200(2023)、B200(2024)两代新品超越[12],但因存量巨大,它仍是当前全球 AI 数据中心的主力芯片。所以“达到 H100 的 60%”的准确含义是:国产单卡追上了“NVIDIA 两三年前的主力”的六成,而不是“NVIDIA 当前最强”的六成。若对标 NVIDIA 2024 年发布的 Blackwell B200,差距仍然明显。(见图表 2)。
但单卡不是故事的全部。在“堆卡”的系统级方案上,华为 CloudMatrix 384(用 384 颗 910C 组成一个超节点)靠数量和工程优化,在算力、内存带宽等部分指标上反超了 NVIDIA 的旗舰机柜 GB200 NVL72(由 72 张 Blackwell GPU 组成的机柜级 AI 超级计算系统)[11],代价是约 4 倍的功耗。这反映出国产厂商当前的核心策略:以系统级集成与规模化部署,弥补单卡层面的性能代差。
国产仍落后的部分。与NVIDIA最新一代平台相比,四个关键维度的差距依然清晰:
![]()
图表2:算力四维度对比表
四个维度并非平行。HBM 带宽(高带宽内存,AI 芯片“读取和搬运数据”的速度)往往比理论 FLOPS 更关键,因为大模型训练的瓶颈在数据搬运而非纯计算。互联差距在万卡级集群中会被指数放大,NVIDIA NVL72 方案能让 72 颗 B200 在逻辑层表现为单一 GPU[12],这是国产体系目前无法对标的架构性优势。同时,进入 3nm 区间的不只 NVIDIA,Google TPU v7p、Amazon Trainium 3 也在快速迭代[13],国产 AI 芯片真正面对的是整个全球先进制程梯队的持续跑动。
部分差距是工程外的硬约束。荷兰阿斯麦(ASML)的 EUV 光刻设备长期受美国出口管制,无法向中国大陆供货,直接限制了中芯国际向 5nm 以下推进;HBM3E/HBM4(高带宽内存 HBM 的演进版本,属于面向 AI 芯片、高性能计算(HPC)和数据中心的 3D 堆叠 DRAM 技术)全球产能集中于 SK 海力士、三星、美光三家韩美厂商,2024 年底美国进一步加强对华出口管制[14]。这两个约束的共同特点在于国产芯片公司并非“完全做不出来”,而是在全球供应链关键节点上仍缺乏自主能力,受制于海外公司和出口管制,这种差距不是会随时间自然消失的线性问题。过去四年里,国产 AI 芯片确实实现了从“接近 A100”到“部分场景接近 H100”的工程突破,但单卡算力的缩小并不意味着真实工作负载下的性能差距也在同步缩小。
面对这一制程天花板,华为也在尝试“换赛道”。2026 年 5 月,华为在 IEEE ISCAS 2026 上提出“韬(τ)定律”,主张以“时间缩微”(通过逻辑折叠等技术压缩信号传播时延)替代传统的“几何缩微”(把晶体管做得更小),目标是到 2031 年在不依赖先进光刻机的前提下,实现等效 1.4nm 制程的晶体管密度。不过这目前仍是一项面向未来的原则与路线图——密度数字来自华为自身披露、尚待独立验证。相关报道称,该路线可能率先进入后续麒麟手机芯片,并进一步扩展至 AI 芯片。但其能否在 AI 算力场景兑现仍需观察。
生态层面:国产生态仍处于“建立第二语言”阶段
如果说硬件层面的追赶存在清晰上限,那么生态层面的差距则呈现出完全不同的形态。这并不是一道单纯依靠工程投入就能解决的技术题,而是一个由时间积累、开发者规模与网络效应共同构成的复杂系统。
NVIDIA 披露,截至 2025 年其 CUDA 生态已经形成一组极具规模效应的数据:全球 CUDA 开发者规模达到 590 万;CUDA-enabled GPU 累计部署超 5 亿;CUDA 自 2006 年发布以来,已经持续演进近 20 年[6]。
在工具链层面,NVIDIA 围绕 CUDA 构建起覆盖深度学习、HPC(高性能计算)、数据科学与 AI 推理的完整体系。PyTorch(目前最主流的 AI 模型训练框架)、TensorFlow(Google 推出的深度学习框架)、JAX(Google 推出的高性能机器学习计算框架)等主流框架默认以 CUDA 作为第一优先级后端,vLLM(大模型高吞吐推理框架)、TensorRT-LLM(NVIDIA 官方的大模型推理加速引擎)、SGLang(面向大模型服务与推理优化的开源框架)等主流推理框架也都首先围绕 NVIDIA 平台开发。当前大量前沿模型的训练与部署,仍高度依赖 CUDA 生态。
国产生态相比仍处于明显更早期阶段。华为 CANN 是其中推进最快的一套:2018 年发布,CANN 6.0(2022)开始支持大量主流模型与框架兼容;2024-2025 年华为进一步推进 CANN 8.x 并宣布工具链全面开源[15],这是国产 AI 软件生态迄今最重要的战略升级。但真正的差距不在"支持多少模型",而在起跑时间存在 12 年代差、开发者基数仍为百万级以下、主流框架对国产平台仍停留在“兼容与迁移”层面。寒武纪 NeuWare、海光 DTK 等其他方案则处于更早期阶段。当前国产 AI 芯片真正面对的,并不是“有没有软件栈”的问题,而是 CUDA 已经成为全球 AI 开发的默认语言,而国产生态仍然处于“建立第二语言”的阶段。
![]()
在纸面参数上,国产旗舰芯片与 NVIDIA 的差距正在快速缩小。但在真实的大模型训练与推理环境中,这种差距往往会被重新放大。
以 LLaMA-2 70B(Meta 发布的第二代 700 亿参数大语言模型)推理为例,SemiAnalysis 等机构测算认为昇腾 910C 的部分硬件指标已达到 H100 的约 80%[10],但 DeepSeek 等团队的实测显示,真实推理工作负载下整体性能约为 H100 的 60%[9]。从“纸面 80%”到“实际 60%”之间这 20 个百分点的差距,本质上就是生态成熟度带来的性能损耗。
这种损耗主要来自三个层面:关键算子库(FlashAttention、KV-Cache、MoE Routing)的优化滞后、编译器协同与算子融合体系不够成熟、通信库与集群软件栈仍在快速迭代等多处叠加。这意味着,即便国产芯片在采购价格上接近 NVIDIA,如果实际有效算力只能发挥对方六成,企业最终省下的硬件成本,很可能重新消耗在额外服务器、工程适配与运维复杂度上。
软件生态真正难以撼动的地方,在于它具有典型的网络效应(Network Effect)。CUDA 的护城河不来自某个单独组件,而来自一个持续自我强化的循环:软件适配更充分 → 开发者更多 → 企业迁移成本更高 → 市场份额扩大 → NVIDIA 获得更多投入 → 软件生态继续增强。每一环都在强化下一环,系统整体呈现"越强者越强"的正反馈。这也解释了即便竞争对手在硬件上追平 NVIDIA,开发者依然不愿迁移的现象。因为迁移成本(重写代码、重新训练团队、放弃成熟的库与工具链)远大于硬件性能差距所能带来的收益。
观察过去三年,国产生态确实在快速进步:CANN 演进 + 全面开源、昇腾芯片进入互联网大厂、国产推理框架逐渐成熟。但 CUDA 同期也没放缓,开发者从 2020 年约 200 万增长至 2025 年接近 600 万[6],主流推理框架体系持续扩张。国产生态在追赶,但 CUDA 这个“移动目标”本身也在持续加速。这也是为什么说当前国产芯片获得的大量市场份额,更多建立在供应链安全与去风险化需求之上,而非开发者生态层面的完全替代。
国产AI芯片的真实格局
在“专业AI芯片公司”这个子集里,“三国”仍是核心力量。但整个中国AI算力产业已经从“三家竞争”演变为“专业芯片公司 + 云厂商自研 + 长尾新势力”共存的多层结构。
![]()
图表4:玩家清单表
值得注意的是阿里平头哥的 26.5 万张出货已经超过寒武纪两倍以上。阿里平头哥 PPU(Programmable Processing Unit,可编程处理器)芯片在 2025 年 9 月经央视《新闻联播》首次披露,性能超过 NVIDIA A800、接近 H20,单卡 BOM 较 H20 下降约 40%[16],说明互联网大厂自研已不是“内部供给”的副产品,而是具备规模化交付能力的独立力量。字节、腾讯等“未量产”项目本身也说明,头部互联网公司已经把 AI 算力视为“基础设施能力”而不是采购品。
此外,国产 AI 芯片当前的客户结构仍带有明显的"项目制扩张"特征。寒武纪 2025 年报披露前五大客户占比 88.66%[2]、海光 90%+[3]。这并非任何一家独有,而是产业早期的典型特征:客户少、单笔大、决策周期长。但这种结构意味着单一头部客户的采购变化(自研落地或重新增加 NVIDIA)会直接放大业绩波动。国产 AI 芯片行业目前更像“少数大客户推动的项目制增长”,而非“开发者生态驱动的自然扩张”。
如果把"渗透率提升"视为一个整体,很容易忽略当前行业最重要的结构性事实:国产芯片在推理与训练两个场景中的渗透速度完全不同。
推理场景对算力与生态要求相对宽松,更强调成本、供给稳定性与部署效率。百度昆仑芯 R480 在 batch size=64 的推理场景下,单卡吞吐量约为 H100 的 62%,但成本仅为后者的 45%[17]。对于大量推理型工作负载而言,“性能略低但成本显著更低”的组合,已经具备商业可行性。因此,过去两年国产 AI 芯片市场份额的快速提升,很大程度上来自推理侧的规模化部署。
训练场景则是另一套逻辑。大模型训练不仅依赖单卡性能,更依赖完整软件栈、稳定通信系统与成熟开发工具链。一次训练中断可能意味着数百万美元级别的损失,对稳定性(MTBF)、框架兼容性、集群调度的要求远高于推理。目前大量智算中心采用"异构部署"策略:NVIDIA 承担核心基座训练,国产芯片承担推理、微调与垂类任务。直到 2025 年 DeepSeek 才首次披露针对国产芯片的专项优化[18]。市场将 2026 年定义为“国产 AI 芯片训练落地元年”,这一说法也从侧面印证了训练侧的规模化国产替代此前尚未真正展开。
AI 芯片竞争正在分化为两种战争:推理市场更像成本与供给能力的竞争;训练市场则更像生态、工具链与开发者体系的竞争。这也解释了为什么国产份额能够快速提升,但 NVIDIA 的生态优势与利润率依然稳固。
生态突围:三条路径分析与判断
从软件生态演进路径看,国产AI芯片并不存在单一“追赶路线”,而是并行演化出三种不同范式,本质上反映的是对“CUDA依赖如何被打破”这一问题的不同解法。
![]()
图表5:三条生态路径对照表
三条路径的根本差异不在技术细节,而在竞争策略:
回看 AI 芯片产业的演进,竞争的“决胜维度”经历过一次迁移。这场迁移主要发生在 NVIDIA 主导的过去十余年里:最早,硬件性能强者胜;随着 AI 普及,软件栈(编译器、算子库)的成熟度成为效率分水岭;而到了今天,决定格局的已是生态规模与网络效应带来的路径依赖。越往后,生态层的权重越大——这是 NVIDIA 即使硬件优势收窄、仍能稳守市场地位的根本原因。这也点出了国产 AI 芯片的结构性困境:在它们大规模入场时(2019 年之后)竞争早已进入“生态决胜”阶段。既错过了“硬件决胜”的窗口期,又不得不直接在 NVIDIA 最深的护城河上正面交锋。这也是为什么单卡性能的追平,并不足以撼动整体格局。
2025 年中国 AI 芯片市场的核心变化并不是“替代完成”,而是供给能力显著扩张后的结构性分层形成——NVIDIA 仍主导高端训练与前沿模型开发,国产芯片则率先在推理、政企、运营商和成本敏感型场景中实现规模化落地。不同国产厂商之间,也开始形成不同技术路线与客户定位。
这也意味着,对国产 AI 芯片的评估,不能仅依据“份额提升”或“性能接近 H100”这类表层指标。因为市场份额可以由供应链环境推动,硬件性能也可以通过工程投入持续逼近;但生态迁移的速度,往往慢于硬件追赶,并且具有明显的路径依赖特征。未来几年,真正值得持续跟踪的,可能是两个更深层的领先指标:其一,国产芯片能否真正进入大模型训练这一核心工作负载;其二,开源中间层与“硬件可插拔”架构,是否足以削弱 CUDA 对开发流程的绑定能力。前者决定国产替代能够达到的产业上限,后者则决定 NVIDIA 的生态优势是否会出现结构性松动。
附录:国产AI芯片能力一览(以NVIDIA为基准)
数据截至2026年1月。"未公开"= 厂商未披露确切参数,不做估算填充。
![]()
国产AI芯片能力一览(以NVIDIA为基准)
[1]IDC(经 The Decoder 报道),《Chinese chipmakers now control 41 percent of China's AI accelerator market》,https://the-decoder.com/chinese-chipmakers-now-control-41-percent-of-chinas-ai-accelerator-market/
[2]中科寒武纪科技股份有限公司,《2025 年年度报告》。
[3]海光信息技术股份有限公司,《2025 年年度报告》。
[4]CNBC,《As Nvidia gets a lifeline in China, Jensen Huang goes on the charm offensive in Beijing》,https://www.cnbc.com/2025/07/16/as-nvidia-gets-a-lifeline-in-china-jensen-huang-goes-on-the-charm-offensive-in-beijing.html
[5]AIM《Jensen Huang Says NVIDIA’s China Chip Share Has Fallen to Zero》,https://analyticsindiamag.com/ai-news/jensen-huang-says-nvidias-china-chip-share-has-fallen-to-zero
[6]NVIDIA 10-K Annual Report FY2025,https://www.sec.gov/Archives/edgar/data/1045810/000104581025000023/nvda-20250126.htm
[7]Digitimes,《Huawei Ascend AI chip yield rate report》,https://www.digitimes.com/news/a20250225PD224/huawei-ascend-ai-chip-yield-rate.html
[8]SemiAnalysis,《Huawei Ascend Production Ramp: Die Banks, TSMC Continued Production, HBM is The Bottleneck》,https://newsletter.semianalysis.com/p/huawei-ascend-production-ramp
[9]Tom's Hardware,《DeepSeek research suggests Huawei's Ascend 910C delivers 60% of Nvidia H100 inference performance》,https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-research-suggests-huaweis-ascend-910c-delivers-60-percent-nvidia-h100-inference-performance
[10]News,《Huawei’s Ascend 910C Takes on NVIDIA as China’s AI Race Heats Up: More Alleged Details》,https://www.trendforce.com/news/2025/03/13/news-huaweis-ascend-910c-takes-on-nvidia-as-chinas-ai-race-heats-up-more-alleged-details/
[11]SemiAnalysis,《Huawei CloudMatrix 384》;Counterpoint Research(经 TechStartups 报道),《Huawei's Ascend 910C system reportedly outperforms Nvidia's H100 in key metrics》,https://techstartups.com/2025/04/28/
[12]NVIDIA Corporation,《NVIDIA Blackwell Architecture / GB200 NVL72 Datasheet》,https://www.nvidia.com/en-us/data-center/gb200-nvl72/
[13]SemiAnalysis,《Google TPUv7: The 900lb Gorilla In the Room》,https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
[14]U.S. Department of Commerce, Bureau of Industry and Security (BIS),《Export Controls Final Rule, 89 Fed. Reg. 96790》,https://www.bis.gov/
[15]观察者网,《对标英伟达 CUDA,华为宣布开源 CANN》,https://www.guancha.cn/economy/2025_08_05_785551.shtml
[16]电子工程专辑(EE Times China),《央视"意外"曝光参数:平头哥 PPU 芯片超越英伟达 A800》,https://www.eet-china.com/news/202509177867.html
[17]吴建明,《国产 AI 芯片产业深度研究报告(2025 年度)》,https://www.cnblogs.com/wujianming-110117/p/19240246
[18]36 氪,《2026,国产 AI 芯片,跨越天堑:从"推理"走向"训练"》,https://www.36kr.com/p/3696839539338881
(来源:钛媒体)
