英伟达登顶市值第一,国产AI芯片如何用新技术突围算力封锁?
全球正爆发一场新的AI算力变革。
今年7月初,AI芯片巨头英伟达市值首次突破4万亿美元(约合人民币28万亿元)大关,成为全球市值最高的人工智能、半导体和科技领域的企业。同时,英伟达CEO黄仁勋身价也增至1440亿美元,超越“股神”巴菲特,成为全球资本市场的焦点。
这一现象背后,不仅仅是个别企业的成功故事,更是AI时代全球科技、资本市场格局变化,还预示着AI算力和基础设施对于AI产业发展的重要性。
而对于国内市场来说,这一轮AI算力热是一次重要的机遇。一方面,国内面临AI算力封锁挑战;另一方面,DeepSeek等中国AI大模型发展迅猛,对于AI推理算力需求增加,但国产AI芯片产能不足、具有较大缺口。
据统计,预计到2030年左右,中国AI芯片市场规模可能超过1.3万亿元,届时中国AI产业及相关行业可能将价值1.4万亿美元(约合人民币10万亿元)。
那么,如今“后摩尔时代”下,中国AI芯片行业如何学习DeepSeek这种以效率为导向、低成本发展模式,开辟一条独特的发展路径,用新技术突围算力封锁,从而提升国产AI算力技术和生态?
7月初举行的中国集成电路设计创新大会(ICDIA)上,清华大学教授、集成电路学院副院长、清微智能联合创始人兼首席科学家尹首一发表题为《AI时代芯片设计的STCO挑战》,提出了一个非常新颖的STCO(System-Technology Co-optimization)“系统技术协同优化”的方法,通过对系统、目标需求建模,希望整合芯片设计、制造工艺、封装技术等多个环节,从而实现AI芯片性能、功耗、面积、成本(PPAC)的最优平衡。
芯片系统技术协同优化解决算力“十字路口”
AI技术进入大众视野到今天已经十三年,大体分为三个阶段:
- 第一阶段:2012年-2017年之间,关注一个具体、 受限的AI任务,如图像识别;
- 第二阶段:2018年以后,AI大模型领域的“过渡期”形成了非常关键的技术,比如Transformer架构,但当时的 AI 模型参数规模并没有特别大;
- 第三阶段:2020年至今,我们进入大模型的时代,AI模型和规模急剧扩张,大规模参数的模型结构更复杂,适用于多任务学习,具备更好的性能和泛化能力。
如今,AI大模型发展的背后,芯片算力必不可缺,今天AI需求的算力是供给的100倍左右。而三要素——计算架构、制造工艺、芯片面积相乘,就构建出强大的芯片算力。
然而,当前国内“制造工艺”受限,芯片性能增长已进入“瓶颈期”。而且,集成电路产业进入“后摩尔”时代,从原来单一芯片设计到如今“软件+系统设计”,致使芯片算力技术发展进入到“十字路口”。
事实上,随着芯片制程和功耗要求越来越高,技术需求越来越复杂,所谓“价格不变时集成电路上可容纳的晶体管数目每隔18-24个月增加一倍、性能也将提升一倍”这一定律已不太可能会实现,制造工艺面临物理极限,工艺红利带来的算力提升已难以为继,市场呼唤新的技术突破。同时,先进工艺封锁、先进HBM(高带宽存储)封锁也成为AI芯片算力发展的新挑战。
因此,尹首一教授提出,利用STCO(系统技术协同优化)技术方法,整合架构探索、组件设计、快速仿真、工艺优化等先进集成技术设计手段,从而带来全新芯片算力提升的新空间,不仅实现AI芯片性能、功耗、面积、成本之间的最优平衡,而且可有效突破算力封锁。
1、架构探索:
- 垂直堆叠:堆叠方式、芯粒设计和互连方式具有多种选择,存在更大的探索空间,需要自动化的架构探索和评估工具。
- 规模扩展:传统前后端设计顺次进行的方式会导致迭代时间过长,需要在设计前期提供工艺约束预评估的协同优化工具。
2、组件设计:3.5D大芯片中存在更多的设计选择, 协同影响系统设计指标。在3.5D大面积集成下,供电分布网络(PDN)、深沟槽电容(DTC)规模庞大,存在协同优化难的问题,同时三维集成架构中,TSV(硅通孔技术)承载着信号、供电等重要作用,与机械应力等问题息息相关,需要仔细权衡TSV设计与芯片性能、良率的关系。因此,芯片设计过程中需要组件定制化设计和优化的工具。
3、快速仿真:在3.5D高密度集成下,现有设计流程无法提前考虑大规模翘曲,导致迭代周期长成本高,且现有工具难以支撑 3.5D大规模封装力学仿真问题,因此,未来芯片研发需要高抽象层次的预评估方法,以及针对3.5D规模的快速多物理场力学仿真EDA工具。
4、工艺优化:现有互连工艺存在长互连通信差、光罩拼接精度低、多金属层难实现等问题,限制架构互连拓扑创新,所以芯片设计过程中需要工艺与设计协同优化。
尹首一表示,AI时代,我们设计一款3.5D大芯片面临的四部分芯片设计挑战,可以总结为三个层次的痛点,从而迫切需要我们在芯片设计方法学、设计工具上有所突破:
- 1、我们今天暂时对一些问题缺乏设计及评估工具,在这种情况下只能靠经验驱动,依赖于人工经验,从而带来性能的急剧下降;
- 2、设计芯片中确实有一部分的基础工具,但是存在仿真慢、迭代长等问题,尚无法满足设计周期需求;
- 3、今天对STCO设计空间探索尚不全面,造成今天一部分设计芯片没有找到最佳的性能和设计决策点。
尹首一强调,上述痛点既是未来在AI时代设计算力大芯片亟需突破的问题,也给一些领域带来了新的机会,希望芯片技术发展过程中,可以在设计、工具、工艺三方面充分协同起来,能够完美解决一些挑战,并且满足设计中的需求,为未来AI芯片算力供给提供最坚实的基础和保障。
未来AI算力非GPU架构加速崛起
随着 AI 和大数据技术的广泛应用,中国芯片算力规模已呈现快速增长态势。
据弗若斯特沙利文统计,2024年,中国AI计算加速芯片市场规模1425.37亿元,到2029年激增至13367.92亿元,期间年均复合增长率53.7%。同时,2024年中国算力总整体规模达617.00EFLOPs,预计到2029年达3442.89EFLOPs,年均复合增长率40%,其中,智能算力2025年-2029年期间年均复合增长率高达45.3%。
但与此同时,从数据来看,当前国内GPU芯片的市场占比69.9%,而其他AI芯片占比为30.1%。相对于弗若斯特沙利文给出未来22.7%的比例预期,IDC却认为,预计到2028年,中国加速计算服务器市场规模将超过550亿美元,非GPU架构服务器市场占比将迎来快速增长。
值得一提的是,一种与英伟达GPU共享式集中计算模式不同,基于分布式数据流计算的新型计算架构——可重构RPU(ReconfigurableProcessingUnit),近年来随着AI大模型发展异军突起。
它与CPU的冯·诺依曼指令驱动时域计算模式不同,是一种数据驱动的时空域执行模式,可根据不同的应用需求重构硬件资源,构建专用的计算通道,天然适配AI算法模型并行化、流式化、密集化特点,使得AI芯片具备灵活性和专用集成电路高效性的优势。2015年,国际半导体技术路线图(ITRS)将可重构芯片列为“未来最具前景芯片架构技术”,可重构芯片也被学术界和产业界视为CPU、FPGA和GPU之外的第四类通用计算芯片。
放眼全球,该类型架构芯片呈现蓬勃发展态势。例如,美国斯坦福大学孵化的公司SambaNova,通过自研的可重构芯片产品成为AI芯片行业估值最高的独角兽公司,其产品能够支持5 万亿参数模型训练,8芯片配置性能为英伟达 H100 的3.1倍;美国芯片初创公司Groq开发的张量流式处理器架构LPU(Language Processing Unit),推理速度相较于英伟达 GPU 提高10倍,成本却降低至英伟达的十分之一;特斯拉在专为AI训练自研的Dojo超算系统中也采用了分布式数据流计算方式,单个Dojo拥有9Petaflops算力、每秒36TB带宽,目前是特斯拉实现通用人工智能(AGI)的核心基础设施。
分布式数据流计算不仅在技术层面持续实现突破,在产品商业化方面也取得了阶段性成果。近期,OpenAI租用谷歌AI芯片(TPU)训练ChatGPT,首次采用了“GPU训练+TPU推理”的混合架构模式。今年4月,谷歌最强AI芯片第七代TPU(张量处理单元)——Ironwood正式亮相,这款TPU芯片性能狂飙3600倍,直接叫板英伟达Blackwell B200。
据Capvision显示,谷歌TPU集群中,70%-80%的算力用于内部业务场景,剩余不到30%以租赁方式对外使用。而其中,全球超过60%的生成式AI初创公司、近90%生成式AI独角兽都在使用谷歌云TPU AI基础设施服务。
国内专注可重构RPU芯片的代表企业包括清微智能。
作为“脱胎”于清华可重构实验室的AI芯片公司,清微智能基于国产原创可重构芯片(RPU)架构研发并量产了高算力芯片TX8系列,面向智算中心等云计算场景,其最新TX81单个RPU模组算力可达到512TFLOPS(FP16),庞大的REX1032训推一体服务器单机算力可达4 PFLOPS,单机可支持DeepSeek R1/V3满血版推理,支持万亿以上参数大模型部署,可实现千卡直接互联,无需交换机成本。目前,清微智能已在国内多个省份落地千卡智算中心,同时在多个行业实现服务器部署。
总结来看,国内AI算力缺口很大、市场需求持续增长。长期来看,未来AI芯片核心架构的内在属性需要与AI模型特点相适配,同时要结合架构探索、组件设计、快速仿真、工艺优化等先进集成技术设计手段进行STCO,不断迭代,换道超车,才能有望突破当前英伟达GPU产品天花板,实现AI芯片性能、功耗、面积、成本(PPAC)的最优平衡。
正如黄仁勋所讲,AI 需要一种基础设施,就像互联网、电力一样。如今,无论是AI工厂,还是Agentic AI,或是物理AI,所有这些场景都催生出强大计算能力需求,未来,数据中心将是新的计算单元。(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)
(来源:钛媒体)