国产推理GPU企业曦望完成超10亿元融资估值超百亿成独角兽

2026年04月20日,19时22分35秒科技新知阅读 1 views 次

凤凰网科技 4月20日，国内全栈自研AI推理GPU企业曦望宣布完成新一轮超10亿元人民币融资，估值超百亿，成国内纯推理GPU赛道首家独角兽。

这是2026年AI产业全面迈入“推理落地、智能体普及”时代后，国内GPU赛道诞生的最大单笔融资之一。至此，分拆独立仅一年多的曦望已累计完成七轮融资，总融资额约40亿元，成为国内首家估值超百亿的纯推理GPU独角兽。

本轮融资资金将主要用于新一代启望S3推理GPU的规模化量产交付、全栈软件生态建设，以及S4/S5后续芯片的研发迭代。

曦望自创立之初即锁定AI推理赛道。2026年被行业公认为“AI智能体元年”，随着大模型从“会聊天”进化为“会思考、会执行”的数字员工，推理需求迎来爆发式增长。英伟达GTC 2026大会正式宣告AI产业全面迈入“推理落地、智能体普及”的新时代，将“每瓦Token吞吐量”定义为AI时代的核心竞争力，这与曦望的战略方向高度契合。

曦望董事长徐冰表示：“AI算力基建的重心已彻底切换。2026年AI推理计算需求将达到训练需求的4-5倍，推理算力租赁价格半年涨幅近40%。”目前公司已推进三代推理GPU迭代、数万颗GPU量产落地，实现了从芯片研发、产品量产到解决方案交付的完整闭环，并保持“芯片均实现一次性流片成功、流片后性能符合设计预期”的标准。

2026年1月，曦望正式发布新一代旗舰产品启望S3推理GPU。这是国内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU，它没有盲目照搬高端训练GPU的HBM显存路线，而是基于Agent推理的本质需求，从AI Core计算架构到内存IO系统进行了全链路重构。

以OpenClaw为代表的智能体推理，“感知-规划-执行-反馈”高频循环，带来了对KV-cache密集访问的全新计算负载。通用GPU面向训练优化，推理实际算力利用率往往远低于峰值。启望S3通过裁剪训练态所需的模块，将节省出的晶体管与功耗预算集中投向推理，让单位面积有效算力效率提升5倍以上。

在计算层，启望S3通过深度定制解决了通用GPU“算力用不满”的核心痛点，推理性能较上一代S2提升5倍，目标实现Token成本下降90%。大语言模型推理中，GEMM与Attention算子占总计算量的90%以上，启望S3将GEMM和Flash Attention两项核心算子的利用率分别推至约99%与98%。芯片采用128-bit指令集并支持3D指令，指令密度领先传统SIMT架构；独立线程调度精准匹配智能体复杂控制流；通过Block cluster和Broadcast等技术实现片上数据复用。此外，启望S3原生支持FP16至FP4全链路低精度运算。

本轮超10亿元融资的完成，将为启望S3的规模化落地及后续研发提供重要支撑。

(来源：新浪科技)