云栖观察:一个超级云计算周期正在到来

2025年09月25日,18时36分21秒 科技新知 阅读 3 views 次

作者 林易

编辑 重点君

自2015年由阿里云开发者大会更名以来,云栖大会一直是观察中国乃至全球云计算与AI技术的风向标。

今年的大会现场,气氛尤为炽热。从议程、嘉宾到展区,阿里云全方位展示了作为国内公有云第一大厂的生态号召力,场景很容易让人联想到英伟达GTC。与往年讨论数字化转型、产业上云的议题不同,今年几乎所有的内容都指向同一个焦点:AI。

全球云计算行业正在经历一场深刻的范式转移。从以CPU为核心的计算,加速转向以GPU为核心的AI计算,传统云的计算、存储、网络到容器都需要彻底重构。云厂商增长的核心驱动力也不再是传统的计算、存储和网络,而是为训练和推理大模型服务的AI算力。

新技术范式,正在催生一个超级云计算周期。在北美,亚马逊微软、谷歌的资本开支竞赛不断刷新纪录。其中,微软通过深度绑定OpenAI,将GPT系列模型整合进Azure,抢占企业级市场先机;亚马逊AWS则凭借其市场领导者地位和自研的Trainium、Inferentia芯片,发力构建更高性价比的AI基础设施;谷歌则依托Gemini模型,推动云业务与AI能力的深度融合;Oracle也凭借与OpenAI的合作迅速崛起。

在中国,经历了数年的高速增长与市场调整后,云厂商们同样找到了新的、更为强劲的增长引擎。从中国公有云市场大盘来看,2024下半年,市场增速17.7%,创新高,进入2025年,增速进一步提升。上一次中国云计算大爆发,还是2014到2020年;但2021到2023年,移动互联网红利见顶,云市场增速一路下滑;直到2023年,伴随着大模型浪潮,才重启增长。

阿里云在此次大会上,展示了其对未来的判断和战略布局。这是一次技术产品的集中发布,更是一场阿里云关于未来计算形态的系统性思考。

战略:吴泳铭的一个定义和两个判断

阿里巴巴集团CEO吴泳铭在其主旨演讲中,将目光投向了通用人工智能(AGI)之后的终极目标——超级人工智能(ASI),即能自我迭代并全面超越人类的智能系统。他认为,这条通往ASI的道路将经历三个清晰的阶段:

第一阶段:智能涌现(学习人)。基于互联网数字化的海量人类知识,大模型涌现出通用对话和初步的推理能力,开始理解世界。目前,AI在各学科学术测试中已能逼近人类顶级水平。

第二阶段:自主行动(辅助人)。这是我们正处的阶段。AI的关键突破在于具备了使用工具(Tool Use)和编程(Coding)的能力。通过调用软件、接口和设备,AI开始在真实世界中辅助人类完成复杂任务,极大地提高生产力。

第三阶段:自我迭代(超越人)。这是通往ASI的终局。吴泳铭认为,此阶段有两个关键要素。第一,AI必须连接并直接从物理世界获取全量的原始数据,而非仅仅学习人类归纳后的二手知识。第二,基于海量真实世界数据,AI将具备自主学习(Self-learning)的能力,可以为自身升级搭建训练环境、优化数据流,最终实现智能的自我迭代。

这套三阶段理论,清晰地勾勒了阿里的技术路线图。展示了阿里对标OpenAI、谷歌等全球科技巨头,同台竞技、共同探索智能终极形态的雄心。

为此,吴泳铭提出了两个核心判断,这构成了阿里云当前战略的基石:

判断一:大模型是下一代的操作系统。在这个新范式中,自然语言成为新的编程语言,Agent是新的软件形态,Context(上下文)则是新的内存。大模型将成为用户、软件与计算资源之间交互调度的中间层。基于此判断,阿里云做出战略选择,推动通义千问模型开源,致力于打造AI时代的“Android”生态 。

判断二:超级AI云是下一代的计算机。未来的世界,每个人都可能拥有成百上千个Agent不间断地协同工作,这将需要海量的计算资源。数据中心的计算范式正从以CPU为核心,转变为以GPU为核心。只有具备超大规模基础设施和全栈技术能力的“超级AI云”,才能承载这样的需求。

阿里云的目标,正是要构建这样的“超级AI云”,为全球提供智能算力网络。为此,阿里正在进行饱和式投入。今年2月,公司提出了为期三年的3800亿AI基础设施建设计划,并且还会持续增加投入。吴泳铭在本次大会上进一步补充:为迎接ASI时代的到来,对比2022年,阿里云计划到2032年将其全球数据中心的能耗规模提升10倍。

技术:最领先的模型和基础设施

如果说“超级AI云”是下一代的计算机,那么它必须同时拥有最领先的AI模型(大脑)和最领先的AI基础设施(躯干)。此次云栖大会,阿里云围绕这两点进行了全栈体系的升级。

一、最领先的模型

阿里云本次连续发布了7款通义大模型,在智能水平、多模态和Agent能力等方面实现多项突破。

旗舰模型:通义旗舰模型Qwen3-Max,参数超过万亿,性能跻身全球前三,超过了GPT5和Claude Opus 4。其在解决真实世界问题的SWE-Bench测试中位列全球第一梯队,在Agent工具调用能力的Tau2-Bench测试中也取得了突破性成绩。

下一代架构:Qwen3-Next及系列模型,采用了高稀疏度MoE结构等创新技术,实现了模型计算效率的重大突破,训练成本较密集模型大幅下降超过90%,长文本推理吞吐量提升10倍以上。

专项与多模态模型

编程模型Qwen3-Coder,推理速度和代码安全性显著提升。

视觉理解模型Qwen3-VL,在32项核心能力测评中超越Gemini-2.5-Pro和GPT-5。

全模态模型Qwen3-Omni,音视频能力在32项开源测试中达到最佳性能(SOTA)。

通义万相推出Wan2.5-preview系列,视频生成时长提升至10秒,并首次实现音画同步的视频生成能力。

全新的语音大模型“通义百聆”,包含语音识别和语音合成两大模型。

模型能力的提升直接催生了应用的爆发。过去一年,阿里云百炼平台的模型日均调用量增长了15倍。同时,阿里云发布了全新的Agent开发框架ModelStudio-ADK和低代码平台ModelStudio-ADP,目前已有超20万开发者在百炼平台开发了超过80万个Agent。

二、最领先的基础设施

强大的模型需要坚实的基础设施支撑。阿里云CTO周靖人接受采访时表达了阿里云的判断:当下,整个行业对于技术路线而言,大方向的分歧已经很少。全球几乎所有公司,都在激进投入到AI竞争,快速发布模型。但问题在于,各个厂商具体怎么去做。

现在的模型竞争,已经是系统和系统之间的竞争。模型的发展创新不存在憋大招的说法,这和底层的基础设施、云都是相辅相成的。

过去一年,阿里云的AI算力增长超过5倍,AI存力增长超过4倍。本次大会,阿里云对其AI基础设施进行了全面升级,展示了从芯片到智算集群的全栈技术能力

服务器:AI大模型训练是典型的高性能计算场景,对算力密度、散热能力和芯片兼容性提出了苛刻要求。传统通用服务器机柜显然无法胜任。为此,阿里云发布全新自研的磐久128超节点AI服务器,单柜可支持128个AI计算芯片,密度刷新业界纪录,同等算力下推理性能可提升50%。

网络:在大规模分布式训练中,网络延迟和带宽直接决定了“木桶”的短板。阿里云新一代高性能网络HPN 8.0,GPU互联网络带宽达到6.4Tbps,可支持单集群10万卡GPU的高效互联。

存储:AI工作负载对存储的需求极为分裂。分布式存储升级,其中对象存储OSS推出Vector Bucket,可使构建RAG等AI应用的存储成本骤降95%。

AI智算集群:智能计算灵骏集群能力升级,通过拓扑感知调度设计支持10万卡稳定互联,并具备故障分钟级恢复能力。

平台与服务:容器服务ACK和人工智能平台PAI也针对AI场景进行了深度优化。PAI与通义大模型联合优化后,模型训练端到端加速比提升3倍以上,推理吞吐TPS增加71%,时延TPOT降低70.6%。

组织:那个能打的阿里回来了

从定义通往ASI的清晰路径,到构建“模型+基础设施”协同创新的AI超级计算机,阿里云正在以系统性的方式,做好准备,迎接并塑造这个由AI驱动的超级云计算周期。行业的未来图景已经日益清晰:算力即权力,而承载这股力量的,唯有超级AI云。

此次云栖大会,恰逢吴泳铭掌舵阿里云,确立“AI驱动”战略两周年。从结果来看,无疑是成功的,资本市场的积极反馈也侧面印证了这一点。

如果我们把视角放到阿里这家公司,经历了前几年的蛰伏,随着创始团队回归,那个以敏锐战略远见和强大组织执行力著称的阿里,又回来了。

(来源:新浪科技)



用户登录