瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

2026年03月17日,10时29分39秒 科技新知 阅读 9 views 次

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

黄仁勋又站上了圣何塞SAP中心的舞台。这一次的GTC keynote,他用了将近两个小时,把英伟达的野心从芯片一路铺到外太空。

表面上看,这是一场产品发布会。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

Vera Rubin平台正式亮相,七颗芯片全部投产;

收购Groq,其产品首次以“Groq 3 LPX”的身份嵌入英伟达的推理体系;

自研CPU Vera问世,专为agent而设计;

发布DLSS 5,把神经渲染带进游戏画面;

基于爆火的OpenClaw,推出了英伟达自家的NemoClaw;

拉来Mistral、Perplexity、Cursor等一众AI公司,组建Nemotron开源模型联盟;

自动驾驶方面,比亚迪、吉利、日产、五十铃接入英伟达的DRIVE Hyperion平台,Uber宣布2028年前在28个城市部署英伟达全栈自动驾驶车队;

机器人基础模型GR00T N2亮相;

甚至还有太空计划,英伟达也要把算力送上轨道。

但黄仁勋真正想传达的信息,比任何一款产品都大。

他给出了一个数字:从2025年到2027年,AI芯片的营收将要超过1万亿美元。

黄仁勋说,在AI时代,token是新的货币,AI工厂是生产它们的基础设施。

接下来,黄仁勋先讲训练,再讲推理,然后是智能体、物理 AI、机器人、自动驾驶,层层递进。

每一层都对应更大的基础设施需求,而如今的英伟达,每一层都有产品可以卖。

这场keynote看下来不像是一份产品报告,更像一张帝国版图。

01

Vera Rubin:七颗芯片,一台超级计算机

Vera Rubin是这场发布会的核心硬件。它由七颗芯片组成:Vera CPU、Rubin GPU、NVLink 6交换芯片、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换芯片,以及新整合的Groq 3 LPU。

这七颗芯片全部投产,设计目标是组成一台协同工作的超级计算机,从大规模预训练、后训练、测试时推理扩展,到实时的agent推理,这一台机器就可以覆盖AI的所有流程。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

核心产品是Vera Rubin NVL72机架,集成72颗Rubin GPU和36颗Vera CPU,通过NVLink 6互联。

黄仁勋称,相比上一代Blackwell平台,NVL72训练大型混合专家模型所需的GPU数量减少到四分之一,推理吞吐量每瓦提升10倍,每token成本降至十分之一。

黄仁勋说,agent的拐点已经到来,Vera Rubin正在开启历史上最大规模的基础设施建设。

同时黄仁勋还预告了Vera Rubin之后的下一代架构Kyber,采用垂直插入的计算托盘设计以提升密度和降低延迟,将搭载在2027年出货的Vera Rubin Ultra上。

02

Groq LPU 登场

训练是英伟达发家之本,但推理才是接下来真正的战场。

因为训练只是一次性的重活,推理才是永不停歇的日常。

每一次你向AI提问、每一次你让AI帮你写代码,背后都是推理在运转。

黄仁勋提出的方案是把推理拆成两个阶段,分别用不同的芯片来处理。

大语言模型的推理分为两步:prefill(预填充)和decode(解码)。prefill阶段处理你输入的提示词,属于计算密集型任务,GPU擅长这个;decode阶段则是逐个生成回答的token,属于带宽密集型任务,需要极高的内存读取速度。

或者我们换一种方式来理解黄仁勋的话,prefill是“读题”,decode是“写答案”。读题可以一目十行并行处理,写答案只能一个字一个字往外蹦。

Groq 3 LPU就是为decode阶段而生的。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

LPU全称Language Processing Unit(语言处理单元),由Groq公司开发。

这家公司由前谷歌TPU团队成员创立,英伟达在2025年底以200亿美元收购了其核心资产。

每颗Groq 3 LPU内置了500MB的SRAM(静态随机存取存储器),带宽达到150TB/s,是Rubin GPU中HBM带宽(22TB/s)的近7倍。

SRAM可以理解为芯片内部的“超高速缓存”,容量小但速度极快,特别适合decode阶段对带宽的极端需求。

英伟达将256颗Groq 3 LPU装进一个LPX机架,与Vera Rubin NVL72机架并排部署。Rubin GPU负责prefill的重计算,Groq LPU负责decode的高带宽输出。

黄仁勋说,这种组合在万亿参数模型上能实现每兆瓦推理吞吐量提升35倍。

03

NemoClaw

黄仁勋在台上直接点名了Claude Code和OpenClaw,他说Claude Code和OpenClaw引起了agent的拐点。

黄仁勋夸赞OpenClaw,称OpenClaw向所有人打开了AI的下一个前沿,成为历史上增长最快的开源项目。Mac和Windows是个人电脑的操作系统,OpenClaw是个人AI的操作系统。这是整个行业一直在等待的时刻。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

英伟达为OpenClaw推出了NemoClaw。

NemoClaw是通过NVIDIA Agent Toolkit优化过后的OpenClaw,一条命令即可完成安装。它的核心组件是OpenShell,这是一个提供开源模型和隔离沙箱的环境,为agent加上基于策略的安全、网络和隐私护栏。

黄仁勋说,OpenShell为OpenClaw提供了下面缺失的基础设施层,让agent在获得执行权限的同时受到安全约束。

NemoClaw的模型调度采用混合架构:本地运行Nemotron等开源模型处理隐私敏感任务,通过隐私路由器(privacy router)调用云端前沿模型处理更复杂的请求。

NemoClaw可以运行在GeForce RTX的电脑和笔记本、RTX PRO工作站,以及DGX Station和DGX Spark AI超级计算机上,提供7×24小时本地计算支持。

04

Nemotron联盟

英伟达也要在开源模型层上搞点动作。

Nemotron联盟是一个全新的合作机制,首批成员包括Black Forest Labs、Cursor、LangChain、Mistral AI、Perplexity、Reflection AI、Sarvam和Thinking Machines Lab(由前 OpenAI CTO Mira Murati 创立)。

联盟的第一个项目是由Mistral AI和英伟达联合训练一个基础模型,其他成员贡献数据、评估框架和领域专业知识。模型将在英伟达DGX Cloud上训练,开源发布,并成为即将推出的Nemotron 4模型家族的基础。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

黄仁勋的潜台词就是,英伟达希望开源模型生态繁荣,因为开源模型的用户最终需要英伟达的硬件来训练和部署。

一个由多家AI公司共同参与的开源模型联盟,既能对抗闭源巨头的垄断趋势,也能确保英伟达的基础设施在开源生态中保持核心地位。

05

自动驾驶

自动驾驶是英伟达近几年的重点之一。

比亚迪、吉利、日产、五十铃宣布采用英伟达DRIVE Hyperion平台开发L4级自动驾驶车辆。

Uber宣布与英伟达扩大合作,计划到2028年在28个城市、四个大陆部署全栈英伟达自动驾驶软件驱动的自动驾驶车队,首批城市是洛杉矶和旧金山湾区,2027年上半年启动。

Bolt、Grab、Lyft 也在接入 DRIVE Hyperion。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

L4级自动驾驶意味着车辆在特定条件下可以完全自主驾驶,不需要人类随时准备接管。

目前大多数量产车上的L2级辅助驾驶仍然要求驾驶员时刻保持注意力,AI只是“辅助”;L4则是AI真正在开车,人类可以不管。

黄仁勋还借此机会发布了Alpamayo 1.5,这是一个可交互、可引导的自动驾驶推理模型,能接受视频、自车运动历史、导航指引和自然语言提示作为输入,输出带有推理链的驾驶轨迹。

开发者可以通过文本提示直接调整车辆行为。

06

AI 工厂的数字孪生

英伟达推出了DSX Air,一个用于在软件中模拟AI工厂的SaaS平台。

黄仁勋前几年提出过一个叫“数字孪生”(Digital Twin)的概念,是指在虚拟环境中创建一个与真实物理系统完全对应的数字副本。

工程师可以在这个虚拟副本上进行测试、优化和故障排查,而不需要碰真实的硬件。

就像你搬新家之前,先在3D软件里把家具摆一遍,看看哪里不合适。

只不过这里“搬”的是一整座超大规模AI数据中心。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

DSX Air允许客户在硬件到货之前,就在模拟环境中搭建完整的 AI 工厂。

计算、网络、存储、编排、安全,全部按照实际部署方案配置。

CoreWeave已经在使用DSX Air来模拟和验证其AI工厂环境。

黄仁勋称,这种方式可以将“从部署到产出第一个token”的时间从数周甚至数月缩短到几天甚至几小时。

配合DSX Air的是Vera Rubin DSX AI工厂参考设计和Omniverse DSX蓝图。

前者是一份关于如何设计、建造和运营 AI 工厂基础设施的完整指南,后者则提供物理精确的数字孪生能力,用于大规模 AI 工厂的设计和仿真。

Cadence、达索系统、西门子、施耐德电气等工业软件巨头都在接入这套体系。

黄仁勋还发布了DSX Max-Q动态功率分配技术,称可在固定电力的数据中心内多部署30%的AI基础设施。

DSX Flex软件则让AI工厂成为电网灵活资产,黄仁勋说可以释放100吉瓦的闲置电网容量。

07

存储也要重新发明

BlueField-4 STX是英伟达为agent设计的新存储架构。

传统数据中心的存储系统提供大容量通用存储,但缺乏agent所需的实时响应能力。

agent在实际工作中,需要跨多个步骤、工具和会话保持上下文记忆,传统存储的延迟会拖慢推理速度、降低GPU利用率。

STX架构的首个落地产品是CMX上下文记忆存储平台,它在GPU内存之外扩展了一个高性能上下文层,用于可扩展的推理和智能体系统。

黄仁勋称,与传统存储相比,CMX可提供5倍的每秒token吞吐量、4倍的能效提升和2倍的数据摄取速度。

CoreWeave、Crusoe、Lambda、Mistral AI、Nebius、Oracle等计划采用STX用于上下文记忆存储。Dell、HPE、IBM、NetApp、VAST Data等存储厂商正在基于STX参考设计构建下一代AI存储基础设施。

08

DLSS 5:游戏画面的“GPT 时刻”

游戏才是英伟达的老本行。

黄仁勋在演讲中提到,DLSS 5是自2018年推出实时光线追踪以来最重大的图形突破。

DLSS全称Deep Learning Super Sampling(深度学习超级采样),是英伟达用AI提升游戏画面质量和性能的技术。

此前的版本主要通过AI放大分辨率和生成中间帧来提升帧率。DLSS 5引入了一个实时神经渲染模型,能够为游戏画面注入照片级真实的光照和材质效果。

瞄准1万亿美元,黄仁勋把产品从芯片一路铺到太空

简单来说,以前的DLSS是“让画面更流畅”,DLSS 5是“让画面更真实”。

它接收游戏每一帧的颜色和运动向量作为输入,用AI模型理解场景中的角色、头发、布料、半透明皮肤等复杂元素,以及正面光、逆光、阴天等环境光照条件,然后生成视觉上精确的增强图像。

Bethesda的《星空》《上古卷轴》、CAPCOM的《生化危机》、育碧的《刺客信条:影)、腾讯、网易等厂商已确认支持。

DLSS 5将于今年秋季推出。

09

太空计算:最后的边疆

最后,英伟达也宣布进军太空计算。

黄仁勋说,太空计算是最后的边疆,现如今已经到来。

“随着英伟达部署卫星星座、向更深的太空探索,智能必须存在于数据产生的任何地方。太空与地面系统之间的AI处理实现了实时感知、决策和自主运行,将轨道数据中心变成发现的工具,将航天器变成自主导航的系统。与我们的合作伙伴一起,我们正在将英伟达延伸到地球之外——大胆地将智能带到它从未到达的地方。”

于是黄仁勋拿出了Space-1 Vera Rubin Module,这是一个面向轨道数据中心的计算模块。

采用紧密集成的CPU-GPU架构和高带宽互联,专为尺寸、重量和功耗(SWaP)受限的太空环境设计。

黄仁勋称,相比H100,Space-1在太空推理场景下提供25倍的AI算力提升,能够在轨道上直接运行大语言模型和高级基础模型,处理来自太空仪器的海量实时数据流。

配合Space-1的还有两款已经可用的平台:IGX Thor和Jetson Orin。

IGX Thor提供工业级耐久性和功能安全,适合任务关键型边缘环境。

Jetson Orin则是超紧凑、高能效的AI推理模块,已经部署在卫星上用于视觉、导航和传感器数据的实时处理。

在地面端,RTX PRO 6000 Blackwell Server Edition GPU用于地理空间情报的大规模处理,英伟达称其分析海量卫星图像档案的速度是传统CPU系统的100倍。

(来源:新浪科技)



用户登录