英伟达,一招绝杀

2024年03月25日,19时51分09秒 科技新知 阅读 4 views 次

英伟达,一招绝杀

作者 | 荣智慧

唯物的中国芯片产业深度观察

黄仁勋是2024年科技界最大的“流量”明星,马斯克也得甘拜下风。

3月19日,黄仁勋换上TomFord价值8990美元的黑色皮衣,显然明白这场在加利福尼亚圣何塞的演讲将会激起怎样的反响:英伟达最新Blackwell B200图形处理单元面世,为火热的人工智能界再添一把干柴。

“我们将和合作伙伴一起,让世界开始加速计算。”黄仁勋说。他向观众展示芯片和服务器主板,“我要小心一点,这东西值100亿美元。”

英伟达,一招绝杀

黄仁勋在圣何塞举行的英伟达GTC大会上发表主题演讲

2023年,英伟达毛利高过爱马仕。

虽然口口声声“围剿”英伟达,但亚马逊微软、谷歌等巨头依然忙不迭地下订单。

OpenAI首席执行官奥特曼连夜发了一条推文:这是人类历史上最有趣的一年,却是未来最无趣的一年。

01

英伟达投下“AI核弹”

3月19日,英伟达创始人黄仁勋在一年一度的GTC(GPU技术大会)投下“AI核弹”。英伟达的最新产品,将“见证AI的变革时刻”。

“炸裂”的不仅是人工智能圈,半导体圈亦一片惊叹。刚刚于上海闭幕的半导体展会Semicon,几乎所有人的主题发言都提到Blackwell的“划时代”意义。

Blackwell B200是目前世界上最强大的芯片,包含两颗芯片共2080亿个晶体管,通过10 Tb/s的片间互联技术连接。其采用台积电4纳米制程工艺。比起制作Hopper H100的N4技术,性能提升了6%,综合性能提升约250%。

英伟达,一招绝杀

Blackwell GPU

从能力看,Blackwell B200的性能为20 PetaFLOPS(每秒可执行 20×10^15 次浮点运算),比上一代Hopper H100提升4倍,同时AI推理性能比上一代提升30倍。

值得注意的是,Blackwell B200并不是上一代产品的简单升级。因为人工智能大模型不仅要求芯片有“计算能力”,更要求芯片具有“并行能力”——实现多层的并行计算、层之间的通信。

Blackwell B200能优化张量并行、专家并行、管道并行和数据并行等方案,在可编程的基础上令计算更快,性能更佳。

而且,第五代NVLink为每个GPU提供1.8Tb/s吞吐量,确保当下最复杂的大型语言模型能在576个GPU之间无缝高速通信。

英伟达,一招绝杀

英伟达的NVLink Switch Chip

拿应用来说,GPT-4需要大约8000个Hopper GPU和15兆瓦的功率,训练90天;同样时长的训练只需使用2000个Blackwell GPU,消耗功率4兆瓦。

黄仁勋总结,Blackwell芯片在运行基于OpenAI的GPT-4等大型语言模型的生成式AI服务时,性能提高30倍,同时能耗降低25倍。

要知道,英伟达上一代Hopper芯片,晶体管800亿个。主力产品H100人称“世界上第一块为生成型AI设计的芯片”,价格4万美元,几乎永远处于“缺货”状态。马斯克曾大吐苦水,说“H100比毒品都难买”。

如今Blackwell B200更快更强,售价让人不敢想,而且多半有钱也抢不到。据黄仁勋介绍,客户群里亚马逊、谷歌、微软和特斯拉都会下单,而这款芯片“相当昂贵”。

02

命名里的玄机

英伟达的芯片架构,起名都很有“讲究”。

2006开始,英伟达陆续推出了Tesla、 Fermi、Kepler、Maxwel、Pascal、Volta、Turing、Ampere架构,分别对应著名科学家特斯拉、费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培。

上一代Hopper,得名于美国计算机科学家格蕾丝·霍普。她是哈佛大学Mark I计算机的第一批程序员之一,也是计算机编程的先驱。她第一个设计独立于机器的编程语言理论。使用该理论创建的FLOW-MATIC编程语言,后来被扩展为COBOL,至今仍在使用。

英伟达,一招绝杀

格蕾丝·霍普

这一代Blackwell则来自非裔美国数学家大卫·布莱克威尔。

布莱克威尔生于1919年,卒于2010年。2012年,美国总统奥巴马为其追授布莱克威尔国家科学奖章。他对博弈论的研究,为人工智能发展打下基础。通过统计两个玩家重复博弈的策略,布莱尔威尔设计了可接近性框架,能对动态环境中的决策过程进行建模。

英伟达,一招绝杀

大卫·布莱克威尔

在人工智能的训练中,他的研究让算法适应不断变化的条件,并在复杂场景中做出最佳决策。他对顺序分析、动态编程的理解,都有助于增强人工智能系统的经验,改进决策能力。

特别是拉奥-布莱克威尔(Rao-Blackwell)定理,提供了利用估算来减少误差、完善统计的方法。在机器学习、优化算法和概率建模中,准确的估算是提高人工智能系统的效率和有效性的重要工具。该定理应用于各种人工智能任务。

Blackwell芯片有极其明确的“AI”定位,用布莱克威尔命名也不奇怪。

英伟达,一招绝杀

从2016年到2024年,Blackwell的AI算力增长了一千倍

其实,芯片架构就好比家居装修里的“硬装”。一个毛坯房,是做货物仓库、家庭起居室还是门面商铺,要根据用途铺水电、砌墙。而设计软件,就相当于“软装”了。

英伟达“硬装”“软装”如今一起向AI发力。

除了Blackwell,软件平台NIM能让客户直接在生产环境里部署、定制和与训练AI模型。跟之前的CUDA一样,NIM免费提供,但只能和英伟达GPU搭配使用。

03

英伟达不卖芯片

“英伟达不卖芯片,英伟达卖的是数据中心。”黄仁勋公开表示。

根据财报显示,2023英伟达第四财季营收达到创纪录的221亿美元,同比增长265%。净利润123亿美元,同比暴增765%。其中最大的营收来源数据中心部门,达到创纪录的184亿美元,较第三季度增长27%,较上年同期增长409%。

英伟达,一招绝杀

英伟达四季度实现营收221亿美元,同比增长265%

整个2023年,英伟达约有四成收入来自数据中心。

数据服务,是一个每年2500亿美元的市场,并以20%至25%的速度增长。这全仗加速计算和生成式AI的火爆,全球范围内企业、产业和国家的需求正在激增。

因此,英伟达把数据中心(包含全栈系统和所有软件)视为自己的核心卖点。Blackwell GPU,只是其中的一环。

在这个意义上,Blackwell的定价,不是芯片产品的价格,而是数据中心服务的价格——网络、存储、控制平面、安全和管理模块,都将整合到客户的系统之中。

英伟达,一招绝杀

Blackwell 引入了第二代 Transformer 引擎

黄仁勋看好生成式AI带来的边缘计算机会。

当下的计算是“中心化”的。就像每次问老师一个问题,老师都要跑回办公室检索信息,耗费了大量的精力。人们每次打开手机,处理问题,都需要调动CPU来处理数据,耗费了大量的计算能力。

未来,计算是在边缘生成的,而不是基于检索。黄仁勋相信,未来人们电脑上的几乎每一个像素、每一次交互都将通过生成过程产生。这也是Blackwell新一代架构的能力所在。

黄仁勋判断五年内通用人工智能(AGI)将会到来。他认为,在大量的测试集上,比如数学测试、阅读测试、逻辑测试、医学考试、法律考试、GMAT、SAT 等等,AGI可以做到比大多数人类都好,甚至比所有人都好,就证明AGI足以走遍天下。

黄仁勋在英伟达GTC大会上

GTC开幕的第二天,有媒体问黄仁勋是当代达芬奇,还是奥本海默?黄仁勋回答,奥本海默是造炸弹的,我们不干这个。

有意思的是,媒体依然使用“AI核弹”来形容Blackwell的诞生——仿佛黄仁勋真的是造炸弹的。

虽然Blackwell和Hooper一样受美国出口禁令限制,不得向中国出售。但黄仁勋透露,英伟达下一代汽车智能芯片DRIVE Thor专为Transformer引擎设计,并将被比亚迪采用。

中国新能源汽车期待的智能化“下半场”,依然离不开英伟达芯片。

编辑 | 向由

值班编辑 | 张来

(来源:新浪科技)



用户登录