霍丹·奥马尔:用AI写100字邮件等于耗半升水?“数据中心焦虑”偏离了方向
【文/霍丹·奥马尔,翻译/鲸生】
数十年来,数据中心一直是信息经济中默默无闻却坚实可靠的基础引擎,在全球商业和日常生活的后台持续运转。但随着人工智能(AI)的兴起,这些设施被骤然推至公众舆论和政治的聚光灯下。人们愈发担忧数据中心的扩张将对能源系统、水资源以及地方基础设施造成的影响。然而,对这些焦虑情绪的根本成因,各界理解尚不透彻,且常常错误归因。至于政策应对措施则往往针对AI部署的规模,而非其系统性影响。
本报告审视了相关争论中五个最为重大的论断——涵盖电力使用、电网接入、电价、供电可靠性以及水资源的影响——并得出一致结论:核心挑战并非AI基础设施本身,而是用于衡量、定价和管理其影响的制度框架。推动这些框架的现代化,既能保护普通家庭与社区、强化电网性能、减少环境影响,又能允许AI基础设施建设以支撑美国竞争力和创新力的方式有序扩张。

引言
在塑造相关立法提案、监管行动和公众舆论的争论中,有五大论断居于核心地位:
这些论断的提出各有其缘由。在某些情况下,批评者确实指出了真实存在的物理压力——如更剧烈的用电尖峰、波动更大的热负荷——但采取的应对方式却较为生硬,例如设置禁令或容量上限,而非能够直接应对这些压力的技术和运营解决方案。在另一些情况下,批评者指向的问题确实值得关切,例如居民电费上涨,但对原因的诊断却有误,将其归咎于数据中心的需求,而非主导电网成本回收与转嫁方式的市场设计规则。还有一些情况中,批评更多反映了对大规模AI部署的笼统式反对,而非一种清晰界定的、有经验证据支撑的系统性风险。
本报告将逐一审视上述各项论断。
第一,关于AI数据中心耗电过多的担忧。虽然AI工作负载确实增加了电力需求,但数据中心并非全球电力需求增长的主要、次要甚至第三级驱动因素。更重要的是,电力使用本身并非一个政策问题,除非它导致了某种具体的负面影响,例如居民用电成本的上升、电网可靠性降低或环境损害。将电力消耗本身视为问题,可能导致政策矛头错误地指向规模而非实际影响。为确保政策制定者在评估能源使用时着眼于实际结果而非吸引眼球的数字,国会应指示美国国家标准与技术研究院(NIST)和能源部(DOE)开发“单位工作能耗”指标体系,以衡量相对于产出效率的电力使用情况,并支持推动此类标准的国际协调统一。
第二,关于AI数据中心挤占有限电网容量其他用途的担忧。数据中心在“抢占”电网这一说法,暗示其需求正在挤占更具社会价值的电力用途,并默认这些工作负载本身的社会效益较低。这并非公允的评价。数据中心支撑着广泛的经济与公共利益,而关于其在新增需求中占比的广泛引用数据,往往依赖并网申请队列信息,但由于其中存在大量投机性和重复性申请,这些数据高估了实际所需的容量。这并非否认美国电网正面临压力。政策制定者应将重点放在降低所有项目——无论是清洁能源、医院、住房还是数据中心——接入电网的难度上,而非限制某一类需求。国会应要求公用事业公司公开报告融合AI与自动化技术的队列管理最佳实践;联邦能源管理委员会(FERC)应将电网运营商的成本回收机制与可量化的并网审批研究周期缩短情况挂钩;国会还应利用联邦税收抵免和贷款计划,激励并网申请的自动化处理。
第三,关于AI数据中心将推高居民电费的担忧。认为数据中心增长必然导致居民电费上涨的观点,错判了问题的根源。如果数据中心需求在本质上会推高居民用电成本,那么类似的需求增长应在不同地区产生相近的价格涨幅。但事实并非如此。在某些地区,公用事业公司基于对未来需求的预测向发电商支付容量预留费,这意味着仅凭预测的AI负荷增长就可能立即引发居民成本上升——甚至在单个数据中心尚未动工之前。而在其他地区,发电商仅按实际输送的电量获取报酬,因此类似的需求增长并不会带来同样的价格冲击。
造成差异的关键不在于数据中心增加了多少需求,而在于市场规则决定了这些成本何时、以何种方式转嫁给居民用户。当前的美国电价结构还假设需求在很大程度上不具弹性,但许多AI工作负载实际上可以根据价格信号在时间或地点上进行调整。政策制定者应支持具备电网感知能力的负荷灵活调度,使大规模用电负荷能够在电网压力峰值时段调整用电行为,从而减少对最昂贵电源的依赖,并抑制本会传导至居民端的电价飙升。
第四,关于AI数据中心威胁电网可靠性的担忧。AI工作负载确实带来了新的运行挑战,尤其体现在其用电需求高度波动且变化极快。风险源于这类负荷模式与并非为应对快速波动而设计的电网基础设施之间的互动方式。要解决这一问题,需要确保大规模用电负荷以有利于系统稳定性的方式管理其电力消耗。国会应支持制定一项行业行为准则,内容涵盖负荷平滑、现场电力缓冲及功率变化率控制等方面。国会还应指示FERC将有利的并网条款与遵守此类标准挂钩,并鼓励保险公司向证明合规的运营商提供更优惠的保费。
第五,关于AI数据中心给地方水资源带来压力的担忧。相关讨论常聚焦于数据中心使用了多少水,但用水本身并不等同于对水资源造成损害。关键问题在于水资源从何处抽取、如何被使用,以及是否以维持当地生态系统的方式回归环境。许多数据中心运营商已采取措施管理和补充其用水,但用水消耗与回补量衡量方式的差异,导致难以评估其实际影响或比较不同运营商之间的表现。
国会应指示美国国家环境保护局(EPA)与NIST协调,建立一套标准化的水资源核算框架,明确规定必须衡量的指标以及回补量的核实方法,以确保不同运营商之间报告的一致性和可比性。国会还应指示EPA识别水资源压力较高的区域——即数据中心取水风险最大的地区,并在这些地区激励采用低取水冷却技术和提高用水效率。政策制定者也应支持将数据中心整合到区域供热系统中,以对其废热进行再利用。
什么是数据中心?
数据中心是用于管理、存储、处理和传输海量数字信息的设施。它们支撑着从电子邮件、视频流媒体、云存储等日常服务,到处理银行交易、政府文件和大规模商业运营的企业级系统在内的各类应用。越来越多数据中心也在支持包括人工智能在内的更高强度计算任务。
这些工作负载的复杂性和强度各异,但它们都依赖相同的核心基础设施:用于处理数据的服务器机架、用于传输数据的高速光纤网络、用于维持温度稳定的冷却系统,以及保障全天候不间断运行的稳定、大容量电力供应。在AI出现之前,企业设计的大多数数据中心旨在处理模式相对可预测、电力需求适中的混合型工作负载。
图1展示了一个典型数据中心的构成——从电力和数据如何五大关切之前,有必要仔细审视一个体现尖端AI硬件样貌的实例。英伟达的DGX H100是一款围绕该公司H100芯片构建的专用服务器——H100芯片数年来一直是市场上最先进的AI处理器之一,也是当今数据中心部署最广泛的AI处理器之一,其性能之强大以至于受到美国政府的出口管制。DGX H100是一个由英伟达完全设计并集成的整套一站式系统。
在接下来的案例研究中审视DGX系统,观察英伟达所做出的全部设计选择,可以清晰展示一款明确为AI工作负载构建的服务器与传统机器有何不同,并为后续章节——关于这些差异如何向外传导并塑造整个数据中心的设计——做好铺垫。
英伟达DGX H100内部探秘:一台为AI而生的服务器
每一台DGX服务器的核心是八颗英伟达H100图形处理器。下图展示了该系统的拓扑结构,这些图形处理器居于中心位置。每颗图形处理器内置两种主要核心:张量核心与CUDA核心。张量核心专为深度学习中占主导地位的矩阵乘法运算而生,H100通过自动混合精度技术加速这一工作——即在计算过程中动态切换不同浮点数据精度以兼顾速度与精度。而CUDA核心作为通用处理器,负责处理不适合矩阵数学的任务,例如数据预处理、激活函数以及AI程序的整体流程管理。
图2:DGX H100系统拓扑图 不同于传统服务器中内存与处理器分置在不同模块,H100将内存直接置于芯片之上。这听起来像是内存直接堆叠在处理核心上方,但实际情况并非如此。
如图3所示,图形处理器逻辑芯片(红色部分)是容纳处理核心的引擎。其旁侧是垂直层叠的高带宽内存芯片,底部有一被称为基底芯片(Base die)的控制层,负责通过一片名为中介层的薄硅片管理与处理器的通信。基底芯片是高带宽内存的一部分。实际结构远比此示意图中更为纤薄紧凑,但原理不变:图形处理器所用的高带宽内存通常向上堆叠建造,而非平铺展开。
图3:图形处理器旁侧高带宽内存的垂直堆叠 图形处理器芯片还带有内置端口,用以连接服务器中的其他设备。在H100上,部分端口专用于NVLink——一种将一颗图形处理器与另一颗直接相连的专用高速连接,为图形处理器间的通信提供了比标准接口更快的通道。H100芯片上的其他端口则将图形处理器连接至NVSwitch,后者如同集线器,使服务器内每颗图形处理器都能同时与其他所有图形处理器对话——为大规模AI工作负载构建了一个紧密互联的网络。最后,图形处理器芯片还包含与服务器中央处理器通信的端口。
图2的其余部分展示了这些处理器如何向外连接至网络与存储。在两侧,中央处理器连接至高速网络适配器,借助以太网或InfiniBand等技术提供外部连接,既用于服务器间数据传输,也连接至存储系统以访问海量数据集。系统还包含大量用于数据缓存与本地工作的内部高速存储。尽管图中显示为两个独立部分,但它们如同大脑的两个半球,作为一个统一的整体协同工作。
总而言之,DGX系统揭示了图形处理器内部的变革如何远远超出芯片本身而产生涟漪效应。这些组件的排布方式——垂直堆叠、更密集的封装、通过专用桥接互连——产生了更多热量,必须借助先进冷却系统将其排出。所增加的重力负荷与功率密度,反过来又对数据大厅的建造方式提出了新要求。简言之,使H100这类图形处理器面对AI工作负载如此高效的创新,同时也对服务器乃至整个数据中心的设计与运行提出了一系列新要求。
关切一:AI工作负载耗电过多
与前文所述的另外四个关切不同,它们将AI更高的电力消耗与具体的下游效应联系起来,如挤占其他电网容量、推高居民电费、威胁电网可靠性、给地方水资源带来压力等;而“AI数据中心耗电过多”这一论断常常是独立提出的。
确实,AI工作负载增加了数据中心对电力系统用电规模的需求,因为运行和操作AI所需的硬件,其功耗显著高于用于传统计算的硬件。根据SemiAnalysis的研究,一台典型的CPU和存储服务器在正常运行时的平均瞬时功耗约为1千瓦,而单台AI服务器的功耗则处于10千瓦的量级。具体而言,SemiAnalysis发现,一台DGX H100服务器在正常运行时的平均功耗约为10,200瓦。
但数据中心并非全球电力需求增长的主要、次要甚至第三级驱动因素。图4展示了国际能源署的数据,显示了从2024年到2030年各行业电力需求的预计增长量,单位为太瓦时——这是衡量国家或全球层面电力消耗的标准单位,相当于维持一小时一万亿瓦的功率。数据显示,在2024年至2030年间,数据中心用电量的增长将占全球电力需求总增长量的不到10%。其他因素,如工业产出、交通和建筑电气化、空调使用增加以及电动汽车的部署,预计将对整体需求增长贡献大得多的份额。

图4:按产业划分的全球电力需求增长预测,2024-2030年,从上至下:其他、重工业、供暖与热水供应、数据中心(橙)、空间冷却、家电用具、电动运输、轻工业。单位:太瓦时
相比其他大规模需求来源,数据中心并非唯一给电网带来压力的需求来源。因此,如果这种担忧并未指向具体的下游损害——如消费者成本上升、环境破坏、电网可靠性降低或其他用户被排挤——那么它实际上并不涉及可测量的系统性失效。在这种情况下,电力消耗便成了对AI规模或发展速度更广泛疑虑的替代指标。将绝对的电力消耗本身视为问题,是用对AI部署的本能式抗拒替代了严肃的政策辩论,却从未明确指出究竟需要解决何种具体问题。
政策制定者应为AI建立“单位工作能耗”指标,确保电力使用比较与产出效率挂钩
即使政策制定者认同应根据下游效应来评估电力使用,绝对消耗量仍常成为这些关切的简略表征。但仅凭总用电量数据,并不能区分哪些系统的功耗更高是因为其计算产出实现了数量级的跃升,而哪些系统的功耗更高却并未带来相应的处理能力提升。一则关于“数据中心今年用电量是去年两倍”的头条新闻,丝毫不能揭示AI系统的效率是变得更低,还是产能大幅提高。若无法将能源使用与产出相关联,此类比较非但无助于澄清,反而可能扭曲政策辩论。
“单位工作能耗”指标使这一区别变得明晰。通过直接将电力使用与产出挂钩,它能揭示额外的电力消耗是否转化为了成比例的计算能力、速度或吞吐量增长,抑或电力使用的上升并未带来有意义的生产力增益。这将能源辩论的焦点从原始消耗量转向了电力转化为有用工作的效率。
产业界已开始朝此方向努力,开发出诸如“每瓦性能”或“每瓦智能度”等衡量标准。MLPerf Power已成为一项领先的基准测试工具,用于衡量完成特定计算工作负载(如训练一个模型或处理固定数量的推理任务)所需的能耗。对于大语言模型,研究者越来越多地使用“每焦耳生成词元数”(tokens-per-joule)来衡量单位能量产生的语言输出量。在硬件层面,“每瓦浮点运算次数”(FLOPs-per-watt)衡量的是芯片将功率转化为原始计算能力的效率,而新型AI加速器在设计中明确追求最大化这一比值。
在美国,国家标准与技术研究院(NIST)应与能源部(DOE)合作,为衡量AI系统的单位有用工作能耗制定推荐最佳实践。这些最佳实践应侧重于训练和推理环节的工作负载级别生产率,而非总功耗,并可借鉴现有方法,如基于任务的基准测试、每瓦性能测量以及系统级效率指标。例如,相关标准可规定一组代表性AI任务、测量方法以及参考硬件配置,从而能够在无需披露专有模型细节或训练数据的情况下,跨模型和系统比较“单位工作能耗”。
美国还应通过七国集团(G7)和经济合作与发展组织(OECD)等国际论坛开展工作,鼓励各方围绕这些基于生产率的指标形成共识。国际协调一致有助于确保“单位工作能耗”指标成为评估AI系统的共同参考基准,而非导致各司法管辖区出现各自为政、互不统一的衡量体系——尤其是在部分国家正考虑针对AI能源使用出台强制性报告要求的背景下。
关切二:AI工作负载挤占有限电网容量的其他用途
批评者认为,用于AI的数据中心挤占了其他具有社会价值的电力用途。随着电力系统日益紧张,本可用于支持家庭电气化、交通电动化或工业脱碳化的稀缺电力,却被转用于运行商业AI工作负载的私营数据中心。从这个角度看,AI不仅增加了电网需求,还与其他优先事项直接争夺有限的容量。这一批评在美国电网扩张滞后于需求增长的地区尤为尖锐。
要理解这一关切在美国的具体表现,有必要先了解美国电力系统的组织架构。美国并非由单一的统一电网供电,而是划分为多个区域性电力系统,各自拥有独立的运行规则、规划流程和可靠性标准。在美国大部分地区,日常电网运营由被称为“区域输电组织”(RTO)或“独立系统运营商”(ISO)的非营利实体负责管理。
诸如中大西洋地区的PJM、中西部的MISO以及加利福尼亚州的CAISO等RTO和ISO,并不拥有发电厂或输电线路。它们的职责是运营电网。它们协调跨州区域电力的实时流动,确保供需平衡,并管理决定谁能够接入系统以及接入条件的技术规则。
图5:美国的区域输电组织(RTO)和独立系统运营商(ISO) 这些电网运营商的核心职责之一是确定哪些资源可以向电网输送电力,以及哪些大型用户被允许汲取大量电力。由于电力必须即时、可靠地输送,任何新的连接请求——无论是供应侧的发电厂还是需求侧的大型工业负荷——都必须经过一项被称为“并网”的正式技术审查。这一流程旨在确保新项目不会造成输电线路过载、电压或频率失稳,或增加停电风险。
因此,并网流程起到了一种把关机制的作用。电网运营商会研究拟议项目对变电站、输电线路及其他共享基础设施的影响,并可能在批准连接前要求进行升级改造。这些研究耗时较长且按顺序进行,这意味着项目会被列入队列并依次接受评估。
由于电力接入受制于缓慢、顺序进行的并网流程,且电网本身的扩张也是渐进式的,批评者认为,整个系统吸纳大规模突增需求的能力有限。在此背景下,他们认为,吉瓦级AI数据中心的出现,将稀缺的电力资源倾斜给了私营数据中心部署,而牺牲了其他形式的电气化和清洁能源应用——后者必须在同样受限的系统内竞争。作为回应,批评者呼吁采取措施减缓或暂停新数据中心的审批。例如,弗吉尼亚州曾提出一项法案,旨在暂时叫停新增项目,直至现有并网申请处理完毕,其明确引用的风险便是本已紧张的队列将变得更加拥堵。
投机性队列申请扭曲了对电网使用的认知
许多用于论证数据中心正在“抢占”电网的吸人眼球的统计数据,例如声称数据中心占新增电力请求的90%以上,均源自并网申请队列数据,而这些数据严重高估了实际需求。正如劳伦斯伯克利国家实验室(LBNL)在其2025年《排队报告》中所记录的那样,美国并网队列充斥着投机性且最终不可行的项目。开发商经常为同一项目在不同地点提交多个重叠的并网申请,以便在选址、许可和成本谈判过程中保留选择余地。一旦确定可行地点,其余申请将被撤回,往往一次性从队列中移除数百兆瓦的“容量”。
即便一份撤回的申请从未消耗哪怕一瓦电力,它在并网队列中的存在也会导致电网运营商如同对待真实项目一样,进行复杂且耗时的可靠性研究。这就造成了一个瓶颈:合法的项目,如新住房开发、医院或可再生能源场地,反而被困在这些投机性数据中心的占位申请之后,其电网接入遭到延迟。
正因如此,联邦能源管理委员会(FERC)等监管机构在2023年引入了更严格的队列改革措施,包括提高撤回申请的罚金以及设置基于里程碑节点的研究要求,旨在确保开发商在预留容量前确有实质性的财务承诺。许多RTO和ISO也提高了保证金要求并收紧了场地控制标准。这些改革生效后,尽管新项目的实际需求并未显著下降,但并网队列规模在2024年出现了多年来的首次缩减。将虚高的队列排位等同于实际用电,是将管理流程的拥堵与物理层面的稀缺混为一谈,其风险在于,对文书积压问题做出的反应,仿佛反映的是本地电力供应的真正短缺。
“抢占”论忽视了自备电力供应
声称数据中心在“抢占电网”的观点,还忽视了运营商正试图彻底摆脱排队序列的趋势。许多开发商并未去争夺稀缺的电网容量,而是加速转向用户侧自备电源解决方案,即在场地内部或附近直接发电或签约购电,以减少对公共电网的依赖。麦肯锡估计,到2030年,自备发电可满足美国高达30%的新增数据中心需求,远高于2023年不足5%的水平,因为企业希望借此规避存在多年的并网延迟。在实践中,这意味着建设能够独立运行的本地化微电网,整合大规模电池储能、现场发电(如高效天然气轮机)以及燃料电池等新兴技术。
即便如此,将需求从公用电网转移出去并未消除并网挑战,而是改变了其形式。用户侧发电、专用可再生能源以及新的稳定电源,要连接、同步或向电网输电,仍需获得电网批准。当新负荷的审批时间线与新电源的并网时间线出现错配,且新负荷与新电源无法在电网运行限制内安全协同时,项目便可能停滞。
爱尔兰正深刻经历这一问题。尽管拥有可观的海上风电项目储备,但该国新数据中心的发展已然放缓,原因在于国家电网运营商EirGrid无法在不增加系统失稳风险(包括暂态故障和频率失衡)的情况下安全接纳更多高密度负荷。2024年,EirGrid警告称,若并网协议持续停滞,可能引发数据中心的“大规模外流”。亚马逊已暂停在爱尔兰的进一步投资,理由是新的海上风电项目何时及如何并网存在不确定性,以及对于数据中心获取能源接入的具体要求缺乏明确指引。并网延迟不仅是技术问题,还可能阻碍投资并削弱一国的数字竞争力。在美国,类似问题同样存在,但供需匹配的速度与可靠性因区域电力市场而异。
政策制定者应通过推广AI赋能的并网流程来减少积压
政策制定者应将重点放在推广和制度化AI赋能的并网流程上,以缩短大型能源用户和新增电源接入电网所需的时间。虽然试点项目已证明AI能够加速并网研究,但这些成果仍不均衡且高度本地化,缺乏在整个并网流程中常规化推广的明确路径。
美国能源部的“AI促进并网”(AI4IX)倡议是一个有益的起点,但其影响仍受限于规模和范围。按照目前架构,AI4IX主要作为一项试点资助计划运作,支持电网运营商、项目开发商和软件供应商之间的合作,以实现并网流程中离散环节的自动化。例如,它可能资助一个专注于电网容量与影响模拟的项目,利用AI快速评估拟议项目对现有电网状况的影响,从而加快并网批准所需的技术研究。
这些努力是宝贵的概念验证,展示了技术上的可行性,并有助于降低公用事业公司和监管机构采用新方法的风险。但除非其成果能够在各区域得到系统性采纳并嵌入标准的公用事业实践中,否则,此类试点无法实质性减少并网积压。推动普及需要一系列干预措施的组合。
首先,国会应要求公共电力传输提供商采纳并共享包含先进计算工具(包括AI、机器学习和自动化技术)的并网队列管理最佳实践。这一思路的版本之一曾出现在2024年拟议的《能源部人工智能法案》中,该法案要求输电提供商“酌情共享并采用关于使用计算技术……评估和处理并网请求的队列管理最佳实践,以加快出具研究结果”。这些报告应公开发布,既能让研究人员、监管机构和电费缴纳者权益倡导组织对各家公用事业公司的表现进行对标评估,也能对落后企业形成自然的问责压力。重提这一构想将有助于推动AI赋能的并网流程从孤立的试点项目转变为持久、系统性的能力。
其次,FERC应通过改变电网运营商执行并网流程的收费方式,引入并网效率激励机制。RTO和ISO负责审查并网请求,并开展新电源和大型能源用户接入电网所需的技术研究。由于它们通常是不销售电力的非营利实体,其开展此项工作的成本通过经FERC批准的规费和费率回收。目前,无论并网研究耗时多久,这些成本一般都能得到回收——这种模式依赖于传统的服务成本监管,而后者通常来说激励属性不佳。FERC可以改为将部分成本回收与绩效挂钩,例如与研究周期的可量化缩短情况挂钩。这将效仿现有的基于绩效的监管框架,即奖励公用事业公司达成特定的可靠性或效率目标。按照这种方式,无论通过经DOE验证的AI和机器学习工具、流程优化还是其他创新手段,只要电网运营商显著缩短了并网时间线,就应获得奖励。AI赋能的工具尤其前景可期,因为它们提供了一种在整个系统内规模化加速研究流程的途径。
第三,国会应在能源部2025年底启动的“加速送电”倡议基础上更进一步——该倡议旨在加速开发支撑AI驱动的负荷增长和再工业化所需的多吉瓦级能源项目——利用联邦财政支持来激励采用现代化、自动化的并网流程。具体而言,国会应要求,凡依据《通胀削减法案》寻求联邦税收抵免或通过能源部贷款项目办公室寻求债务融资的发电和电网基础设施项目,只要相关区域输电组织或公用事业公司具备可用的标准化、自动化并网申报工具,就必须使用这些工具进行申报。通过将联邦资金的获取与自动化并网接口的使用挂钩,国会将加速该技术的大规模应用,并将AI赋能的并网流程从孤立的试点项目转变为对近期电网扩张最为关键的能源项目的常规实践。
关切三:AI工作负载将推高居民电费
批评者认为,高耗能AI设施的快速增长将不可避免地推高普通家庭的月度电费账单。根据这一观点,与AI驱动型数据中心增长相关的成本,主要通过两个渠道最终转嫁给居民用户:受监管的基础设施成本与趸售电力价格(wholesale electricity prices)。
受监管的基础设施成本
在美国大部分地区,电力由受监管的公用事业公司供应——这些私营企业或公共实体在划定的服务区域内作为垄断企业运营。由于此类公用事业公司不面临直接竞争,其投资决策和用户电价受到州级公用事业委员会的监管。
2024年5月至2025年5月,美国各地区居民电价平均涨幅 制图:Axios新闻网 当公用事业公司认定需要新建基础设施(如建设输电线路、变电站或对电网进行加固等)以满足日益增长的用电需求时,它必须通过被称为“费率审理”的正式流程寻求批准。在费率审理中,公用事业公司请求公用事业委员会允许其回收成本并获得受监管的回报,并提出如何依据成本归因原则将这些成本在不同用户类别——居民、商业和工业——之间进行分配,该原则主张,用户应按其对系统施加成本的比例付费。
批评者认为,由少数大型数据中心驱动、耗资数十亿美元的电网升级改造工程,其成本正越来越多地被分摊至整个电费基数。在此情景下,新基础设施的成本被嵌入到向居民收取的月度输电费用中。批评者进一步警告称,若数据中心需求放缓或发生转移,这些长寿命资产可能沦为搁置资产,导致居民用户需要为他们并未要求建设的、长达数十年的基础设施债务负责。
趸售电力价格
公用事业公司并非自产所有销售的电力。在美国大部分地区,它们通过持续拍卖方式运营的区域趸售市场购电。这些市场由PJM、MISO等区域电网运营商运作,它们负责协调跨州区域的电力供需。
在这些市场中,发电厂提交投标,说明其能够供应的电量及愿意运营的最低价格。然后,电网运营商将这些投标按最低价到最高价进行排序,并调度足够的发电容量以满足当时的总需求。这一体系的关键特征在于,所有电力均按满足需求所需的最后一台发电厂所报价格进行结算。这通常是成本较高的电厂,也可能是运行成本高昂但产能足以快速爬坡的天然气“调峰”电厂。即便大部分电力可能来自核电、煤电或可再生能源等较廉价电源,但支付给所有发电商的价格反映的仍是该边际、最后调度机组的成本。
批评者认为,大型AI数据中心因其新增了大量稳定、全天候的需求而影响了这一定价机制。当总需求上升并接近系统可用供应上限时,电网运营商必须更频繁地调用这些高成本电厂以满足高峰或接近高峰时段的状况。从实际角度看,这意味着市场更频繁地以更高价格出清,因为需要更经常地动用昂贵电厂来维持供电。
当趸售价格以此方式上涨时,公用事业公司会将这些增加的成本作为月度账单上增加的购电费转嫁给用户。在批评者看来,居民用户因此面临更高的电价,原因在于数据中心的需求迫使系统更加依赖成本更高的发电方式,即便居民用户并非该新增用电负荷的来源。
推高居民电费的真正原因是市场设计,而非数据中心负荷
与数据中心增长相关的居民电费上涨,主要是一个市场设计失灵问题,而非需求问题。电力市场并不区分不同类型的需求。数据中心使用的一个电子与家用电器、工厂或电动汽车使用的电子并无差别。电网只对总需求做出反应,而不关心是谁在消费。若数据中心带来的需求增长本质上在推高价格,那么无论这种需求在何处扩张,都应出现相似的价格涨幅。
证据表明情况并非如此。SemiAnalysis近期一项对PJM与ERCOT的比较分析显示,尽管两个地区都在经历数据中心快速扩张,但它们的电价走势已然分化。SemiAnalysis估计,在PJM地区,与2024年相比,2025至2026年间容量预留费的飙升将转化为普通居民月度账单上25至30美元的附加费。而在ERCOT,预计不会出现类似的价格冲击。若两个系统经历了相似的需求增长却产生了截然不同的价格结果,那么仅凭需求便无法解释这一结果。差异在于每个系统将预测需求转化为价格的方式。
PJM依赖所谓的容量市场,该市场基于对未来需求的预测来设定价格。它使用一个数学模型估算未来数年的电力需求,然后决定支付多少费用给发电厂业主以保持其设施处于待命状态。实际上,这相当于为确保未来有容量可用而向发电商支付的“预留费”。该成本随后通过电费转嫁给居民和企业。价格与今日实际消耗的电力无关,而是与一家中央规划机构对未来需求状况的估计挂钩。
由于这笔预留费建立在模拟预测而非实际使用基础上,即使预测中的适度调整也可能引发成本的极端飙升。若模型预测AI负荷将激增,公式便会自动触发涨价以确保有足够电厂处于备用状态——即便这些数据中心目前还只是一片空地。在2025至2026年周期中,这一预测机制已导致PJM此类待命支付的总成本较上一年度增长至9.3倍。这造成了总计160亿美元的费用被直接转嫁给居民用户,迫使他们为尚不存在需求的预留电力买单。
相比之下,ERCOT依赖所谓的仅电能市场,发电商仅按其实际生产并输送到电网的电量获得报酬。不存在为保持电厂待命的预付款。相反,该系统利用实时定价来平衡供需。在这一模式下,只有当电力出现物理性短缺时,价格才会上涨。若需求激增,电价在那一刻随之上升,这自然激励发电厂开机发电,并促使投资者建设新容量以获取更高收入。
这一设计限制了投机性需求对价格的影响。预计数据中心增长的延迟或高估不会立即转化为居民成本,因为价格对实际状况而非模型预期做出反应。其代价则是价格波动性更大。在极端需求或供应紧张时期,价格可能急剧飙升。但这些价格尖峰与电网的实时实际状况挂钩,而非基于对未来数年的预测,并且可以通过一系列工具进行管理(本报告其他部分有述)。
这一对比清晰表明,更高的居民电费是市场设计使然,而非数据中心用电本身所致。
对趸售电价的担忧错误地假定AI需求缺乏弹性
要理解为何对AI需求导致趸售电价上涨的担忧并不必然给居民带来无法避免的成本外溢,借用经济学中经典的“鱼市”比喻会有所帮助。
想象一下清晨的本地鱼市。渔民已经归港;当日的渔获量固定,短期内无法增加。供给是完全无弹性的。若突然涌入大量新买家,价格将急剧上升,因为所有人都在争夺同样固定数量的鱼。
电力市场与此情景类似。短期内,发电容量基本固定,因为可用发电厂的数量受限于物理和监管建设周期;许多基荷机组(如核电或大型煤电)无法快速调节出力以应对突发变化。当需求在固定供给背景下上升时,价格会上调以平衡系统。
在一个运作良好的市场中,价格上涨会导致部分买家减少消费或退出市场。例如,一些鱼市买家会直接离开,明天再来或改买鸡肉。正是这种反应限制了价格飙升,并防止成本最昂贵的供应商为所有人设定价格。
然而,在当今的美国电力市场中,需求之所以反应迟钝,是因为零售电价与趸售市场的现实脱钩。大多数美国家庭和数据中心支付受监管的固定电价,这使他们无从感知电力的实时实际成本。由于看不到电价正变得昂贵,他们便不会停止购买。公用事业公司不得不支付尖峰电价,随后通过加收附加费或提高基准电价的方式,将差额“平账”转嫁给所有用户。这将一次市场尖峰转化为了针对整个电费基数的长期价格上涨。
然而,AI需求并非天然缺乏弹性。与家庭或关键服务不同,运行AI工作负载的数据中心可以成为灵活的电力消费者,其灵活性是大多数家庭和关键服务所不具备的。许多AI工作负载——尤其是训练及其他对延迟不敏感的任务——可以被暂停、减慢、推迟或迁移,而不会损失进度。这种灵活性正是国家可再生能源实验室前沿研究的重点,该实验室关于“负载感知型电网管理”的研究表明,数据中心如何在电网承压时期自动降速或暂停训练,将计算任务转移至电价较低的非高峰时段,或将工作负载地理迁移至可再生能源发电过剩的地区。
AI数据中心不仅不必为居民电价不可避免的上涨负责,反而可以通过稳定电网净负荷来减轻本会传导至消费者的价格压力。根据麻省理工学院斯隆管理学院2025年的一项研究,实施灵活、电网感知型工作负载调度的数据中心,可将系统总成本降低2%至5%。当这些大规模用户将其密集的AI训练任务转移至非高峰时段时,它们便拉平了需求曲线,从而减少电网对昂贵、高排放调峰电厂的依赖,而正是这些电厂通常为所有其他用户设定了高昂的趸售电价。在此情境下,数据中心不仅支付了自身应承担的费用,还作为一种稳定力量,为整个电费基数内的用户降低了平均电力成本。
政策制定者应支持电网感知型灵活调度以抑制价格飙升
阻碍数据中心发展或将其成本社会化均摊,两者均是失败的政策选择。任务在于确保AI基础设施以反映实际系统状况的方式融入电力市场,而非迫使居民家庭承担本可避免的风险。
政策制定者应恢复电网状况与大规模电力消费之间更为清晰的关联。当价格无法反映实时系统约束时,即便是灵活的需求也会表现得如同固定负荷一般。美国能源部在其2024年《商业化腾飞之路:虚拟电厂》报告中强调了价格响应型需求的作用,指出让大型负荷直面真实的电力成本,可以释放电网日益需要的灵活性。使数据中心能够作为自我调节、调整用电的“虚拟电厂”运行,可以让AI增长支撑电网稳定,而非将短期压力转化为居民永久的成本增长。
信息技术与创新基金会2025年的报告《美国需要数据中心,数据中心需要能源——但这未必是个问题》,向能源部、联邦能源管理委员会以及数据中心自身提出了若干建议,阐述如何支持数据中心成为高峰需求管理的合作伙伴。
一项尤为重要的改革是要求区域输电组织探索如何实时播报透明、机器可读的拥塞和价格信号。若数据中心的工作负载调度器能够预见到即将来临的价格尖峰,它便可自动推迟非必需的计算任务,或在区域间转移负荷。当大型负荷在电网压力峰值期间减少用电时,它们便降低了调度那些为整个市场设定出清价格的最昂贵边际发电机组的需求。
关切四:AI工作负载威胁电网供电可靠性
对电网可靠性的担忧往往是高度本地化,而非系统性的。电力中断和设备故障通常发生在变电站、馈线或变压器等特定瓶颈节点,这些老旧基础设施的设计初衷并非应对快速、集中的负荷变化。尽管AI需求的规模给这些资产带来了基础性压力,但数据中心仅是覆盖交通、建筑和工业等更广泛电气化浪潮中的贡献者之一(如关切一所述)。
AI工作负载带来的更具独特性的可靠性挑战,源于其用电行为本身的特性。图6展示了谷歌提供的时序数据,直观呈现了这种动态。
图6:AI工作负载的功耗时间序列图 图中纵轴为数据中心功率,横轴为时间。数据显示,AI工作负载造成了接近15兆瓦的负荷波动,导致功率从约1兆瓦飙升至15兆瓦。这种波动源于图形处理器的同步运算。在任务执行期间,所有图形处理器以紧密协同的方式工作。这导致在活跃计算阶段功耗极高,而在图形处理器等待数据或彼此同步时,功耗则出现短暂、急剧的下降。这意味着电力输送系统必须按照远高于平均水平的峰值来规划容量。
因此,对于AI工作负载因极度波动性而影响电网可靠性的担忧,特别是其行为维度,是政策制定者应当正视的有效关切。
AI可靠性风险因工作负载类型而异
实践中,AI工作负载主要分为训练和推理两大类别,二者与电网资产的互动方式存在根本性差异。分别审视这两类负载,可以清晰揭示其负荷特性如何转化为对电网基础设施的不同压力,以及可靠性风险实际源于何处。
训练工作负载是一个有限过程,一旦模型达到目标精度水平即告结束。训练期间,图形处理器经历若干不同阶段。在正向传播阶段,图形处理器以持续的高功耗处理数据。紧随其后的是反向传播阶段,模型更新参数,功率需求以短脉冲形式激增。系统还会周期性的“抢占电网”批评颇为相似,这些比较将AI的资源使用框定为本质上低价值或社会性浪费,隐晦地质疑AI的益处是否值得消耗稀缺的自然资源。
误导性的水资源指标与错位的比较
许多关于数据中心用水的说法所依赖的比较和计算方式经不起仔细审视。从“每封邮件耗水量”的估算,到将AI系统与牛肉生产或主要农作物进行类比的种种说法,往往建立在前后不一致的假设、不匹配的单位或选择性的核算方式之上,从而夸大了AI工作负载的显见影响。
以训练一个诸如GPT的模型耗水量堪比生产100磅牛肉这一比较为例。问题未必在于数字本身,而在于比较的单位。它所衡量的是一次性的计算过程——其产出之后可能被使用数十亿次——却与100磅牛肉作比,而每当人们需要时都必须重新生产这部分的牛肉。这两者并非可比较的单位。
更公允的比较应着眼于整个设施。以xAI位于孟菲斯的Colossus 2为例,这是全球最大的AI数据中心之一。一项自下而上的估算显示,其全年的水足迹约为3.46亿加仑。虽然这听起来非常庞大,但若计入饲养肉牛所需的水量,单是一家高人气的In-N-Out汉堡门店的年度总水足迹便约为1.47亿加仑。换言之,一座最强大的数据中心所消耗的水量,仅相当于两家半快餐店的水足迹。然而,却没有人呼吁暂停开设汉堡店以保护当地水资源。

xAI在田纳西州孟菲斯的数据中心
美国主流媒体报道的“单次任务”式表述框架令情况雪上加霜。批评者所用的方法很简单:取一座设施的总用水量,除以其处理的查询次数,然后将结果作为生成一封邮件或一张图片的水资源成本予以呈现。但数据中心的冷却系统并不会为每一次独立请求而开启或关闭。无论该设施处理的是10次查询还是100亿次查询,冷却系统都以大致相同的强度连续运行。为维持运行温度而消耗的水量,无论如何都会发生。将这部分固定开销的一部分归因于每一次查询,是在暗示多发一封邮件会导致冷却塔抽取更多水,而实际情况并非如此。单次任务数据并非衡量一次查询实际成本的指标。它只是设施的总水费除以其产出,被以一种让AI日常使用看似对环境有重大影响的方式呈现出来,而其背后的数学逻辑并不支持这一结论。
其结果是,这场辩论因反数据中心的言论而部分失真,并未立足于可靠证据。AI数据中心确实消耗水,且在部分地点,这种消耗可能引发合理的关切。但一场严肃的讨论需要超越虚假叙事,聚焦于水资源风险的真实决定因素。
用水不等同于对水造成损害
AI工作负载产生的热量确实远超传统计算。要量化AI工作负载增加的冷却需求,方法之一是考察名为“热设计功耗”(TDP)的指标。TDP基本上是芯片制造商可为热工程师提供的一项芯片级规格参数。它是一个功率数值,而非温度,表示在典型负载下冷却系统必须能够带走的热量(以瓦为单位)。例如,一颗TDP为125瓦的CPU,意味着散热器应能够带走125瓦的热量。
现代AI芯片的TDP很高,且通常随每一代新品的推出而攀升。英伟达的旗舰数据中心GPU,其TDP已从2020年A100(SXM4型号)的400瓦跃升至2022年H100的700瓦,其新款Blackwell B200的TDP据报达1000瓦。这一趋势在其他主要厂商中同样明显。AMD的Instinct加速器从MI250X的500瓦增至MI300X的750瓦,谷歌第七代Ironwood TPU和英特尔Gaudi 3的TDP据报均为600瓦。
然而,所有论断都聚焦于用了多少水,而非在未获补充的情况下用了多少水。这是一个关键区别,因为许多公司都在主动发起水资源回补计划以抵消其消耗。谷歌、微软、Meta和亚马逊均已承诺到2030年实现“水资源正效益”,即计划回补环境的水量将超过其消耗量。
《华盛顿邮报》的文章指出,谷歌2024年环境报告显示其“仅回补了所消耗水量的18%——远低于其设定的2030年120%的目标”。但其于6月发布的2025年报告显示,该比例已提升至64%——若保持这一变化速度,它将在2027年达到120%。这一进展是通过资助100多个地方流域管理项目实现的,例如恢复加州中央谷地的湿润草甸以充当地下水补给的天然海绵,以及投资于科罗拉多河流域的灌溉效率提升。这些项目被战略性地布局在其数据中心所处的同一批水资源紧张区域,有助于确保回补发生在真正受到影响的社区。
这一进展也说明了为何仅看回补量并非正确的衡量标准。那些仅聚焦于总耗水量数据的报道虽然引人注目,却分散了政策制定者本应关注的真正问题,例如回补的水是否水质良好,是否有助于周边生态系统的健康。如果水在返回水源时的温度大幅升高,便可能造成热污染。这种升温的水会降低水体含氧量并危害当地野生动植物,从而破坏脆弱的水生生态系统。
此外,若大量取水速度过快,或取自本就水资源紧张的区域,则可能扰乱河流的自然流量,并对农业和饮用水等其他基本用途的本地供应造成压力。真正重要的是AI基础设施与其赖以生存的流域健康之间的平衡。
变化的电力需求催生新的冷却与用水约束
在关于数据中心用水的讨论中,很大程度上被忽略的一点是AI工作负载引入了根本性的全新热挑战。AI基础设施不仅仅是产生更多热量,它还以剧烈波动的脉冲形式以及由先进芯片封装所创造的、难以触及的新热点区域产生热量,使冷却系统超出了其原始设计的管理能力。
图7是一幅时序图,展示了谷歌TPU芯片温度随时间波动的状况,将基准情景与应用缓解技术的情景进行了对比。代表TPU温度基准的红线显示出宽幅且剧烈的温度区间,伴有高达20摄氏度的急剧快速波动。蓝线代表缓解后的情景,显示了如何通过软件控制来主动平滑芯片上的功耗,将温度波动的剧烈程度降低约50%。
图7:谷歌TPU芯片的温度波动(红色为基准情景,蓝色为应用缓解技术的情景) 随着芯片功耗的快速飙升与下降,其温度也随之出现同样快速且显著的波动。这些热波动的剧烈程度会因工作负载类型(训练与推理)及具体任务的不同而有显著差异。
重要的是,这并非整颗芯片的平均温度,而是单个裸片上最热点的温度,工程师通常称之为“热点温度”。这是最有可能率先失效的位置,也是快速波动影响最大的地方。即便整颗芯片的温度看似温和,热点也可能每几秒就大幅波动一次,这可能导致芯片性能退化甚至失效。这是因为芯片由多种材料(如硅、铜和焊料)制成,它们在升温和冷却时的膨胀与收缩速率各不相同。剧烈波动的温度导致这些材料不断膨胀和收缩。久而久之,这种由温度波动带来的持续应力,会导致焊点和互连处形成并扩展微观裂纹,最终造成完全失效,恰如反复弯折一根金属线终致其折断。
AI工作负载还在改变这些热点在芯片上的出现位置,给热工程师带来了新挑战。在传统服务器CPU上,主要热点可能位于主处理核心所在之处。然而,现代AI芯片采用先进方法将元件靠得更近,要么将它们并排置于一个小型共享基板上,要么直接层层堆叠。这种新的集成水平正催生出新的热点。
AI芯片上内存的位置便是新热点的一个典型例子。随着AI模型日益复杂,支持它们的系统要求内存具备更大容量、更快吞吐量、更低延迟和更优能效。为满足这一需求,一项关键创新是高带宽内存(HBM),即如图8所示,将多层内存芯片垂直堆叠在一起。这一关键发展有助于解决处理器速度与所通信内存速度之间的“内存墙”瓶颈。

3D堆叠内存中的热量积聚
挑战在于,热量只能沿两个主要方向散逸:向上传至散热器,或从芯片边缘侧向导出。堆叠中间层的内存实际上处于“被困”状态。由于上方有层叠阻挡,它们无法轻易向上释热;向下亦然。堆叠中上方或下方芯片的热量也会传导至这些中间层,像水坑中的水一样既垂直又侧向扩散。结果堆叠的中心距离任何散逸路径最远,成为温度最高的点位。
不断攀升的TDP、快速的热波动以及AI芯片上新的热点位置,这些复杂挑战说明了为何传统冷却方法已不再够用。当数十颗这样的芯片被装入一台服务器,数千台服务器又组成一个数据中心时,问题便不只是累加性的,而是倍增性的。芯片级产生的热量逐级传导放大,使传统风冷系统不堪重负,迫使基础设施堆栈的每一层级——从直接芯片液冷到整个数据中心的热管理设计——都必须进行创新。
数据中心正积极降低冷却与用水强度
冷却是运营数据中心的第二大开支,仅次于电力。因此,运营商有强烈的动力去降低这一成本。从芯片封装到机架设计,从AI驱动的热优化到城市规模的区域供冷,种种创新正在重塑数据中心管理热量的方式,同时降低能耗与用水。
·数据中心内部的冷却创新
从芯片级创新说起,各公司正在探索直接内置于芯片封装本身的冷却方式。高带宽内存领域的领先企业SK海力士,采用了一种名为“模塑底部填充”(MR-MUF)的专有技术,用一种导热材料填充堆叠芯片间的微小气隙,使热量能更高效地散逸,保持芯片以更低温运行。与此同时,台积电正在开发一项名为“集成微冷却器”(IMC-Si)的技术,即在硅中介层本体上蚀刻出微小的流体通道。冷却液流经这些通道,而通道距离上方发热晶体管仅有数百微米之遥,从而在热量扩散至芯片其余部分之前便实现了极为高效的排热。
在服务器层面,最显著的进步是直接芯片液冷(DLC)。它旨在通过在CPU和GPU正上方放置由铜或铝制成的薄型金属冷板来带走热量。每个冷板内部都有微细通道供冷却液流过,使得金属能够吸收芯片热量并将其传递给流体。冷却液绝不接触电子元件,仅在密封的冷板内流动。
所用液体的类型各有不同。虽然水是优良的热导体,但它同时也导电并可能腐蚀部件。为防止损坏,数据中心使用经特殊处理的去离子水。一旦冷却液吸收了芯片热量,被加热的液体便被泵送回冷却液分配单元(CDU)。在那里,一个液-液热交换器将热量从服务器冷却液回路中带走,而两种流体互不混合。冷却后的液体再被送回芯片,循环往复。最终,提取出的热量被排放至系统外部。英伟达最尖端的机架架构已将直接芯片液冷作为标准配置。其GB200 NVL72机架级系统容纳了72颗GPU和36颗Grace CPU,芯片上直接安装有冷板,并内置了CDU。
另一项日益受关注的服务器级创新是液体浸没式冷却。此方式将整个服务器完全浸没在装满非导电介电液的容器中。由于液体不导电,服务器可在完全浸没的状态下运行,且液体直接吸收所有部件(而不仅仅是CPU和GPU)的热量。浸没式冷却有两种形式。在单相系统中,液体的表现很像散热器中的水:它吸收热量、升温,然后被泵送至冷却单元降温后再循环回来。在两相系统中,液体被设计为在相对较低温度下沸腾。当部件发热时,与之接触的液体瞬间转化为蒸汽,将热量向上带走。蒸汽随后在容器较冷表面重新冷凝为液体,滴落回底部以重复循环。这种沸腾-冷凝回路使得两相冷却在热量产生的源头就近带走热量方面极为高效,但也需要更专用的液体和设备。
数据大厅层面的策略是绝热冷却,即利用蒸发来降低空气温度。在此方法中,外部空气在
