心智观察所:这份中美AI竞争最权威报告,并没说出全部真相
【文/观察者网 心智观察所】
前几天,斯坦福大学人本人工智能研究院(HAI)发布的《2026年AI指数年度报告》,是当前全球范围内最具系统性和数据密度的AI领域综合评估文献之一。这份长达数百页的年度报告,覆盖了从研发管线、技术性能到经济影响、公共政策的全景图谱,其数据来源横跨Epoch AI、OpenAlex、GitHub、Hugging Face、Cloudscene等多个独立数据库,分析框架严谨、引用链条完整,在学术圈和政策圈的影响力毋庸置疑。
然而,正因其权威性,对它的批判性阅读才更为重要。
报告在中美AI竞争这一核心议题上提出了一个标志性判断——“中美AI模型性能差距已实质性闭合”(The U.S.-China AI model performance gap has effectively closed,如下图)。简单说,就是差距已经可以忽略了。
这个结论本身并无问题,甚至可以说是对当下事实的准确描述。但问题在于,报告围绕这一结论所搭建的论证结构,存在若干逻辑上的不周延之处;而更关键的是,这份报告受限于其方法论框架和数据覆盖范围,对“中国AI模型为什么能追平,以及凭什么可能超越”这个问题,留下了大量未被讲透的空间。

先看报告的核心论据。报告以LMArena的Elo评分体系作为中美模型性能比较的主要标尺。数据显示,2025年2月,DeepSeek-R1以1400分一度逼平美国顶尖模型o1的1405分,差距仅0.4%;截至2026年3月,Anthropic的Claude Opus 4.6以1503分领先中国最佳模型Dola-Seed-2.0 Preview的1464分,差距2.7%。报告据此得出“差距闭合”的判断,逻辑上是站得住脚的。但这里存在一个方法论层面的深层问题:Arena排行榜本身的可靠性正在被质疑。
报告自身也引用了Singh等人2025年的研究,指出Arena的排名可能部分反映的是对平台本身的适应性优化,而非模型的通用能力。如果评价标尺本身可能存在系统性偏差,那么基于该标尺得出的“差距闭合”结论,其置信度就需要打一个折扣——但报告在表述上并未对此做出充分的限定。更深层的问题在于,Arena的Elo评分本质上测量的是“用户偏好”而非“客观能力”。
用户在盲测中选择偏好的输出,这种评价方式天然偏向流畅性、风格化和指令遵从度,而非推理深度、专业准确性或长链条任务完成率。中国模型在这些软性维度上的进步是真实的,但如果我们关注的是AI在科学发现、工程实践和复杂决策中的实际效用,Arena并不是最合适的衡量工具。
报告在专业领域基准测试如SWE-bench、FrontierMath、CorpFin等上的数据呈现,主要以模型名称排列而非按国别分组,这使得读者难以直观地判断中美模型在这些更硬核的评估维度上的相对位置。这不是一个疏忽,而是一种分析框架上的选择,但这种选择客观上遮蔽了中国模型在多个专业领域已经其战略含义:中国企业正通过开源模型在全球范围内建立开发者生态和技术标准影响力,“模型数量”和“基准评分”之外的一种全新竞争维度正在形成。这种通过开源输出技术影响力的路径,与中国在5G标准制定中的经验一脉相承,但报告对此完全没有触及。
除此之外,报告详细记录了一个引人注目的趋势:流入美国的AI研究人员自2017年以来下降了89%,仅过去一年就下降了80%。但报告在人才部分的数据来源Zeki并不覆盖中国,这意味着我们看到了美国人才吸引力的衰退,却无法看到中国人才池的扩张。中国每年培养的STEM博士数量已超过美国,且中国在全球高被引AI论文Top 100中的份额从2021年的33篇增长到2024年的41篇,首次逼近美国的46篇。清华大学在Epoch AI的累计显著模型榜中与斯坦福并列第一(各26个)。
如果把这些散落在报告各处的数据点串联起来,呈现的图景远比“差距闭合”更具冲击力,它指向的是一种可能的“交叉”(crossover),而非仅仅是“追平”。
报告在投资数据上的处理方式也有不小的问题。报告指出2025年美国AI私人投资达2859亿美元,是中国124亿美元的23倍以上。但报告自己也在脚注中承认,仅看私人投资“可能低估了中国的AI总支出,因为中国有政府引导基金”。这种将核心修正条件放在脚注中的处理方式,在学术写作中并不罕见,但对于一份面向政策制定者和媒体的报告而言,其效果是使正文中“23倍差距”的数字获得了远大于其实际信息量的传播力。
中国政府通过国家大基金、地方政府AI产业基金、国有企业研发投入等渠道注入AI领域的资本规模,目前缺乏可靠的公开估算,但多个独立来源认为其量级远超私人投资的口径。报告对此的处理,称不上是误导,但确实构成了一种系统性的低估。
综合来看,斯坦福AI指数报告的核心判断“中美AI差距已经闭合”是准确的,但这份报告并没有完整地解释这个故事。
中国AI的竞争力不仅来自模型性能本身的追赶,更来自效率范式的突破、应用落地的加速、人才厚度的积累、以及国家战略与产业生态的深度耦合。在一个Arena评分差距仅2.7%的世界里,决定下一阶段竞争格局的变量,很可能不是谁的模型在基准测试上多得几分,而是谁能更快地将模型能力转化为产业价值和社会效用。在这些真正决定胜负的维度上,中国不仅不亚于美国,而且在多个关键方向上正在建立结构性优势。遗憾的是,这些维度恰恰是斯坦福这份以基准测试和学术计量为核心方法论的报告,最不擅长捕捉的。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
