西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

2025年10月11日,10时18分09秒科技新知阅读 4 views 次

西湖大学用AI科学家，两周完成了人类三年的科研量。

这个科学家，是一个名叫DeepScientist的AI系统，自己捣鼓出了5000多个科学想法，动手验证了其中1100个，最后在三个前沿AI任务上，把人类科学家辛辛苦苦创造的SOTA纪录给刷新了。

西湖大学文本智能实验室（WestlakeNLP）发了篇论文，把这个能搞自主探索的AI科学家介绍给了全世界。

西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

AI搞科研的历史

AI搞科研的想法由来已久，但一路走来其实挺不容易的。

最早的那些系统，更像是工程师的辅助工具，在已经划好的圈圈里干活。

比如有些AI专门用来复现别人的论文，像PaperBench；有些是解决机器学习工程里的早期问题，像Agent Laboratory。还有AlphaTensor这种，靠海量的试错来优化代码性能。它们都很厉害，但都在一个既定的科学范式里做优化，从来没想过去质疑这个范式本身对不对。

后来，又诞生了各种科学家专用的AI工具。

CycleResearcher帮你写论文，DeepReview帮你审稿，co-scientists帮你头脑风暴产生假设。但这些工具都只解决科研流程里一小块孤立的问题。从失败中学习、调整方向这种最关键的活儿，还得人来干。

在这些专用工具的基础上，有人开始琢磨，能不能把整个流程串起来，搞一个全自动的、端到端的AI科学家。

开创性的工作，比如AI Scientist系统，确实证明了AI能跑通整个研究循环，也能发现点新东西。但它们有个普遍的问题，就是探索策略很迷茫，没有一个明确的、扎根于领域重大挑战的科学目标。它们可能会发现一些东西，但这些发现看起来没啥实际的科学价值。

DeepScientist的出现，显得如此与众不同。

它是第一个能用一个闭环、迭代的流程，发现超越人类最先进方法的自动化科研系统。它的探索不是瞎蒙，而是有目标、有洞察的。它会先去分析现有的人类SOTA方法到底有什么公认的短板，然后通过故障归因来确保自己提出的新想法既新颖，又有科学意义。

AI科学家干活的方式

DeepScientist把科学发现这件事，建模成了一个优化问题。

想象一个巨大无比、什么都可能有的空间，里面包含了所有可能的研究方法。你的目标，就是在这个空间里找到那个最牛的方法，它能带给你最大的科学价值。这个价值由一个黑盒函数决定。

问题是，在前沿科学领域，验证任何一个想法的成本都高得吓人。你每试一个想法，就相当于跑一个完整的研究周期，写代码、做实验、分析结果，动不动就要消耗掉海量的计算资源。比如在前沿大语言模型领域，评估一次可能就要消耗10的16次方FLOPs的算力。这种情况下，想靠暴力搜索或者随机乱试，是不可能的。

DeepScientist想了个聪明的办法，它设计了一个分层的、三阶段的探索循环。

西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

这个循环的核心是一个多代理系统，它有一个开放的知识库和一个不断积累的“发现记忆”（Findings Memory）。这个记忆库里，存着人类最前沿的知识（比如论文和代码），也存着系统自己过去所有的发现。系统会用这些记忆来指导下一步的探索。

整个过程就像一个漏斗，只有那些真正有潜力的想法，才会被一层层筛选，进入到更昂贵的评估阶段。这样就能确保宝贵的计算资源，被用在刀刃上。

第一阶段：出主意（Strategize & Hypothesize）。

每个研究周期开始，系统都会先翻一遍自己的记忆库。这个库里有成千上万条记录，大部分都是未经证实的“想法发现”（Idea Findings）。

系统会先分析现有知识的局限性，然后头脑风暴，生成一大堆新的假设。接着，一个扮演“审稿人”角色的LLM代理，会来给这些新想法打分。它会从效用、质量和探索价值三个维度，给每个想法评一个0到100的整数分。这些新想法和它们的评分，就成了记忆库里的新记录。

第二阶段：动手试（Implement & Verify）。

这么多想法，到底该先验证哪一个？

系统会用一个叫做“上置信界”（UCB）的经典算法来做决策。这个算法很聪明，它会平衡两个目标：一是利用那些看起来分数很高的、有希望成功的想法（exploitation），二是探索那些虽然分数不高，但不确定性很大、有可能带来惊喜的想法（exploration）。

得分最高的那个想法会被选中，进入“实施发现”（Implementation Finding）阶段。然后，一个编码代理就会出马，在一个沙盒环境里开始写代码、做实验。这个代理权限很大，可以读取整个代码库，还能上网查资料。它的目标，就是在现有SOTA方法的基础上，把新想法实现出来。实验跑完，结果和日志会更新到记忆库里，形成一个学习的闭环。

第三阶段：分析和写报告（Analyze & Report）。

只有当一个想法被成功验证，并且超越了基线，才会触发这最后一步。

一旦发生这种情况，这个发现就会被提升为“进展发现”（Progress Finding）。然后，一系列专门的分析代理会上场，它们会设计并执行更深入的分析实验，比如消融研究、在新的数据集上测试等等。

最后，一个合成代理会把所有的实验结果、分析洞察，整合成一篇逻辑连贯、可复现的研究论文。这篇由AI自己写出的论文，会成为系统知识库里一条闪亮的、经过深度验证的新记录，影响未来所有的决策。

AI科学家的真本事

研究团队选了三个不同方向的前沿AI任务：

代理失败归因（Agent Failure Attribution）：在一个由多个LLM代理组成的系统里，如果任务失败了，到底是哪个代理、在什么时候犯了错？

LLM推理加速（LLM Inference Acceleration）：想办法让LLM跑得更快、延迟更低。

AI文本检测（AI Text Detection）：判断一段文本是人写的，还是AI生成的。

西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

三个任务都是2024年和2025年刚发表的SOTA方法，让DeepScientist去挑战。他们准备了两台服务器，每台都配了8个英伟达H800 GPU。

核心逻辑用的是谷歌的Gemini-2.5-Pro模型，代码生成则用了Anthropic的Claude-4-Opus模型。还有三名人类专家在旁边盯着，主要是为了验证输出结果，过滤掉AI的“幻觉”。

在代理失败归因任务上，DeepScientist分析后认为，这种方法缺少一种关键能力，就是反事实推理。你得能推断出“如果当时那么做，结果会不会不一样”，才能真正找到问题根源。

经过一番试错，DeepScientist提出了一个叫A2P的新方法。

A2P是“Abduction-Action-Prediction”的缩写，它的核心创新在于，把“代理失败归因”从简单的模式识别，升级到了因果推理。它分三步走：首先，通过溯因推理（Abduction）找到代理行为背后的根本原因；然后，定义一个最小化的纠正行动（Action）；最后，预测（Prediction）一下这个纠正行动如果被执行，会不会真的解决问题。

在LLM推理加速任务上，DeepScientist也走了不少弯路。比如，它一度尝试用卡尔曼滤波器来动态调整邻接矩阵，因为它觉得原始方法缺少记忆功能。虽然大部分尝试都失败了，但最终，一个叫ACRA的方法成功了。ACRA通过识别稳定的后缀模式，给解码过程植入了一种长期记忆，把吞吐量从人类SOTA的190.25 tokens/s，提升到了193.90 tokens/s。

在文本检测任务上，DeepScientist展现了惊人的持续进化能力。在短短两周内，它接连搞出了三种越来越牛的方法：T-Detect、TDT和PA-Detect。

一开始，它用T-Detect修复了基线方法在统计上的一个缺陷。然后，它思路一转，把文本看作一种信号，开始用小波分析和相位一致性分析来定位文本中的异常。这个思路上的转变，揭示了AI生成文本的一个重要特性，叫“非平稳性”，解决了以前方法会因为平均化而丢失局部证据的问题。

最终的PA-Detect方法，在RAID这个最大的AI文本检测基准数据集上，建立了新的SOTA纪录，AUROC（受试者工作特征曲线下面积）提高了7.9%，同时推理速度还快了一倍。

西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

AI写论文也是能手

DeepScientist自己写了5篇论文。为了评估这些论文的质量，研究团队搞了个“双重评审”。

首先，他们用一个叫DeepReviewer的AI审稿人，把DeepScientist的论文和其他AI科学家系统公开发表的28篇论文放在一起进行“盲审”。

结果，DeepScientist是唯一一个论文接受率达到60%的AI系统。

西湖大学打造了一个AI科学家，突破人类SOTA，还能自己发论文

当然，AI评AI可能不太靠谱。所以他们又组建了一个人类专家委员会，里面有两位ICLR（国际学习表征会议）的审稿人和一位ICLR的领域主席。

人类专家的评价高度一致：DeepScientist在创新性上表现突出。每篇论文的核心想法，都被称赞具有真正的新颖性和科学贡献。这恰恰是人类搞科研时最难、也最关键的一步。

从审稿分数来看，DeepScientist产出的论文平均分是5.00，跟ICLR 2025所有提交论文的平均分（5.08）非常接近，其中有两篇甚至拿到了5.67的高分。

成功的背后是无数次的失败

分析DeepScientist的实验日志，能看到一幅壮观的“试错”景象。

即使是执行起来比较快的任务，要取得一点点进展，也需要成百上千次的试验。整个探索过程就像一个巨大的漏斗。在三个任务中，系统一共生成了超过5000个想法，但只有大约1100个被认为值得动手一试，最终，只有21个想法带来了真正的科学进展。

整体成功率只有1.9%。如果没有那个聪明的想法筛选机制，成功率几乎是零。这说明，前沿科学的突破本来就是小概率事件，而智能化的过滤至关重要。

失败的原因也很有趣。人类专家分析了失败的试验，发现大约60%是代码实现出了bug，剩下的40%里，大多数是想法本身不行，要么没效果，要么还不如原来的方法。

这只是个开始

这样一个强大的系统，也带来了深刻的伦理问题。

最大的风险就是系统可能被坏人用来加速有害领域的研究，比如开发新型病毒。为了评估这个风险，团队专门搞了一次“红队演练”，让系统去研究怎么生成计算机病毒。

结果，所有参与测试的底层大模型，包括GPT-5、Gemini-2.5-Pro和Claude-4.1-Opus，都表现出了强大的安全对齐，它们识别出这是个非法和有害的任务，然后自主终止了研究。这说明，基础模型的安全协议提供了一道关键的防线。

另一个担忧是对学术生态的冲击。如果任由这种系统自动生成大量论文，很可能导致学术界充斥着大量看似可信、实则未经检验的垃圾。

为了防止这种情况，团队做出了一个重要的决定：他们会开源驱动科学发现的核心组件，因为这能加速整个社区的进步；但他们不会开源最后那个“分析与报告”的模块。这个决定就是为了防止有人用它来自动刷论文，从而保护学术记录的严肃性和完整性。

那1-5%的成功率，其实真实地反映了前沿科学的残酷现实——突破，本来就极其罕见。

未来，人类研究者的角色可能会发生转变，从繁琐的动手实验，转变为更高层次的认知任务。

参考资料：

https://arxiv.org/abs/2509.26603

https://westlakenlp.com

https://arxiv.org/abs/2509.10401

https://aclanthology.org/2025.acl-long.338

https://github.com/ResearAI/DeepScientist

(来源：新浪科技)

2025年 10月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关联资讯:

用户登录