对话深势科技柯国霖:AI for Science是实现AGI的必经之路
出品 | 网易科技态度AGI栏目
作者 | 袁宁
编辑 | 丁广胜
如果说大语言模型是语言的造梦人,那 AI for Science 更像是现实世界的建构者。
前者让 AI 能写诗、画图、编程,但它毕竟只活在数字世界里;后者却试图让 AI 学会物理定律、化学反应、分子结构——它想让 AI 理解世界是如何运转的,并亲自参与其中。
“你让大语言模型生成一个图片,它可能会画出一只三条腿的猫;让它理解一个瓶子摔到地上的反应,它却分不清是摔碎还是弹起来。这是因为它不懂物理规律,AI for Science 试图补足的正是这部分。”
深势科技合伙人、AI算法负责人柯国霖告诉《网易科技态度 AGI》。在他看来,想要真正实现AGI,必然要走出数字世界,理解物理世界,那 AI for Science 是必不可少的道路。
2024年 GTC 大会上,黄仁勋提到 AI 领域的三个关键方向:大语言模型、具身智能,以及AI for Science。
相比前两者的热度,AI for Science 或许听上去冷门得多。但实际上,它正悄然成为全球科学界的战略高地。
一个直观的例子是,过去一个训练成熟的博士研究生在整个课业生涯,利用冷冻电镜等昂贵的科学仪器,可能也只能解出几个蛋白质的结果。而 Google DeepMind 团队提出的 AlphaFold 算法,可以在GPU上快速预测一个新蛋白的结构。
2024年诺贝尔化学奖颁给 AlphaFold 和 AI 蛋白质设计团队,也标志着 AI 不再是实验室里的边角角色,而是站到了科学发现的中央。“解放的是科学家的重复劳动,他们可以把时间投入到更核心的科研问题上去。”柯国霖表示。
在这场范式转移中,深势科技走在前列,是中国 AI for Science 领域的代表性公司之一。
深势宇知大模型矩阵
这家成立于2018年的公司,构建了一套完整的 AI for Science 科学大模型体系“深势宇知”,并以“微尺度工业设计与仿真”为切口,开发了自动化设计系统,打通了分子模拟、蛋白结构预测、药物筛选、材料计算等链条,还在此基础上开发了科研平台“玻尔®科研空间站”,构建了一整套微尺度工业基础设施。
作为深势科技的技术合伙人,柯国霖曾在微软亚洲研究院工作多年,论文被引用超过22,000次,他开发了知名的机器学习工具LightGBM,并连续多年入选全球前2% 顶尖科学家榜单。今年3月底,他和合作者发布了首个通过自回归预测下一 token 的模式,将3D 结构的生成与理解统一起来的框架 Uni-3DAR。
在与网易科技的对谈中,柯国霖对AI能做到什么、还做不到什么,有着克制而冷静的判断。他说:“如果去畅想很久的未来,不考虑任何限制的话,那AI必然是可以实现一切。但更关键的是它在中短期会发展成什么样子,我们在有生之年能见到的未来会是怎样。”
整场谈话涉及了以ChatGPT、Deepseek为代表的大语言模型与AI for Science的差异,AI for Science 领域正在做什么事情、深势科技的方向选择,AI for Science给科学界带来的改变,以及未来科技的发展方向……
柯国霖表示:“对普通人来说,AI for Science 或许看起来还很远,但其实很近。你日常生活用到各类产品,小到手机屏幕,大到汽车电池,背后其实都有AI for Science的功劳。”
这场对话让网易科技态度AGI意识到,AI for Science 可能并不等于“在科学研究过程中使用一些 AI 技术”。在柯国霖理性又克制的回答中,我们看到了这个领域的真实状态——它不依赖想象力驱动,而是在真实世界的摩擦中前行。
以下为深势科技的合伙人、AI算法负责人柯国霖与《网易科技态度AGI》的交流,内容经不改变原意的编辑。
今天的大语言模型,还是以数字世界为主
网易科技:AI for Science领域的大模型和我们熟悉的大模型有什么区别?
柯国霖:这个区别还是很明显的,大语言模型是对人类智能的拟合,而AI for Science大模型是对物理客观世界的建模。
人是自然界最聪明的物种,而语言是人类智能的体现,大语言模型试图通过语言来拟合人类智能。然而,虽然人类文明已经高度发展,但对于我们生存的物理客观世界,还存在着大量的未知。即便想把已知的规律应用起来,也需要复杂且耗时的计算模拟,难以用在实际场景。
AI for Science 大模型的核心就是要解决这个问题,实现关于物理世界更精确也更高效的建模,以用于加速科学研究。
例如说,我们之前做的蛋白质、分子动力学、晶体材料等各类模型,本质上都是在用机器学习模型来刻画微观原子尺度的物理规律。借助这些模型,我们可以加速新药物或新材料的筛选与设计,从而辅助科学研究。
我们常说人与自然。这两类模型也分别是对人和自然世界的模拟。它们是两条不同的发展路径,但也有很多人在尝试将它们结合起来。
网易科技:观察到我们发布Uni-3DAR之前已经发布了近上百个模型,Uni-3DAR和深势科技此前的模型有什么区别?为什么会做这么多模型?
柯国霖:我们过去确实做了很多不同的模型,主要原因是,科学研究本身已高度分工,它们使用的方法和手段也各不相同,即便在同个学科下的细分领域也可能差异很大。
我们刚开始做AI for Science的时候,首先还是聚焦于一些关键问题和核心场景,根据它们的实际需求进行建模。这时候场景可能不算多,主要还是蛋白还有小分子。但慢慢随着我们深入,发现每个场景的差异挺大,需要自己的模型,但按这种大量小模型的思路去做是无穷无尽的。
因此,我们其实很早就把大模型的思路用起来了,我们在22年提出的Uni-Mol,也是第一个小分子领域的通用大模型,后面还有 DPA,Uni-RNA等等。它们都在一个相对比较大的范围内,实现了数据和任务的统一。最近的Uni-3DAR,是我们野心更大的一个模型:我们能不能更进一步,把所有三维结构,包括微观和宏观的,都统一到一个模型下?
网易科技:Uni-3DAR 有什么独特性呢?它带来的统一意味着什么?
柯国霖:Uni-3DAR 实现了几个层面的统一。
首先是上面说的跨尺度的三维结构的统一,它不仅可以用在微观的三维结构,如蛋白小分子晶体,还有宏观的三维形状等等。通过它我们可以建模所有的三维结构,而不需要每个数据类型专门开发一个新的模型。
然后是任务的统一。任务通常可以分为两大类:生成任务和理解任务。
生成任务是根据已有数据的分布生成新数据,比如图像生成、文本生成等。在科研场景下,我们也需要生成新分子、新材料,例如给定一个蛋白质,生成一个可以与之结合的分子。
理解任务则是对已有数据进行分析,比如分类或回归。常见的例子包括图像检测或分割,或者预测某个分子的毒性、溶解度、吸收性等。
物理学家费曼有个经典名言:What I cannot create, I do not understand。这个名言很好阐释了生成和理解统一的必要性。我们在AI领域确实也发现了这样的现象:如果不把生成与理解统一建模,模型的scaling law会被限制。
我要讲的这个例子,从业人员应都很熟悉,就是关于BERT和GPT的历史。
它们是语言模型的两个流派:BERT以理解能力为主;GPT以生成能力为主。其实GPT-1比BERT还要更早出来一会,但在那个时候,因为大家都更关注理解任务,也更容易用客观指标来评价理解能力,所以BERT受到的关注要大很多,很多做大模型的都以BERT为主。
但是,当我们尝试扩大模型参数(例如达到十亿参数)时,BERT 的理解能力开始遇到瓶颈,没有展示出很好的scaling law。而 GPT 虽然早期理解能力不如 BERT,但随着模型规模的扩大,它的理解能力也逐渐超过了 BERT,并具备极强的生成能力。后面的故事大家也知道了,ChatGPT这类生成式的方法成为了主流。
这也给了我们启发,我们的Uni-3DAR,也是以生成能力为主,将理解任务和生成任务统一到一个生成式建模的框架中。
网易科技:大语言模型发展中的技术路径可以迁移到 AI for Science 领域的大模型中吗?
柯国霖:严格来说,大语言模型的技术路径并不能完全照搬过来,因为它们处理的对象差异较大,但其中很多思路是可以共通的,比如我们刚刚提到的理解与生成的统一。我接下来要说的Uni-3DAR实现的第三个统一,多模态的统一,也是从大语言模型那边得到的启发。
我想说的例子是最近的 GPT-4o ,大家也应该都体验过了,它在图像生成上的表现比过去强了很多。一个非常关键的进步点在于:GPT-4o 将图像与文本等模态真正统一到了同一个模型框架中。
在此之前,大语言模型只能处理文字信息,对于图像或其他多模态数据,需要额外的独立模型来处理。
因此,当你想要生成图片的时候,大模型实际上把你的提示词输入给另外的模型,然后生成图像;如果你想继续修改这张图,它会再过另外的模型,把图像转成文字,结合你的修改意图,再调用其他模型重新生成一张图像。
可以看到,这个过程中,所有的操作都需要通过文本来转译,很多图像细节信息在转换中丢失,最终生成的图像就会出现明显的不一致——比如你只是想修改一个细节,结果模型却重画了一整张图。
而 GPT-4o 的做法通过自回归的形式,把图像数据和文本数据直接输入到同一个模型中,从而让模型可以真正“看到”上下文中的原图细节,实现更连贯的生成。这种设计本质上是对输入格式的一种统一,充分发挥了自回归模型的能力。
这是自回归技术的强大之处:“统一”。前面我们讲的是理解与生成的统一,而这里的核心是多模态的统一。GPT 系列已经基本完成了对文本、图像、音频、及视频的整合。
我们在做的 Uni-3DAR,其实也是延续了这种思路:基于自回归框架,去实现关于三维结构的理解、生成,以及多模态的统一。这样一来,后续我们可以非常自然地支持用户用文本描述输入需求,甚至输入其他模态的信息(比如图像、分子结构图等),模型则可以基于这些输入生成三维结构、微观物质,像是蛋白、小分子、晶体等等。
更进一步,用户还可以通过自然语言与这些结构进行交互与编辑。这种模型最终的目标,是成为一个能够理解自然世界的大模型,并且可以和我们的科研模型体系真正融合在一起。
网易科技:你在X上写道,世界是3D 的,物理定律都植根于3D 空间。如果我们想要一个世界模型,3D 结构建模是必不可少的。这句话怎么理解?你们所做的工作,是否也是走向通用人工智能的重要路径之一?
柯国霖:是的,我们在做AI for Science大模型,本质上是对于物理世界的建模,这是实现通用人工智能的必要一步。
具体来说,要实现AGI,我认为具备三大要素:身体、大脑和世界,并通过它们构成一个完整的感知––决策––行动––反馈闭环。大脑接收来自身体的多模态信息,进行规划和思考;身体承担感知与执行的双重功能;世界则不断以物理的因果规律回馈结果。正是这种闭环,使得智能体在“感知–行动–反馈–再感知”的循环中,持续修正、积累经验。
人类智能的进化与形成,主要也是因为这个反馈链路。最原始的单细胞生物就能感知周围环境,趋利避害,以适应生存需要。
现在最接近大脑的,或许是大语言模型,但它们还被限制在数字世界里。它们擅长“文本对齐”——比如文本生成、对话、代码编写,能识别一些图像和视频信息,甚至可以调用一些计算工具。它们确实在这些任务上做得挺好,尤其类似写代码的能力。但你也容易发现,它擅长的这些事情都在数字世界里容易获取反馈的。例如说写代码,可以容易验证它的正确性和运行效率。
如果我们想给大语言模型装个身体,让它真正在现实的物理世界里进行探索和反馈的迭代,以实现更进一步的智能。说实话,即便我们假设“身体”的硬件水平没问题,想要实现这个目标也还比较远。
核心的原因在于,物理世界反馈不仅慢,成本也高,无法像在数字世界里一样快速闭环迭代。你可以想想,人类的进化可是花了几亿年。
所以,我们就需要AI for Science了,通过它对于物理世界建模的能力,实现对于物理世界的模拟,提供一个可以快速反馈迭代的虚拟物理世界。这其实也就是大家经常说的“世界模型”。
如果我们能构建出一个足够真实、足够高保真的世界模型,在其中运行模拟的“智能体”,并让它们学会感知环境、行动反馈、理解物理规律,那它们就可以在模拟世界中快速完成学习与迭代。在这个基础之上,再把所学迁移到真实世界,就像是“左脚踩右脚”一样,一步步推动模型能力从虚拟走向现实。
网易科技:也就是说,AI for Science可以更好地理解现实世界。虽然深势现在聚焦的可能是生命科学和物质科学这两个相对微观的领域,但如果未来继续发展,也有可能扩展到更宏观的世界?
柯国霖:是的,本质上来说,AI for Science就是一整套物理规律的集合。我们目前专注于微观层面,主要是因为它在现阶段具备更清晰的商业化路径,比如新药研发、新材料设计等。
但在更宏观的方向,很多研究和应用其实也在同步进行,比如流体力学建模。像是设计汽车时,就需要做风阻模拟;再比如火箭发动机的开发,也依赖大量的仿真计算。这些都是三维仿真的典型应用场景,也是很经典的AI for Science的应用场景。
除了科学工程领域,在更偏向娱乐或消费技术的场景中,三维仿真同样不可或缺。比如在动画制作、游戏开发中,需要大量的物理引擎来支撑真实感的表现。过去,这些物理规则大多是由工程师手动编写设定的,例如物体的运动方式、表面反应参数等,依赖大量人工参与和调试。
而如果我们的世界模型能做到足够精确和通用,那么这些设定就不再需要人工一条条写规则,而是可以由模型自动完成。这不仅提升效率,还能极大地拓展建模和交互的能力边界。
深势想做的是一个真正意义的一站式科研操作系统
网易科技:科学研究本质上是探索科学规律,而作为企业,我们还要考虑如何将这些研究成果的商业化应用。所以我还想了解一下,深势科技目前的客户主要是哪几类?
柯国霖:我们目前的客户可以分成两大类,B端和C端。B端用户会有比较具体的场景和需求,我们会根据我们的产品和能力提供服务。C端用户主要是直接从事科研工作的科学家群体。这里面包括泛科研人员,比如高校的学生、老师、教授,以及企业里的研究员。
我们现在主推的是“玻尔®科研空间站”服务平台,主要是面向C端用户。
这个平台的目标是让科研人员可以一站式完成一整套科研流程——比如阅读论文、运行计算模型、调用实验模块,甚至包括仪器设备及湿实验的平台,进一步实现从理论到实践的闭环。
这背后有两个核心支撑。第一个是文献数据库,我们目前已经积累了非常庞大的论文资源,尤其是集中在自然科学方向。第二个是计算工具平台,可以通过智能体的方式,调用我们积累的大量Science领域的科学计算和AI模型的工具。
网易科技:提到「玻尔」,我有一个疑问,现在像ChatGPT、DeepSeek这样的大语言模型现在不是也能直接搜论文吗?
柯国霖:确实,大模型在检索和理解文本方面已经做得很好,在多模态数据的理解和生成能力也在快速进步,可以处理一些自然图片、或简单的表格数据等等。但这里面存在一个明显的“Gap”,特别是在科研场景下。
我们在科研中常见的多模态数据形式,跟自然图像差异很大。比如:一个分子的结构图,一个化学反应的反应式,一张X射线衍射谱,或者某种材料的拉曼光谱图等等。他们大多也以图像来表示,但和我们日常生产拍摄的“自然图像”差别很大。这些我们称之为“科学多模态”数据。
因为现有工具也很难处理好这些科学多模态数据,目前的大语言模型基本上也没有把他们作为训练数据,所以面对这些专业信息时,往往无法正确解析或者根本无法识别。
这也是为什么现在的大模型在科学专业领域,特别是化学、生物等方向,只能提供泛泛的建议或灵感启发,比如一些研究思路或实验设想,但没法输出精确的信息,例如文献里的化学反应的具体产物和产率,或某个靶点的活性值等等。
而我们现在做的事情,尤其是在玻尔平台上,核心就是解决这一类“科学多模态”的理解问题。我们有专门的模型训练和优化这个能力,真正让AI能看懂这些科研多模态数据,为科研人员提供专业、深入的支持。
网易科技:我了解深势在B端也有大量合作客户,我们和他们的合作模式是怎样的?是通过平台授权,还是其他形式?
柯国霖:合作模式其实也比较灵活,用户类型不同,合作形式也会不同。
一类是SaaS模式,企业可以直接在线使用我们的平台功能,比如跑模型、查文献、做计算等。
但还有一类企业对数据隐私非常敏感,不希望科研数据离开自己的内网。这种情况下,我们会提供私有化部署,比如将平台整体打包进一台一体机,部署在他们的本地环境中,我们也无法访问他们的数据。
这种模式能满足企业对数据安全的高要求,同时也确保他们可以用上我们完整的科研计算能力。
网易科技:两种模式哪个会更多一些?
柯国霖:国内客户更多是私有化部署的形式。
网易科技:从技术层面来看,深势科技下一步的重点方向会是什么?
柯国霖:我们更希望往统一的、通用的大模型方向走。比如说我们前面说的Uni-3DAR,目标是统一物理世界里的三维结构。然后对于科学文献里面的多模态数据,我们也在建设统一的多模态模型方案。
我们这两个方向,也会和现在的大语言模型结合起来,让它以多模态统一的方式,更好理解客观的物理世界,以及大量的科学文献。
网易科技:如果只面对科研人员的话,这部分会是一个多大的市场规模?
柯国霖:这个具体要问我们的商业化同事了。我可以提供一些数字,首先是科学家的群体,我们每年有个2%的科学家名单,它从发表过论文的学者里面,找出前2%,然后今年这个名单大概是20万人,也就是说,发表过论文的科学家有千万的规模。
如果我们再把学生和企业的研发人员算进来,那量级就更大了。随着生活水平和教育水平的提高,做科研的人也会越来越多。也就是说,这会是一个存量很大,且还在持续增长的市场。
此外,其实这个领域目前全球范围内参与者还不多。国外像DeepMind、薛定谔(Schrödinger)等公司都相对垂直,主要集中在生物医药领域。而国内在做AI for Science这条完整路径的企业更是屈指可数,大多也专注在垂直方向。像我们这样以一站式科研平台为主的公司屈指可数。
网易科技:而且这部分市场我理解应该是一个全球性的机会,因为物理规律这类基础科学的东西本身就是通用的。那么深势和这些国外企业相比,差异化的优势或者说独特的价值体现在哪些方面?
柯国霖:是的,这确实是一个全球性的市场,而且现在真正专门做这件事的公司其实非常少。我们和它们最大的不同,是我们的定位不在于去做某一个具体科研方向的突破,而是更像在搭建一个完整的平台,让科研工作者能在一个统一的环境里,把科研流程跑通。
这个定位本身在业内就非常稀缺。现在市面上,可能有的公司专门做文献阅读,有的专门提供实验平台,有的只做计算模拟。但像我们这样把这些环节整合到一个平台里,让用户可以一站式完成科研全过程的,目前几乎没有。
我们的差异在于,我们不和每个垂直环节直接竞争,而是把这些工具和能力有机组合在一起,打通为一个完整的科研工作流。用户只需要进来一次,在我们平台上就可以读文献、跑模拟、调模型,甚至做实验。
这样做的好处就是,一方面提升效率,另一方面减少了用户在多个平台之间切换的成本。
从技术能力上讲,我们的路径也不是简单调用已有工具、拼凑服务,而是很多能力都是自己一点点做出来的。
比如我们在科研领域很关键的“科学多模态理解”上,其实是很早就开始投入的,这不只是看图识字那么简单,它包括像化学分子的结构图、反应路径、各种复杂的谱图等等,这些都是大模型默认不会的数据格式。但我们从2023年就开始专门做这一块,积累了大量标注数据,也建立起了比较深的技术护城河。
再加上我们早期做出的一些自研模型,在业内已经有一定的认知度,很多用户上来就可以直接用,非常方便。所以我们的优势不只是“功能多”,更在于这些能力是深度集成在一起的,而且是真正面向科研痛点来设计的。
你可以理解为,其他公司可能在做单点突破,而我们想做的是一个真正意义上的一站式科研操作系统。
网易科技:我们今年的一个重点是什么?
柯国霖:今年的话,我们还是希望能多拓展一些C端用户。因为对我们来说,这部分用户除了是重要的使用群体之外,其实也构成了一个非常宝贵的产品反馈机制。
你做产品,最怕的是没人用、没有反馈。但我们现在的情况是,每天首页的提问框都有几万到十几万个问题涌进来,源源不断。这个数据量不仅说明了活跃度,也让我们能快速捕捉用户真实的科研需求,及时调整方向,迭代产品。
目前,我们的波尔平台注册用户已经突破了70万。对于一个偏科研的工具平台来说,这个体量其实非常可观了。
每天一睁眼就有几万人在上面提科研相关的问题、交流研究思路,这种活跃度,在整个科研产品领域其实是很少见的。我们也希望通过这种高频的用户互动,持续打磨出更贴合一线科研场景的功能,把这个平台真正做成科研人员离不开的工作入口。
AI for Science落地后带给普通人的是更直接的影响
网易科技:谈到AI for Science,可能更多人理解是在科学研究过程中使用一些 AI 技术,在你看来AI 对科研的改变,是如何体现出来的?
柯国霖:按我们现在在做的,可以分成两个层面来看。
一方面,是提升科学家本身的研究效率。这也是我们玻尔平台最核心要解决的问题,比如说读文献、跑计算、做实验,全流程都可以在平台上完成。刚刚前面也讲了很多,我就不赘述了。
另一方面,其实更深层的是 AI 对科学规律本身的一种建模能力。科研分很多种,但我们现在关注的更多是“应用型科研”,也就是那些真正能够落地的,比如说做出一个药,最终可以真的被用在临床上的那种。不是纯理论推演,不是停留在纸面上的。
但现实是,即便科学理论已经发展了这么多年,实际应用科研其实还是非常依赖试错的。例如说药物研发,虽然看着也有一些理论指导,但真要做出来也需要大量的实验验证。此外,试出来有效的东西,我们也很难完全理解它为什么有效。副作用也好,机制也好,理解和解释都是滞后的。
所以在这种模式下,我们现在的应用科研流程其实特别像一个漏斗。从大量的可能性开始,一层层筛,越往后成本越高,准确度也越高,但能试的数量就越少。比如说你想测试一个新药,传统流程可能要一一合成、拿动物做实验,甚至进入人体试验,每一步都要花很大的钱和时间。所以为了节约成本,大家慢慢在前面加一些新的流程,比如说用细胞实验、分子属性检测,再往前的话,就类似用计算模拟的方法。
AI 在这里的作用,就是在这个漏斗的前半段慢慢切进去,逐渐加速或替代原来的环节。因为越靠近漏斗前端,数据越多,模型效果越好,AI起到的效果会越明显。随着数据积累,AI 的作用会逐步往后拓展,向更接近真实实验的环节靠近。
你像 AlphaFold 就是个很典型的例子,它成功的主要原因也是数据---用了大量科学家几十年积累的几十万条蛋白实验数据,才能把结构预测做到几乎接近实验精度。
但不是所有方向都像蛋白这样,已经积累了大量的数据。所以 AI 对应用科研的加速不会是一蹴而就的,需要结合实际的情况,不断地往前推进。
网易科技:可以再举一些更具体的例子吗?
柯国霖:其实最典型的例子还是 AlphaFold。这个例子很多人应该都听过,它背后的突破非常有代表性。
比如说在 AlphaFold 出现之前,很多博士生其实都在做蛋白结构解析的工作。这个过程非常复杂,首先要把蛋白质先合出来,然后还要做分离纯化、结晶,整个过程非常耗时耗力,也有失败的可能性。它需要的设备也比较昂贵,一台冷冻电镜设备动辄上千万甚至上亿。
在过去,一个训练成熟的博士研究生,要顺利完成一次蛋白结构的解析,快的也要一两年,慢的甚至四五年。这还只是“解一个蛋白”的工作量。你想,一个博士读下来,可能就只能解出几个蛋白结构。
但 AlphaFold 出现之后,这种情况发生了质变。AI 的泛化能力非常强,它不是只帮你解决一个具体结构,而是可以推广到所有蛋白结构的建模。虽然对一些复杂结构可能还是需要人来微调,但绝大多数情况下,它已经不需要人再逐个去从头解析了。这是一个真正意义上的效率跃迁。
另一个例子来自我们自己平台的实践。比如说我们平台上支持的一种典型科研流程——药物研发中的靶点调研。以前的做法是,研究员要先把靶点相关的所有药物专利都整理出来,然后一个个阅读、筛选,从中提取出被专利过的分子结构和它们对应的活性属性。这是非常耗时的过程,我们自己内部的药物研发团队也做过,通常需要两三个人全职做上一两个月。
而现在,用我们波尔平台的多模态文献理解能力,这个过程几乎可以完全自动化。研究员只需要输入靶点名称,平台就能自动帮你收集所有相关文献,自动提取里面药物的分子信息和活性属性,自动整理成结构化的数据表格,生成一个完整的数据库。
而且这个过程不需要人工干预。等于说,我们通过 AI,把原来需要两三个人一两个月做的事情,压缩成了几分钟。这就是我们真正看到的一个落地的变化,解放的是科学家的重复劳动,他们可以把时间投入到更核心的科研问题上去。
网易科技:当AI进入科学研究中,您觉得像科学家为代表的“人”和“技术”之间应该是怎样的一种关系?
柯国霖:我觉得可以这样理解——我们现在用 AI,本质上是希望它能帮我们解决问题。但这个“解决问题”的前提,是你已经把问题定义得比较清楚了。只要目标明确,AI 的表现往往不错,甚至可以不断优化,越做越好。
其实在科研里最难的,不是解决问题,而是发现问题。你得先知道“什么是一个好问题”,哪些问题值得做,哪些方向可能有价值。比如在药物研发中,你要能判断哪个靶点值得投入,这一步判断本身,是一个高门槛的科研洞察。
而这一块,AI 目前是很难胜任的。它可以帮你处理已有的问题,但如果你指望它自己去“提出一个新问题”,你会发现它往往是胡说八道,缺乏逻辑或科学性。
所以我觉得,科学家的核心价值依然是在前端——提出假设、发现问题的阶段。而这并不是凭空臆想的过程。很多时候,我们是在真实世界的实践中,通过实验、观察,才意识到某些地方“有问题”,或者结果和预期有差异,从而意识到这里可能存在一个“未知”。这些预期外的异常,才是科研创新的突破口。
但目前的大模型还是停留在数据层面,它理解的是已有数据的结构和规律,却没法像人一样,去和物理世界互动、观察异常、生成洞察。所以它很难真正发现新问题。未来如果 AI 拥有了“身体”,能感知世界、行动反馈,也许会改变这种局面,但至少现在,还差得远。
网易科技:在 AI for Science 的推动下,未来科学会朝着什么方向发展?
柯国霖:做科学,或者说做科学的应用,归根结底就是为了找到一些真正有用的东西。那 AI 的加入,会让这件事变得更高效、更系统。
如果去畅想很久的未来,不考虑任何限制的话,那AI必然是可以实现一切,所以很长远的假设没太大意义。更关键的是它在中短期会发展成什么样子,我们在有生之年能见到的未来会是怎样。更具体来说,就是考虑现阶段的数据、算力、硬件等客观条件的限制,以及它们在中短期内的发展,我们能实现什么?
在这个限制下,我认为可以实现的是AI for Science的自主智能体。 举个例子,比如我们想要开发一种新材料,就在对话框里输入一句话:“我想要一种又轻又隔热的材料。”系统就开始自动搜文献、查数据库、比对已有的研究成果。如果有类似的,它会直接给你合成;如果没有,它就从零开始设计,再进入实验、验证,最后把结果反馈给你。
这个过程就像是你身边有一个“全能科学家”——思路清晰、执行力强,而且很能卷,不睡觉不喊累。你只需要告诉它目标,它就能帮你实现。如果我们实现了这个目标,那我们就彻底改变了应用科研的研发范式,它会大幅提高现在各类新物质研发的效率,例如新药研发,新材料研发等等。
当然,要实现这个也还没那么简单,它需要智能体能够在物理世界里做实验,并获取反馈。但这个目标也没那么遥远,我们已经在一些场景上验证了这个思路的可行性。这里最核心的瓶颈,还是在于跟物理世界进行迭代反馈的效率和质量,所以智能化的仪器表证,以及自动化的实验设备,都是实现这个目标的关键因素。
如果考虑更短期的未来的话,那就是我们玻尔所提供的平台功能:更好的文献理解以及科学工具的智能调用。这些功能已经可以大幅提高科研人员的工作效率,把更多的时间用在更关键的环节上。
对普通人来说,AI for Science 或许看起来还很远,但其实也很近。你日常生活用到各类产品,小到手机屏幕,大到汽车电池,背后其实都有AI for Science的功劳。它的快速进步也会给我们的生活水平和技术发展持续带来切切实实的影响。
值得注意的是,在柯国霖接受采访后不久,国际科学智能联盟在北京成立,该联盟由北京大学、上海交通大学、中国科学技术大学、北京科学智能研究院等50余家顶尖高校、科研院所及行业领军企业共同发起,旨在通过人工智能技术驱动科研范式变革,加速科学发现与产业转化协同发展,正式开启“大科研时代”新篇章。
而在昨天,5月21日,由北京科学智能研究院与深势科技联合打造的AI科研平台“Science Navigator(科学导航)”,也在北京大学正式上线。
该平台是全球首个覆盖“读文献-做计算-做实验-多学科协同”全流程的AI科研系统,后续也将服务更多院校的科研体系,为高校科研人员探索学术前沿提供技术支撑。
(来源:网易科技)