全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

2025年03月14日,16时36分24秒 OpenAI 阅读 58 views 次

编辑 | ScienceAI

过渡态（Transition State, TS）是化学反应的「关键帧」，就像群山中的最低隘口，决定了分子翻山越岭所需的能量和路径。然而，TS的寿命仅有飞秒级（10⁻¹⁵秒），实验观测如同捕捉闪电一瞬——目前只能依赖量子化学计算来寻找。

传统的密度泛函理论（DFT）虽能提供高精度结果，但单次TS搜索可能消耗数十至数千CPU时，面对成百上千反应节点的复杂网络，计算成本高得难以承受。近年来，机器学习（ML）为TS搜索开辟了两条新路径：

机器学习原子间势（MLIPs）——通过神经网络学习势能面，将单点能量计算速度提升千倍，但依赖传统TS搜索框架；

生成模型——直接「脑补」TS的3D结构，跳过路径搜索步骤，类似AlphaFold颠覆蛋白质结构预测。

尽管MLIPs在常见的能量与力误差等评价指标上不断刷新排名，这些模型在端到端TS搜索任务上的真实表现仍缺乏系统评估。

为了解各类ML模型在TS搜索中的实际表现，深度原理（Deep Principle）联合深势科技，清华大学，加州大学伯克利分校等机构开发了基于过渡态搜索框架 Yet Another Reaction Program（YARP），为两种不同策略的 ML 模型搭建了公平的「考场」，系统性地考察了 7 种 MLIPs（ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim和 Orb）和 SOTA 生成式模型 React-OT 在过渡态搜索中的表现。

相关研究以《Harnessing Machine Learning to Enhance Transition State Search with Interatomic Potentials and Generative Models》发布在预印平台Chemrxiv上。

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

论文链接：https://doi.org/10.26434/chemrxiv-2025-mt6hc

端到端的过渡态搜索框架

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

图 1：基于MLIPs或React-OT的两种不同的端到端过渡态搜索方法。两种方法的主要区别在于TS优化的初猜结构构建方式不同，MLIP通过最小能量路径构建，React-OT则直接生成结构。

研究团队基于自动化过渡态搜索框架YARP，为两类机器学习模型（MLIPs和生成式模型）搭建了一套标准化测试流程（图 1），通过三个核心模块实现「算法剥离、能力聚焦」：

初猜生成：最小能量反应路径构建（MLIP，图 1ab）v.s.最优输运生成（React-OT，a'b'）

TS优化：结合Hessian矩阵的过渡态优化

TS验证：通过内禀反应坐标（IRC）计算确认「反应物-TS-产物」精确连通

这一化学反应AI 「考场」具有如下三个亮点：

统一基准：首次在同一测试框架内集成多种MLIP（DPA-2、MACE、CHGNet、LEFTNet等）和生成模型，消除算法差异对结果的影响；
性能透明化：通过标准化流程，直接对比模型在结构优化、路径搜索、TS精度、计算效率等关键维度的表现；
应用导向：为反应性MLIP的开发提供系统全面的评测依据，助力下一代AI驱动的TS搜索方法。

MLIP的系统性评估，谁在「高考」中拔得头筹？

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

图 2：基于Transition1x数据集，对比七种MLIPs（ANI-1x, CHGNet, DPA-2, LEFTNet, MACE, MatterSim,和Orb）与GFN2-xTB的端到端过渡态搜索表现。分别从微调前后GSM成功率与Intended率、微调后能量与力的MAE、TS RMSD与能量误差方面进行对比，并探索显式指标与隐式指标的关系。

1.考题设计：Transition1x数据集

•Transition1x作为「高考题库」，通过Nudged Elastic Band (NEB)方法采样了约10,000个反应，总共生成了1000万个结构数据点。这些反应包含高能反应（能垒>50 kcal/mol）、多键变化反应等传统ML反应预测模型的「盲区」，适合作为TS搜索任务的「官方备考指南」和「考试真题」。

•研究者按照反应对结构数据集进行划分，训练集与测试集的几何结构零重叠，杜绝「考前泄题」。

2.评分标准：四大指标定义「优等生」

•GSM成功率：能否用Growing String Method构建连通反应物与产物的反应路径。

•Intended率：验证IRC的计算结果正确匹配目标TS的比例。

•TS质量（RMSD）：优化后的TS与DFT参考结构的几何偏差。

•能垒预测精度：根据优化后TS计算得到的活化能的误差，优质模型需要达到1∼2 kcal/mol（接近DFT理论极限）。

3.成绩单曝光：MLIP的「学霸」与「黑马」

预训练模型的「集体翻车」

•尽管预训练模型在GSM成功率方面表现很好，Orb（93%）的表现甚至超过xTB（86%）。但所有模型的Intended率较低，MatterSim在所有预训练模型中表现最好（27%），DPA-2紧随其后（19%），但离xTB（62%）仍有明显差距。这主要因为模型预训练数据缺乏反应数据，因而势能面预测严重失真。

微调后的逆袭者：LEFTNet

•从头训练的LEFTNet以88%的GSM成功率和69%的Intended率登顶，TS RMSD仅0.10Å，能垒误差仅1.83kcal/mol。CHGNet和MACE-OFF23的表现紧随其后。

4.指标关联：揭开模型能力的「冰山之下」

显式与隐式指标的普适性关联

•相同架构不同训练轮次或不同架构的模型，能量和力的MAE（显式指标）均与TS搜索的隐式指标（如TS RMSD、势垒误差）对应。MAE越低，TS结构优化精度与能垒预测精度越高。

性能饱和与阈值效应

•当MAE降低至特定阈值后，GSM成功率与Intended率趋于饱和。

力预测的不同策略大比拼

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

图 3：对比能量求导（autograd）、直接预测（direct-force）与对以直接预测的方式训练的能量进行求导（autograd*）的表现。

在机器学习势函数（MLIP）领域，力的预测存在两大技术路线：

Autograd派：通过对势能面能量求导获取力，严格遵循物理规律

Direct-force派：直接预测原子受力（N×3矩阵），追求更高的计算效率和更精准的力的预测

策略性能对比：direct-force策略在GSM任务中的成功率较高（93%），但由于其预测的力不满足物理约束，进一步求导得到的Hessian矩阵误差较大，并且丢失了对称性。因此，该策略最终仅找到122个TS，远低于autograd策略的786个TS，且TS质量也显著逊色。

然而，direct-force策略仍具有独特优势，包括计算速度快、力预测精度更高，以及生成的GSM路径更多。因此，研究者指出，如果能在训练过程中直接预测Hessian，或利用Hessian进一步优化direct-force模型的训练，或许能获得更优的模型。

生成式模型的「弯道超车」

全球首个化学反应AI「考场」，7种MLIPs模型与SOTA生成式模型同场PK

图 4：以LEFTNet为例对比MLIP与React-OT的表现。示例（c-e）展示不同策略下可能搜索到的TS差异。

React-OT三大颠覆性优势

•TS初猜成功率100%

•DFT优化后匹配率95%（显著高于MLIP+DFT的84%）

•结构偏差仅0.067Å（优于LEFTNet的0.077Å）

MLIP的不可替代性

•MLIP提供了更精准的TS能量预测（MAE=0.77 kcal/mol，优于React-OT的1.03 kcal/mol）

•相比专注于过渡态预测的生成式模型，MLIP可在无需DFT的情况下验证TS并探索完整的反应机理

协同作战新范式：React-OT生成初猜→ MLIPs优化验证→效率精度双提升

•更少的计算耗时

•更高的 intended 率

更好的数据库，更深入的模型交融

数据基建：突破CHNO元素限制，覆盖更完善的反应空间的数据库将是ML更好的「老师」；

模型共生：擅长结构预测的React-OT与擅长能量预测的MLIPs可相结合，实现更高效准确的TS搜索；

技术突破：攻克Hessian矩阵预测难题，解决direct-force策略的「非保守场陷阱」。

当AI考场从能量预测这一「单一试卷」升级为能量、结构、路径的三维评价体系，传统量子化学驱动的过渡态搜索正式迈入「智能评测驱动迭代」的新纪元。

这场考试不仅暴露了目前模型的短板，更指明了数据-算法-理论联合作战的突围路径，而深度原理也将继续沿着这条路径持续打造更强大的化学反应生成式大模型。

(来源:机器之心)

2025年 6月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

关联资讯:

用户登录