优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

2024年03月29日,23时30分20秒 OpenAI 阅读 8 views 次

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

编辑 | 萝卜皮

基于结构的生成化学,通过探索广阔的化学空间来设计对靶标具有高结合亲和力的配体,在计算机辅助药物发现中至关重要。

然而,传统的计算机方法受到计算效率低下的限制,机器学习方法则因自回归采样而面临瓶颈。

为了解决这些问题,腾讯 AI lab、香港城市大学、锐格医药(Regor Therapeutics Group)的研究人员开发了一种条件深度生成模型 PMDM,用于生成适合特定靶标的 3D 分子。

PMDM 由具有局部和全局分子动力学的条件等变扩散模型组成,使 PMDM 能够考虑条件蛋白质信息从而有效地生成分子。综合实验表明,PMDM 在多个评估指标上均优于基线模型。

为了评估 PMDM 在真实药物设计场景中的应用,研究人员分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物优化。该团队在湿实验室里合成了选定的先导优化分子,并对其进行评估,结果显示出了更强的 CDK2 体外活性。

该研究以「A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets」为题于 2024 年 3 月 26 日发布在《Nature Communications》。

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

基于结构的药物发现(SBDD)在现代药物开发和催化中发挥着至关重要的作用。给定特定的靶蛋白,其目的是识别有效结合特定靶蛋白的合适药物分子。传统的计算机方法(例如虚拟筛选)通过迭代(1)将现有数据库中的分子放入蛋白质袋腔中以及(2)根据实验论文中的能量估计、毒性等标准过滤分子来发现药物。

然而,这些方法存在两个局限性。首先,在巨大的化学空间(范围从 10^60 到 100^100,取决于所需分子的大小)中进行天真的详尽搜索成本高昂。其次,该工作流程受到历史知识的限制,因此无法探索和生成现有数据库中尚未记录的分子结构。

深度学习技术推动了药物分子结构学习和化学空间探索,但现有方法在处理三维(3D)空间信息和生成高亲和力分子方面存在局限。新一代生成模型致力于在蛋白质口袋内实现 3D 分子采样,从而提高分子设计的精确性和效率。尽管如此,准确捕捉分子细节、高效探索化学空间和保持全局信息仍是当前研究的挑战。

受到计算机视觉任务中扩散模型的启发,腾讯 AI lab、香港城市大学、锐格医药的研究团队提出了一种名为 Pocket based Molecular Diffusion Model(PMDM)的一次性生成框架。它能够通过整合扩散框架,用一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体。

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

图示:PMDM 框架概述。(来源:论文)

具体来说,具有固定口袋信息的分子原子被视为 3D 点云,并在前向过程中扩散,这类似于非平衡热力学中的现象。PMDM 的目标是学习如何逆向此过程来对条件数据分布进行建模。

一旦口袋信息固定,研究人员便能够用模型有效地生成具有高结合亲和力的精确分子。然而,如果研究人员将 3D 分子几何形状表示为 3D 点云,则 3D 点云的常规方法不能涉及化学键信息等边缘信息。因此,该团队定义了双重扩散策略来构建两种虚拟边缘。

详细地说,原子间距离低于特定阈值的原子对通过共价局部边缘键合,因为当两个原子彼此足够接近时,化学键可以主导原子间力,而全局边缘连接到其余的原子对以模拟范德华力。此外,研究人员设计了一个服从分子几何系统的平移、旋转、反射和排列等变的等变动态核。

合成 CrossDocked 数据集上的实验表明,PMDM 可以生成类药物、可合成、多样化的分子,对特定蛋白质具有高结合亲和力,并在多个评估指标上优于最先进的(SOTA)模型。

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

图示:分别由 AR-SBDD、DiffSBDD 和 PMDM 生成的示例分子与测试集的示例分子的比较。(来源:论文)

PMDM 的复杂性和采样时间要少得多,与 SOTA 方法相比,PMDM 实现了更好的或具有竞争力的性能。生成的分子的化学空间分析证明了生成的分子结构与 2D 和 3D 空间中的参考分子相比的合理性。此外,PMDM 具有生成大量生物活性分子的能力,这些分子对训练集中未包含的靶标蛋白具有高结合亲和力。

研究人员利用 PMDM 分别对 SARS-CoV-2 主要蛋白酶(Mpro)和细胞周期蛋白依赖性激酶 2 (CDK2) 进行先导化合物生成和优化。先导生成结果表明 PMDM 可以生成包含参考分子验证的结构模式的分子。

优于SOTA,腾讯AI Lab开发双重扩散模型,实现靶标配体3D分子生成和先导化合物优化

图示:SARS-CoV-2 主要蛋白酶 (Mpro) 的先导生成案例。(来源:论文)

通过提出给定特定片段的采样算法和用于链接器生成的采样算法,该模型可以应用于先导优化场景,包括支架跳跃和生成,而无需在特定数据集上重新训练。

该团队合成了选定的先导优化分子,并评估了其针对 CDK1 和 CDK2 的体外活性。体外结果表明所有分子都表现出改善的 CDK2 活性和适当的 CDK1 选择性。研究人员认为 PMDM 可以推进针对特定蛋白质的从头药物优化,并加速未来的药物开发研究。

兰大博士评价:有创新点,但也有局限性

「该研究是一个基于扩散模型的靶标口袋 3D 分子生成和先导化合物工作,主要创新点在于同时考虑了 local 和 global 的信息。这项研究能够以一次性方式生成以特定靶标蛋白为条件的 3D 小分子配体,分子生成性能相对优秀,并显著降低了计算量和时间消耗。」

「除此之外,该工作还应用到了真实药物设计场景(Mpro 蛋白先导化合物优化),证明了其实际应用可行性和算法有效性。」兰州大学的博士生黎育权在看到论文后评论道,他的导师是澳门理工大学应用科学学院教授、人工智能药物发现中心学术带头人姚小军。

黎育权说:「但这项工作也存在一定局限性。一方面,该方法需要更多的解释和透明度。比如说,深入到算法的运行时张量分析,分析双扩散策略是如何起关键作用的。另一方面,该方法需要更多的案例验证。算法创新是否能真的落地到药物发现并当中,实现论文中所述的多个方面作用,并稳定地发挥出价值。我认为仅凭论文中的少量是不够验证的。期待后续更多的案例验证。」

论文链接:https://www.nature.com/articles/s41467-024-46569-1

(来源:机器之心)

标签:


用户登录