结合ESM-2,杜克大学开发高效PTM感知蛋白质语言模型,实现新SOTA
编辑 | 萝卜皮
当前的蛋白质语言模型 (LM) 可以准确地编码蛋白质特性,但尚未代表翻译后修饰 (PTM),而翻译后修饰对于蛋白质组多样性至关重要,并影响蛋白质的结构、功能和相互作用。
为了解决这一差距,杜克大学、西湖大学的研究人员开发了 PTM-Mamba,这是一种 PTM 感知蛋白质 LM,它通过新开发的门控机制使用与 ESM-2 蛋白质 LM 嵌入融合的双向 Mamba 块来集成 PTM 标记。
PTM-Mamba 能够独特地同时建模野生型和 PTM 序列,从而支持下游任务,例如疾病关联和药物可药性预测、PTM 对蛋白质相互作用的影响预测以及零样本 PTM 发现。
总而言之,这项研究将 PTM-Mamba 确立为 PTM 感知蛋白质建模和设计的基础工具。
该研究以「PTM-Mamba: a PTM-aware protein language model with bidirectional gated Mamba blocks」为题,于 2025 年 4 月 10 日发布在《Nature Methods》。

研究人员假设,将 ESM-2 嵌入与专门处理 PTM 标记的框架相结合,可以实现对野生型残基和 PTM 的精确建模。
为了验证这一点,杜克大学的研究人员整理了一个包含 79,707 个修饰序列的训练数据集,该数据集由 Swiss-Prot 数据库中 311,350 条经实验验证的 PTM 记录构建而成。
他们专门将 PTM 注释映射到各自的蛋白质序列,确保 PTM 类型和序列长度的多样化表示。
他们提出的翻译后修饰 (PTM) 蛋白质语言模型 (LM) 基于 Mamba,这是一个结构化的状态空间模型,通过选择性状态空间架构提供计算效率和灵活性,该架构在序列长度方面实现了亚二次时间和内存复杂度。此外,Mamba 使用硬件感知原语(例如并行化状态转换和卷积投影)来加速计算,而不会影响扩展。

图示:TM-Mamba 的架构和嵌入可视化。(来源:论文)
虽然 Mamba 最初的自回归文本生成设计限制了其捕捉完整序列语义的能力,但研究人员通过引入前向和后向处理层,将其调整为双向建模。由此产生的双向 Mamba 模块以两个方向处理序列:前向传递(从左到右)和后向传递(从右到左)。
每一遍都通过各自的状态空间层独立生成隐藏状态,并将输出连接起来,然后由全连接层融合,生成组合表征。残差连接应用于前向层和后向层,并对其贡献进行平均以保留两个方向的上下文,从而确保对氨基酸和翻译后修饰 (PTM) 的序列依赖关系进行全面建模。

为了保持对常规氨基酸的理解,研究团队将新的 PTM-Mamba 模型作为最先进的 ESM-2-650M 模型的头部进行训练,其中野生型氨基酸标记被传递到 ESM-2-650M 中以检索其输出嵌入,并且 PTM 标记被转换为 ESM-2-650M 输入的 <mask> 标记。
序列最终被输入到 PTM-Mamba 的嵌入层,该层能够自然地处理野生型和 PTM 标记。为了合并 ESM-2-650M 和 PTM-Mamba 嵌入,该团队提出了一种新的门控机制,将两个嵌入连接起来,并通过 S 型激活线性门进行过滤,以生成最终的输出表示。

性能评估
研究人员将 PTM-Mamba 与基线 PTM-Transformer 模型进行了比较,观察到训练准确度的收敛速度更快,这说明双向 Mamba 块和门控机制的会更高效。
除了效率之外,PTM-Mamba 的主要目标是清晰而又相关地表示未修饰和翻译后修饰的序列,捕捉 PTM 引起的关键生物学功能和结构变化。
为了评估这一能力,他们使用 t 分布随机邻域嵌入 (t-SNE) 对 PTM-Mamba 嵌入进行了可视化。这些嵌入揭示了野生型蛋白质序列与其 PTM 修饰对应序列之间的细微区别,并且每对野生型蛋白质序列的嵌入都非常接近。
这表明 PTM-Mamba 能够捕捉 PTM 细微而显著的影响,同时保持蛋白质序列的上下文完整性。并且,PTM 残基的 token 嵌入表现出类别特异性的组织结构,例如磷酸化和乙酰化的 token 之间存在空间接近性。PTM 残基标记也表现出比野生型标记更大的空间多样性,反映了该模型对编码 PTM 特定信息的关注。
为了确认 PTM-Mamba 嵌入在标准 PTM 预测任务上保持强劲的性能,研究人员在磷酸化位点预测和非组蛋白乙酰化位点预测上对其进行了评估。
使用针对这两项任务精心挑选的数据集,他们进行了每个残基的二元分类,并将 PTM-Mamba 嵌入与基线进行了比较,包括 ESM-2-650M、ESM-2-3B、PTM-Transformer 和基线独热嵌入。PTM-Mamba 在所有指标上均保持了相当的性能,这证实了其嵌入对 PTM 相关任务具有普遍的适用性。
需要注意的是,这些任务并不明确表示 PTM 标记,这与 PTM-Mamba 主要针对涉及修改序列的用例(而非仅限野生型的基准)进行优化的观察结果相符。
三个基准测试任务
该团队在三个明确利用 PTM 标记化的基准测试任务上对 PTM-Mamba 进行了评估:疾病关联预测、成药性预测以及 PTM 对蛋白质-蛋白质相互作用 (PPI) 的影响。
对于疾病关联预测,他们使用了从 dbPTM 数据库中整理的数据集,该数据集将 PTM 与癌症、神经退行性疾病和糖尿病等疾病联系起来,注释来自 PhosphoSitePlus、ActiveDriverDB 和全基因组关联研究 (GWAS) 等数据库以及手动整理。
结果显示,PTM-Mamba 的表现优于基线模型(包括 ESM-2-650M 和 PTM-Transformer),证明了其能够捕捉对于识别疾病相关蛋白质至关重要的 PTM 特定效应。

图示:PTM-Mamba 在各种 PTM 相关任务中的性能评估。(来源:论文)
成药性预测评估了影响治疗靶向性的PTM序列,重点关注修饰如何改变蛋白质结构和结合位点的可及性。结果表明,PTM-Mamba 实现了稳健的性能,通常在 F1 分数和马修斯相关系数 (MCC) 等关键指标上超过基线,突出了其与治疗设计的相关性。
为了评估PTM 对 PPI 的影响,他们使用了 PTMint 数据集,该数据集注释了经实验验证的 PTM 介导的调控作用,特别是 PTM 是诱导还是抑制 PPI。
评估表明,PTM-Mamba 在所有模型中取得了最高指标,包括 PTM-Transformer 和 PTM-SaProt,后者是一种新颖的基线模型,用最先进的、结构感知的 SaProt 蛋白质 LM 嵌入取代了 ESM-2,这表明以序列为中心的模型可以更优地捕捉 PTM 效应。
该基准展示了 PTM-Mamba 模拟由 PTM 介导的复杂调控动态的能力,进一步突出了其在生物相关下游应用中的实用性。
实用性
研究人员还探索了 PTM-Mamba 在零样本 PTM 发现中的实用性,这是一项与生物学高度相关的任务。
通过分析野生型序列中掩蔽位置的模型对数回归(logits),PTM-Mamba 准确地预测了特定残基的合理 PTM,例如 UniProt 序列 Q02261 中丝氨酸的 <磷酸丝氨酸> 预测,以及 UniProt 序列 Q4L7X2 中半胱氨酸的 <S-二酰甘油半胱氨酸> 预测。
这些功能为 PTM-Mamba 提供了一种工具,使生物学家无需额外的培训即可对 PTM 生物学产生新的见解。
结语
总的来说,PTM-Mamba 为建模和设计 PTM 特定蛋白质序列提供了新的机会,特别是通过其明确标记 PTM 修饰蛋白质形式的能力,可用于从疾病机制研究到具有增强靶向特异性的治疗设计等应用。
对于未来的工作,该团队计划通过使用基于质谱的 PTM 数据库扩充训练数据集来解决经过实验验证的 PTM 注释的有限可用性问题。
他们还希望将探索 PTM 修饰序列的结构预测作为一项新任务,该任务可以利用 PTM-Mamba 的嵌入,同时扩展这些嵌入以设计选择性针对修饰蛋白质状态的 PTM 特定结合剂。
总之,通过实现 PTM 感知建模,PTM-Mamba 有可能重塑蛋白质组分析并推动精准治疗的创新。
论文链接:https://www.nature.com/articles/s41592-025-02656-9
(来源:机器之心)