Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

2024年04月09日,16时26分47秒 OpenAI 阅读 5 views 次

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

图来自网络

编辑|ScienceAI

普林斯顿王梦迪团队迎来了一项具有划时代意义的突破,该团队开发了世界首个解码mRNA非翻译区域序列的大模型,用于准确预测从mRNA到蛋白质的转录功能,及设计新序列用于mRNA疫苗。

该研究论文的题目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」,已被《Nature Machine Intelligence》接收。

这篇论文意味着大语言模型可以用于预测和设计mRNA疫苗,其中新设计的序列经过实验证实远高于传统疫苗的转录效率。AI和语言模型正在颠覆生物学和制药研究中的传统方法。

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

论文链接:https://www.nature.com/articles/s42256-024-00823-9

mRNA和mRNA疫苗

2023年诺贝尔生理学医学奖授予了mRNA技术的两位奠基人——Katalin Karikó和Drew Weissman,表彰他们对于mRNA机理研究和疫苗研发的奠基性,以及mRNA疫苗对人类健康的重大贡献。他们的研究不仅深化了我们对mRNA与免疫系统互动方式的理解,而且还推动了mRNA疫苗开发的历史性突破。

mRNA,全名信使核糖核酸,是生物体内至关重要的遗传物质。mRNA是单链的碱基序列,从DNA转录而来,其作用是将DNA中的遗传信息转化为蛋白质的合成指令,通过翻译(translation)产生特定的蛋白质。mRNA如何转录?如何调控蛋白质的合成?这些是生物学领域中最重要的问题之一,通过研究mRNA,科学家们希望能解码生命的奥秘。

mRNA分为中间的编码区(coding region) 和两端的非编码区(untranslated region, or UTR)。编码区的碱基序列对应着目标蛋白质的氨基酸序列, 科学家们已经掌握了编码区域和蛋白质的序列对应关系。mRNA最神秘的部分是非编码区,尤其是前端的非编码区(5’ UTR)。原因在于mRNA的非编码区的碱基序列深度参与并调控了编码区序列的转录过程,非编码区碱基序列和细胞里其他分子交互,调控了蛋白质的表达, 合成效率, 以及本身的稳定性等。

因此,在mRNA疫苗设计中,精确设计其非编码区序列,将直接决定mRNA序列在细胞里的翻译效率,最终决定了疫苗的有效性。深入研究mRNA的非编码区是重要的生物学问题,不仅有助于揭示基因表达的复杂机制,而且在疫苗设计和疾病治疗策略的开发中起到了关键作用。

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

图 1:DNA-mRNA-蛋白质的转录翻译过程,及其mRNA的不同区域。(左图来自网络)

UTR-LM: 多模态mRNA非转录区域语言模型

RNA序列由四种碱基组成,即核苷酸腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)组成,就像人类语言由一系列字母构成一样。这些核苷酸按照特定的规则排列,可以传达复杂生物功能的信息。

UTR-LM模型是一个针对mRNA非翻译区域研究而开发的语言模型。它基于transformer架构,通过类似学习自然语言的方式在核苷酸序列上进行自监督学习,并结合了二级结构(SS)和最小自由能(MFE)等多模态数据进行预训练。

为训练该模型,研究团队收集了多个数据库和不同物种的天然mRNA序列:包括Ensembl数据库,涵盖五个物种(人类、大鼠、小鼠、鸡和斑马鱼);Sample等提出的八个合成序列库;以及Cao等早期工作整理的三个内源性人类数据集 (分别来自人类胚胎肾293T细胞、前列腺癌细胞和肌肉组织)。

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

图 2:mRNA非翻译区域语言模型

在预训练后,研究团队针对多种mRNA翻译功能的预测任务进行了微调。平均核糖体负载量(MRL)、mRNA翻译效率(TE)和表达水平(EL)的预测对生物医学研究极为重要,因为这些指标直接决定了mRNA如何高效地被翻译成蛋白质,影响蛋白质产量和治疗蛋白质的开发。

在这些关键任务上,该mRNA非翻译区语言模型的表现(Spearman R)超过了六种最先进的基准方法,包括RNA-FM和RNABERT两种领先的RNA大语言模型。在平均核糖体负载量的预测上,该模型比Optimus高出高达9%,比FramePool高出高达6%,并且比RNAFM高达42%。对于mRNA翻译效率和表达水平的预测,该模型分别比Cao-RF高出高达5%和8%,而与Optimus相比则高出高达25%和47%。

此外,识别未注释的内部核糖体。他们高度评价了这个「mRNA的非转录区域的多物种语言模型」,并特别强调将机器学习应用于生物学数据分析的重要性。

专家们认为,目前生物学领域在这方面的研究还不够充分,而这项工作正好填补了这个空白,为未来的研究提供了新的方向和实验数据。北美和欧洲多个实验室也非常感兴趣向该研究团队发出了合作邀请。

Nat. Mach. Intell.|设计超高效疫苗,普林斯顿团队开发首个解码mRNA序列大模型

图 5:生物学专家在Twitter上对「mRNA的非转录区域的多物种语言模型」给予积极评价,强调其在生物学研究中的创新应用。

同时,这个研究也吸引了业内公司的注意,biotech知名VC如FlagShip已和研究团队多次深入交流,努力复现这个方法。这项研究突显了AI for science的潜力。

mRNA技术已经在医学界引起了革命,这项针对名RNA的语言模型研究不仅提高了mRNA疫苗设计的效率和准确性,还标志着AI技术对于创新性科学和医学研究的推动、以及保障全球健康安全的巨大潜力。这一技术的广泛应用和更多突破,以推动科学的前进并改善人类健康。

作者简介

王梦迪就职于普林斯顿大学,任统计与机器学习中心、电气与计算机工程系副教授,其研究方向包括强化学习、生成人工智能、AI for Science和机器学习理论。

她于2013年在麻省理工学院获得计算机科学博士学位,曾任DeepMind、高等研究院和Simons理论计算机科学研究所的访问研究科学家。

王梦迪在2016年获得数学优化学会的青年研究者奖、2016年普林斯顿SEAS创新奖、2017年的NSF Career Award职业奖、2017年的谷歌研究奖、2018年的MIT科技评论35岁以下创新奖、2022年的WAIC云帆奖。

因其在在控制系统、机器学习和信息论等交叉学科的杰出贡献,她于2024年获得北美自动控制学会颁发的ACC Donald Eckman奖。她担任ICLR 2023的程序主席(PC)和Neurips、ICML、COLT等国际机器学习的高级区域主席(Senior AC),任Harvard Data Science Review, Operations Research等期刊的Associate Editor。

Jason Zhang曾在wave Life science, 诺华和赛诺菲有十五年工作经验,曾任RVAC首席科学家。

Jason持有化学和免疫学双博士学位,分别在协和医科大学的梁晓天院士和纽约大学的Dan Littman院士的指导下完成,并在耶鲁大学和哈佛大学完全了生物化学博士后研究。

他曾推动了近十个药物开发项目进入临床开发的不同阶段,并曾经成功筹集了超过1亿美元的资金。

在2023年11月,他携手诺贝尔医学奖获奖者Drew Weissman共同成立了Zipcode Bio。

Zipcode Bio定位于RNA技术的前沿,致力于推进下一代的RNA疫苗和疗法的研发。Zipcode Bio重视精准的体内靶向给药、成本效益以及消除对冷链物流的依赖,产品线覆盖了肺纤维化、自身免疫疾病以及癌症等重要领域。

(来源:机器之心)

标签:


用户登录