更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

2024年03月11日,18时37分52秒 OpenAI 阅读 9 views 次

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

编辑 | 萝卜皮

单细胞 RNA 测序 (scRNA-seq) 已广泛用于疾病研究,其中在不同条件下(包括人口群体、疾病阶段和药物治疗)从捐赠者中收集样本批次。值得注意的是,此类研究中样本批次之间的差异是批次效应引起的技术混杂因素和条件效应引起的生物变异的混合体。

但是,当前的去除批次效应方法往往同时消除技术批次效应和有意义的条件效应,而扰动预测方法仅关注条件效应,导致由于未考虑批次效应而导致基因表达预测不准确。

在最新的研究中,佐治亚理工学院(Georgia Institute of Technology,GT)的研究人员介绍了 scDisInFact,这是一个深度学习框架,可以对 scRNA-seq 数据中的批次效应和条件效应进行建模。

scDisInFact 学习将条件效应与批次效应分开的潜在因素,使其能够同时执行三项任务:批次效应去除、条件相关关键基因检测和扰动预测。

研究人员在模拟和真实数据集上评估 scDisInFact,并将其性能与每个任务的基线方法进行比较。结果表明,scDisInFact 优于专注于单个任务的现有方法,为集成和预测多批次多条件单细胞 RNA 测序数据提供了更全面、更准确的方法。

该研究以「scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data」为题,于 2024 年 1 月 30 日发布在《Nature Communications》。

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

单细胞 RNA 测序 (scRNA-seq) 能够测量实验批次中每个细胞中基因的表达水平。这项技术已广泛应用于疾病研究,从疾病不同阶段或接受不同药物治疗的捐赠者身上收集样本。

因此,每个样本的 scRNA-seq 计数矩阵与供体的一种或多种生物学状况相关,这些生物学状况可以是年龄、性别、药物治疗、疾病严重程度等。同时,研究同一疾病的数据集通常是在不同批次中获得的,这会引入跨批次的技术差异(也称为批次效应)。

实际上,疾病研究数据集中的可用样本可能来自不同的条件和批次。研究人员将此类数据集称为多批次多条件数据集。在此类数据集中,同一批次生成的不同生物条件的数据矩阵之间存在由条件效应引起的生物变异,而同一条件但不同批次的数据矩阵之间存在批次效应引起的技术变异。

因此,这些数据矩阵之间的差异是批次效应(技术变异)和条件效应(生物变异)的混合体,这使得充分利用这些数据集潜力的过程变得复杂。

科学家考虑了使用多批次多条件数据集进行疾病研究时需要解决的一些计算挑战:(1)消除批次效应,同时保留生物条件效应;(2)检测与生物状况相关的关键基因;(3)预测对应于一定条件的未见数据矩阵,也称为扰动预测任务。学界已经针对每个问题分别设计了方法,但没有现有的方法可以共同解决这三个问题。

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

图示:scDisInFact 概述。(来源:论文)

在最新的研究中,佐治亚理工学院的研究团队提出了 scDisInFact(single cell disentangled Integration preserving condition-specific Factors),这是第一个可以执行所有三个任务的方法:批次效应消除、条件相关关键基因(CKG)检测以及多批次多条件 scRNA-seq 数据集上的扰动预测。

scDisInFact 是基于解纠缠分自动编码器框架设计的。它将多批次多条件数据集中的变化分解为编码所有数据矩阵共享的生物信息、特定条件的生物信息和技术批次效应的潜在因素。解开的潜在空间允许 scDisInFact 执行另外两项任务,即 CKG 检测和扰动预测,并克服每个任务现有方法的限制。

特别是,解开的因子允许 scDisInFact 消除批次效应,同时保留基因表达数据中的条件效应。此外,scDisInFact 扩展了现有扰动预测方法的多功能性,因为 (1) 它可以对多种条件类型的影响进行建模,(2) 它可以跨数据集中的条件和批次的任意组合进行数据预测。

研究人员在消除批次效应和 CKG 检测方面比较了 scDisInFact 和 scINSIGHT(一种同类型方法,使用非负矩阵分解将 scRNA-seq 矩阵分解为通用模块和条件特定模块。)。由于 scINSIGHT 不进行扰动预测,因此该团队在扰动预测方面将 scDisInFact 与 scGen 和 scPreGAN 进行了比较。

对于消除批次效应,scDisInFact 仅消除批次效应并保留数据矩阵之间的生物学差异。对于与病情相关的关键基因检测,scDisInFact不仅可以高水平输出CKG,而且扰动预测结果还可以用于寻找在特定细胞或细胞类型中从一种条件组合到任何其他条件组合差异表达的基因。

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

图示:模拟数据集上的扰动预测结果。(来源:论文)

对于扰动预测,scDisInFact 对与捐赠者相关的多种条件类型进行建模,并可以预测从条件组合到所研究的任何其他组合的数据。这使得在复杂场景中的应用成为可能,例如预测多种药物组合的效果。

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

图示:模拟数据集的结果。(来源:论文)

该团队在模拟和真实数据集上测试了 scDisInFact,发现它在各种任务中都优于基线方法。由于其卓越的性能和多任务能力,scDisInFact 可用于全面分析多批次多条件 scRNA-seq 数据集,有助于更深入地了解疾病进展和患者对药物治疗的反应。

论文链接:https://www.nature.com/articles/s41467-024-45227-w

(来源:机器之心)

标签:


用户登录