基于子任务分解的单细胞基因扰动预测模型STAMP
关键词: #健康资讯
关键词: #健康资讯
基因功能的解析在理解生物学过程、疾病机制和新药研发中至关重要。单细胞遗传扰动测序技术,如Perturb-seq和CROP-seq,正逐渐成为研究基因功能的新工具。这些技术能够在单细胞层面上检测特定基因扰动后细胞的转录谱变化,帮助我们关联基因扰动与表型,进而开发新的干预和治疗方法。然而,基因扰动组合的潜在空间极为庞大,依靠传统的暴力搜索方法进行实验探索显得不切实际。此外,单细胞扰动测序技术的发展仍处于早期阶段,测序成本高昂,限制了对多细胞系的扰动数据获取。因此,亟需开发普适性强、适用于多种场景的单细胞扰动预测模型,以推动基因功能及其复杂调控关系的深入研究。
目前,单细胞扰动预测的主流方法可分为三类。第一类是基于基因调控网络的预测模型,如CellOracle和SCENIC+,但其准确性受到调控网络构建的限制;第二类是扰动表征方法,如CPA和GEARS,虽然在单基因和多基因扰动上有效,但在多细胞系的泛化能力上仍存在不足;第三类则是基于单细胞大模型的方法,如scGPT、Geneformer和scBERT,这类方法具有广泛的基因表征能力,然而,缺乏对扰动预测性能的系统评估,且与简单线性模型相比,效果并不显著。因此,系统评估现有的单细胞扰动预测方法并发展新的普适策略显得尤为重要。
近期,同济大学生命科学与技术学院的研究团队在《Nature Computational Science》上发表了题为《Toward subtask-decomposition-based learning and benchmarking for predicting genetic perturbation outcomes and beyond》的论文,提出了一种新的单细胞扰动预测AI框架STAMP(SubTAsk decomposition Modeling for genetic Perturbation prediction)。该框架通过子任务分解的方式提升和评估模型在单基因、多个基因和跨细胞系扰动中的泛化能力,进一步推动单细胞扰动组学的智能解析和应用。
单细胞扰动数据通常存在高维度、高噪声和强稀疏性等特点,直接建模面临挑战。STAMP将扰动预测问题分解为三个层级的子问题:识别受扰动后的差异基因、鉴定差异基因表达变化方向及量化基因表达变化的数值。通过这样的分而治之策略,STAMP建立了一种有效的计算模型,具有较高的灵活性和普适性。
在第一个子任务中,STAMP通过学习基因表征空间到扰动后差异基因空间的映射,预测扰动后的差异基因。这一过程提升了后续子任务中的信噪比。在第二个子任务中,STAMP学习基因表征空间与扰动后基因表达变化方向空间的映射,进一步刻画基因的调控轨迹。第三个子任务在前两个子任务的基础上定量预测受扰动后差异基因的具体表达变化值。STAMP采用多任务学习的形式优化模型,同时具备插件特性,能够与各种单细胞大模型兼容,以便进行基因扰动预测。
研究团队在多个测试场景下评估了STAMP与其他主流模型的表现。结果显示,结合scGPT的基因表征与STAMP的框架,展现出了卓越的性能。该团队还将scGPT+STAMP应用于关键调控基因的识别和基因互作的探究,证明了子任务分解策略在小样本学习和基因互作识别中的有效性。
总的来说,STAMP作为一种创新的单细胞扰动预测模型,以子任务分解的方式提升了模型的泛化能力和适用性。这一框架不仅为现有研究提供了新的思路,也为单细胞扰动组学的智能解析及精准医学的研究开辟了新路径。刘琦教授团队近期还开发了PerturBase,这是领域内首个全面的单细胞扰动组学数据平台,预计将进一步推动数据驱动的精准医学研究。
2025-01-19
2025-01-19
2025-01-19
2025-01-19
2025-01-19