Translatomer模型:揭示复杂疾病遗传变异对翻译调控的新机制
关键词: #健康资讯
关键词: #健康资讯
基因表达的过程主要由转录和翻译两个环节构成。然而,近年来的研究表明,mRNA的表达水平并不能完全代表相应蛋白质的水平,其相关性仅约为0.6,并且在不同细胞类型和组织中存在显著差异。尽管已有大量数据和算法用于评估遗传变异对转录的影响,但由于mRNA与蛋白质水平之间的差异,导致我们对疾病相关变异调控机制的系统性理解受到限制。此外,超过93%的与人类疾病相关的变异位于非编码区,其中包括一些位于mRNA的非翻译区(如5'UTR和3'UTR)的位点,这些位点虽然无法直接改变蛋白质序列,但却可能对疾病的发生起到重要作用。因此,研究如何在翻译层面解析这些非编码疾病位点的机制显得尤为迫切。
2024年10月23日,浙江大学良渚实验室及附属第二医院熊旭深课题组在《Nature Machine Intelligence》期刊上发表了题为“Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants”的研究论文。该研究开发了一种基于Transformer架构的多模态深度学习模型——Translatomer,旨在预测细胞特异性翻译过程,从而填补mRNA表达与蛋白质水平之间的差距,并解析复杂疾病遗传变异对基因翻译的调控作用。
Translatomer模型的构建与功能
Translatomer模型的设计整合了基因序列和RNA-seq数据作为多模态输入,输出为代表翻译信号的核糖体印记(ribosome profiling)数据。该模型由输入层、Transformer主干层和输出层组成。具体而言,模型首先将每个基因的RNA-seq数据和经过one-hot编码表示的基因序列编码为512维的token,然后合并信号作为模型输入。在输入层,数据会经过一维卷积层进行编码,随后进入包含12层自注意力机制的Transformer主干模块,以提取RNA-seq与基因序列之间的交互特征。最终,输出层将这些信号解码为核糖体印记信号。
Translatomer模型整合了来自33种不同组织或细胞系的基因序列和mRNA表达数据,能够从头准确预测翻译信号,并捕捉与翻译调控相关的序列特异性信息。在多个细胞类型的数据集中,该模型的预测准确度达到了0.72-0.80,显著优于其他同类模型。此外,Translatomer充分利用RNA-seq作为输入的信息,获得了细胞类型特异性(context-dependent)的预测能力。
可解释性工具的开发
为了提升模型的可解释性,研究者开发了两种解释性算法和工具。第一种算法通过计算梯度加权输入分数,量化评估基因序列和RNA-seq两种输入信息对翻译预测的贡献。结果显示,RNA-seq对翻译的预测贡献总体高于基因序列,符合生物学上翻译主要由mRNA水平决定的现象。其中,编码区对翻译的贡献最大,而内含子的贡献则最小。此外,研究发现5'UTR(转录起始区域)对翻译调控的影响显著高于3'UTR,这表明翻译起始过程在调节基因翻译强度方面起着关键作用。
第二种解释性算法利用Translatomer开发了计算模拟突变(in silico mutation)工具,可以精确预测剪辑突变对基因翻译效率的影响。研究者通过Kozak元件和荧光报告系统验证了该算法的准确性,并发现与翻译调控相关的遗传变异在物种进化中受到选择压力。
鉴定影响翻译效率的遗传位点
在建立Translatomer模型及可解释性工具后,研究者进一步识别了3041个影响翻译效率的复杂疾病遗传位点。这些位点包括同义突变位点或位于非翻译区的变异,虽然这些变异不会直接改变蛋白质序列,但却通过影响翻译过程对多种复杂疾病的发生起到了重要作用。通过与基因表达数量遗传性状(eQTL)的整合分析,研究者发现这些位点对mRNA水平没有影响,揭示了其调控疾病发生发展的机制主要是通过特异性影响翻译过程。
此外,研究还表明,这些遗传疾病位点对翻译的影响具有组织或细胞类型特异性。例如,阿尔茨海默症和自闭症等疾病相关位点的翻译调控主要发生在大脑组织,而心肌病和心衰等疾病相关位点则在心脏中发挥特异的翻译调控作用。
研究的意义与展望
综上所述,Translatomer深度学习模型为研究基因翻译调控提供了全新的工具,同时为理解复杂疾病中的遗传变异提供了重要的机制基础。通过分析不同细胞类型中的特异性翻译调控,Translatomer为未来的疾病诊断和个性化治疗开辟了新的方向与靶点。这项研究不仅丰富了我们对基因表达调控的理解,还为生物医学领域的研究提供了新的思路和方法,推动了疾病机制研究的深入发展。
2025-01-19
2025-01-19
2025-01-19
2025-01-19
2025-01-19