Translatomer:深度学习在基因翻译调控研究中的新突破
关键词: #健康资讯
关键词: #健康资讯
最近,浙江大学良渚实验室及附属第二医院的熊旭深课题组在《Nature Machine Intelligence》期刊上发表了一项引人注目的研究,题为《Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants》。该研究开发了名为Translatomer的多模态深度学习模型,基于Transformer架构,旨在填补mRNA表达与蛋白质水平之间的差距,并解析复杂疾病的遗传变异对基因翻译的调控作用,为机制尚不明确的疾病相关遗传变异提供全新的分子机制见解。
Translatomer模型将基因序列和RNA-seq数据作为多模态输入,以核糖体印记(ribosome profiling)信号作为模型输出,专注于预测细胞特异性的翻译过程。模型的构建由输入层、Transformer主干层和输出层组成。具体而言,每个基因的RNA-seq数据和one-hot编码表示的基因序列被编码为512维的token,以便进行信号合并,作为Translatomer的输入。
在模型的运作中,输入数据首先通过一维卷积层进行编码,随后经过包含12层自注意力机制的Transformer主干模块,以提取RNA-seq和基因序列之间的交互特征。最终,输出层将提取的信号解码为核糖体印记信号。研究者利用来自33种不同组织或细胞系的基因序列和mRNA表达数据,成功实现了从头预测翻译信号的能力,准确度达到了0.72-0.80,明显优于其他同类模型。同时,Translatomer模型充分利用RNA-seq数据的信息,具备了细胞类型特异性的预测能力。
为了增强模型的可解释性,研究者发展了两种模型解释算法和工具。第一种算法通过计算梯度加权输入分数,定量评估了基因序列和RNA-seq输入信息对翻译预测的贡献。结果显示,RNA-seq对翻译预测的贡献普遍高于基因序列,符合翻译主要由mRNA水平决定的生物学事实。研究发现,编码区对翻译的贡献最大,而内含子的贡献最小。此外,5'UTR(转录起始区域)对翻译调控的影响显著高于3'UTR,说明翻译起始过程在调节基因翻译强度中起着至关重要的作用。
第二种解释性算法依赖Translatomer模型开发了计算模拟突变(in silico mutation)工具,能够准确预测剪接突变对基因翻译效率的影响。研究者利用Kozak元件和荧光报告系统验证了该算法的准确性。通过这一工具,团队发现与翻译调控相关的遗传变异在物种进化中受到了选择压力。
在建立了Translatomer模型及可解释性工具后,研究者进一步识别了3041个影响翻译效率的复杂疾病遗传位点。这些遗传位点包括同义突变和位于非翻译区的变异。尽管这些变异不直接改变蛋白质序列,但通过影响翻译过程,对多种复杂疾病的发生产生了重要影响。通过与基因表达数量遗传性状(eQTL)进行整合分析,研究发现这些遗传位点对mRNA水平没有显著影响,揭示了它们通过特异性影响翻译过程而调控疾病的发生和发展。此外,这些遗传位点对翻译的影响表现出组织/细胞类型特异性,例如,阿尔茨海默病和自闭症相关位点对大脑组织的翻译调控特异,而心肌病和心衰相关位点则在心脏中产生特定的翻译调控。
综上所述,Translatomer深度学习模型为基因翻译调控研究提供了一种新工具,也为解释复杂疾病中的遗传变异提供了新的机制基础。通过分析不同细胞类型中的特异性翻译调控,研究为未来的疾病诊断和个性化治疗开辟了新的研究方向和靶点。这项研究不仅展示了深度学习在生物医学领域的应用潜力,也为深入理解遗传变异与疾病之间的关系提供了重要的见解。
该研究的共同第一作者为浙江大学的科研助理何佳临和麻省理工学院的熊磊(现为斯坦福大学博士后),共同通讯作者为熊旭深研究员和熊磊博士。此外,浙江大学的李静云研究员、胡新央教授、毛圆辉研究员,以及麻省理工学院的Manolis Kellis教授和Carles A. Boix博士等研究团队成员也对这项工作做出了重要贡献。
2024-12-05
2024-12-05
2024-12-05
2024-12-05
2024-12-05