人类基因组如同一本庞大的说明书,包含了30亿个碱基对,这些碱基对不仅为人体的构建提供了指南,还记录了疾病的发生及人类的进化历程。在这本“书”中,碱基对像字母一样,有时会发生位置上的交换,形成所谓的结构变异。这种变异可以是简单的,比如两个字母的互换;也可以是复杂的,比如整段话的调换,甚至几行字的消失。然而,尽管我们拥有全基因组测序(Whole
Genome Sequencing, WGS)这样的先进技术,能够识别简单的变异,但在面对复杂结构变异(structural variant,
SV)时,往往显得无能为力。 好消息是,斯坦福大学医学院的科学家们开发了一种新方法,结合人工智能技术来识别WGS数据中的复杂SV。这一研究成果于2024年9月30日在线发表在《Cell》期刊,题为“Detection
and analysis of complex structural variation in human genomes across populations
and in brains of donors with psychiatric
disorders”。研究团队通过分析来自全球4000多个个体的基因组,创建了一个复杂SV的目录,并发现这类变异通常出现在与大脑相关的基因中,且与精神分裂症和躁郁症等精神疾病的基因表达方式密切相关。 斯坦福大学的研究者Alexander
Urban博士将这项研究视为理解精神疾病遗传基础的重要突破。他形象地比喻,如果我们仅关注简单变异,就像校对时只查找错别字,而忽略了整句甚至整段的混乱。新开发的算法,名为ARC-SV(自动重建复杂结构变异算法),能够以高达95%的准确率捕捉到各种DNA重排,宛如一个超级编辑,在送印前发现所有问题,包括重复、缺失或顺序错乱的部分。 基因组中的复杂变异 迄今为止,科学家们发现的人类基因组中的大部分变异都是相对简单的。然而,ARC-SV算法揭示了一个惊人的事实:每个人的基因组中还隐藏着80到100个复杂的结构变异。Urban博士用一个生动的比喻来说明这个问题:“寻找简单的变异就像是在书中查找错别字,但这样可能会忽略那些句子混乱、重复或顺序错误的情况,甚至可能错过整整半章的内容。” ARC-SV算法通过人工智能技术进行训练,分析了不同祖先背景下的完整人类基因组。借助这一强大的工具,研究团队发现了超过8000种不同的复杂结构变异,这些变异的长度从200到100,000个碱基对不等。许多变异位于与大脑发育和功能相关的基因区域,提示其在大脑健康中的潜在重要性。 复杂变异与精神疾病的联系 研究人员进一步探讨这些复杂变异是否与精神疾病相关,特别关注精神分裂症和躁郁症这两种常见的精神疾病。尽管全基因组关联研究(GWAS)已经确定了许多与这些疾病风险相关的基因位置,但它们所提供的信息通常不够具体,无法明确解释遗传风险或指导临床实践。 Urban博士指出,GWAS的结果就像告诉你书中有几页有问题,但没有指明具体问题所在或涉及到哪些单词。相比之下,了解复杂结构变异的具体情况就如同用荧光笔直接标出问题句子,清晰地指出哪些单词是乱码或重复的。为验证ARC-SV算法的有效性,研究者们结合了健康个体及精神分裂症和躁郁症患者的脑组织样本,分析全基因组序列和基因表达数据。 研究结果显示,许多复杂结构变异位于GWAS确定的风险区域附近,且这些变异确实影响了周围基因的表达方式。这表明,这些复杂变异可能是导致精神疾病的潜在因素之一。论文共同通讯作者Bo
Zhou博士表示,识别和研究复杂结构变异将加深我们对DNA变化的理解,并为探索疾病发生机制及其治疗提供重要线索。 未来的展望 本研究的发现不仅为理解人类基因组的复杂性提供了新视角,也为精神疾病的遗传基础研究开辟了新方向。随着人工智能技术的进步,未来有望开发出更高效、更精准的工具来分析和识别复杂的基因组变异,从而为个体化医疗和精准治疗提供更有力的支持。 总之,ARC-SV算法的应用,标志着我们在解析人类基因组的复杂性方面迈出了重要一步。随着对复杂结构变异的进一步探索,未来有望揭示更多与疾病相关的遗传机制,为我们应对精神疾病等挑战提供新的策略和思路。