解码生命 守护健康

基因拷贝数变异产生机制及与疾病关联分析的研究策略

2017-05-26 20:33:39现代遗传学教程第3版

 

提要:拷贝数变异(CNV) 是人类遗传多样性的一类重要形式,可能是由于基因组重组或复制过程中的差错而产生。CNV 在人群中的覆盖率远远高于寡核苷酸多态性 (SNP),它们可以通过多种机制改变基因的表达水平,如基因剂量效应、基因断裂 - 融合效应,以及远距调控效应,进而引起多种人类复杂疾病。认识基因组中的拷贝数变异对于我们更好地认识基因与疾病的关系、遗传 - 环境因素的相互作用,以及基因组变异与物种进化的关系具有重要的意义。

 

随着测序技术及相关分子生物学技术的飞速发 展,人们对基因组的认识也越来越深刻。前期的研究中,人们发现人类基因组中存在着大量的遗传变异,这些变异对个体的性状产生不同的影响。在人群中比例大于1% 的单个碱基位点变异被称之为寡核苷酸多态性 (single nucleotidepolymorphisms, SNP)。 前期大量的研究报道已揭示这种多态性广泛存在于人类基因组中,且某些位点的变异与特殊的疾病发生密切相关。迄今为止,数以千万计的寡核苷酸多态性已被人们揭示,其功能意义也已经得到广泛的阐释。SNP 的发现与功能鉴定解释了某些疾病的遗传学基础,但对于大部分复杂疾病来说,当前的解释仍远远不足。

 

相比于单个碱基的寡核苷酸多态性,人们对于大片段的基因组变异认识则相对较晚。直到20 世纪 90 年代,人们才发现,由基因组扩增或丢失引起的拷贝数变异同样可能引起一些符合孟德尔遗传定律的单基因疾病。

拷贝数变异(copy numbervariation, CNV)是指相对于常见的二倍体基因组来说,发生的较大规模(>1 kb) 的基因组结构变异,包括拷贝数的重复、丢失、倒位及易位,而我们所常提及的狭义的拷贝数变异指的是基因拷贝数目的改变。2006 年,Redon 等绘制了人类拷贝数变异图谱,发现CNV 广泛存在于人类基因组中,其涉及范围之广超出了人们前期的预期,自此拉开了 CNV 研究的新时代。近年来,随着测序技术的快速发展,被鉴定发现的CNV 数量越来越多,已有超过数万个 CNV 位点被记录在数据库 (Database of Genomic Variation),这些CNV 所覆盖的染色体范围约占人类全基因组的 20% 以上。

 

 
 

1 产生机制

 

CNV 产生的机制中最为人熟知的是非等位基因的重组,以及非同源末端连接。其中,非等位基因的重组是CNV 产生的最主要的机制。该机制认为,在细胞分裂时,两条相似但位于基因组不同位置上的序列之间可发生配对及交换。如果发生交换的序列同向且位于同一条染色体,那么将会产生 DNA 拷贝数的扩增或丢失。非同源末端连接认为,当 DNA 受到电离辐射及氧化应激刺激时,将发生DNA 损伤及修复事件,非同源末端连接即发生于该过程之中。发生非同源末端连接的DNA 序列,并不需要用于重组的正向/ 反向重复序列,且在末端连接完成时,可能在发生连接处发生碱基的插入,这种特征使其不同于其他机制。

2007 年,Lee 等针对 CNV 的产生原理提出了一个新的模型:复制叉停滞与模板交换 (fork stalling and template switching, FoSTeS)。该模型认为,DNA 在复制过程中,其复制叉可以发生停滞。复制叉上的滞后链可以从引导链上解离,并通过一种名为微同源序列的元件转移到其他的复制叉上完成后续的复制。新的模板链与原来复制叉中的模板链不一定高度相似,但它们在空间上彼此靠近,模板转换的结果可以导致缺失或者重复。这种与原来引导链解离并在新的引导链上继续复制的过程可以连续多次重复,最终导致更加复杂的基因组重排事件。

此外,长间隔元件L1 (longinterspersed element-1, L1) 介导生成的新序列是拷贝数变异发生的一类新机制。L1 是目前已知的有转座活性的自发性转座子。全长的L1 元件包含两个完整的开放阅读框 (open reading frame, ORF) ORF1 编码 RNA 结合蛋白,而ORF2 编码同时具备核酸内切酶及逆转录酶活性的蛋白。ORF1 蛋白可以结合 L1 转录产物,并携带它们返回细胞核重新融入宿主基因组。此过程主要在 ORF2 帮助下完成,ORF2 具有内切酶和逆转录酶的活性。逆转座时 ORF2 切开基因组 DNA,并利用游离的 3'- 羟基基团起始逆转座的转录过程。L1 转座是通过由RNA 聚合酶II 转录而成的 RNA 中间体完成,这种RNA 中间体可以被逆转录然后插入到基因组新的位置,插入位置的两端是一对重复序列。

 

CNV与疾病关联分析的研究策略

 

近年来,随着测序技术以及基因组杂交技术的迅速发展,CNV 的研究方法有了新的突破和进步,不再局限于既往的显微水平。目前关于拷贝数变异与疾病关联分析的方法主要有全基因组的关联分析以及基于候选基因的策略,其技术手段有:基于全基因组水平的比较基因组杂交、全基因组SNP 分型芯片扫描,以及下一代测序技术。基于候选位点策略的主要技术,包括实时定量PCR、多重连接的探针扩增(multiplex ligation-dependent probeamplification, MLPA)、多重扩增探针杂交技术 (multiple amplifiableprobe hybridization, MAPH) 及旁系同源基因比例检测 (paralogue ratiotest) 等。全基因组策略适用于大规模地筛查疾病相关CNV 位点,代价高昂,而基于候选位点的策略适用于大样本量验证。

 

3 展望

 

CNV 是遗传变异的一种重要形式,由于其覆盖范围广,突变频率高,可造成人群中巨大的遗传差异,进而导致不同的性状。然而,受制于目前的研究手段,人们对于CNV 的认识尚有很大不足,随着新的高通量芯片技术的发展,我们将获得更加完善的全基因组CNV图谱,必将有力地推动我们从更深入的层面认识CNV 与人类疾病发病机制之间的关系,为疾病的早期干预提供有力的理论依据。

本文原载《生命科学》2017年29卷第4期,原题为《基因拷贝数变异与人类疾病》,作者单位系中国人民解放军南京总医院。

-------------------------------