解码生命 守护健康

基因测序的“祖孙三代”,到底是个什么样? | 科学人

2017-05-11 16:17:44科学人

“基因测序”也许听起来离我们很遥远,不过它已经从多个方面改变了我们的生活。长达28年的悬案白银案终于告破,警方就是通过Y染色体鉴定最终锁定了嫌犯身份,在案件侦破过程中基因检测技术起到了关键作用。基因检测技术的发展不仅改变着刑侦手段,也在临床医疗、遗传育种以及基础科学领域都发挥了巨大作用。

自70年代第一代Sanger法测序技术问世以来,基因测序技术不断发展,日新月异。之后,得益于第二代高通量测序技术的出现,人类基因组测序的成本已从人类基因组计划(Human Genome Project)时期的58亿美元下降到了2014年的不足1000美元,测序所需的成本与时间大大下降,使得基因测序的大规模应用成为了可能。


 


 

基因测序是怎么回事?

基因的定义是具有遗传效应的DNA片段。DNA作为遗传信息的承载者,组成单位为4种碱基不同的脱氧核苷酸:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)。如果说DNA是遗传信息的语言,那这四种碱基就是生命语言的4个字母,生物的基因组正是用这种只有4个字母的语言写成的设计书。我们的测序工作就是破译生物的设计蓝图,继而发掘出有用的信息。

Sanger法第一代测序的原理是用酶反应扩增待测DNA,在反应过程中随机掺入有荧光标记的ddNTP终止反应,最终扩增出的是一些大小不一、末端碱基有荧光的DNA序列,再通过电泳使得DNA按大小排布,按大小顺序读出每个序列的末端荧光,就获得待测DNA的完整序列信息了。

这就好比一个人读一段话,他不能一个字一个字的读,但是可以读一句话的最后一个字。那么他只要把这段话变成第一句话第一个字,第二句话前两个字,第三句话前三个字……这种排布,然后读每句话的最后一个字就行了。

当然,这种方法是很慢的,于是人们发明了二代测序。


 

 

更为快速的二代测序

相比于一代测序,二代测序最大的进步是采用了大规模平行测序(massively parallel)理念,以及边合成边测序(SBS)方法。这样能够在一定时间内检测更多数据,节省大量时间。

大规模平行测序是高通量的保证,测序仪可同时检测几十万个到几千万个DNA分子序列,产出的数据量远远多于一代;边合成边测序(SBS)则是在扩增过程中每增加一个碱基就记录一次,而不像一代那样扩增结束再另行读取,二代的自SBS方法极大节省了时间。

从454公司发布第一种二代测序平台以来,Helicos、ABI的Solid、Illumina (Solexa) 等新二代测序平台不断涌现,虽然各种测序平台在原理上各有独到之处,但测序结果的都能归结几个主要指标:读长、成本、通量。

读长(read)即有效读长,指的是测序仪一个反应所能读取的DNA序列长度,超出这个长度则无法获得准确结果。读长以字节(bp)为单位,早期二代测序的有效读长不到50bp,现在Hiseq平台最常用的读长是150bp,PE模式能达到300bp。生物体内的DNA以染色体形式存在的,染色体的长度以百万bp计,人类最小的Y染色体也有60MB,所以完整的基因图谱要靠无数的短reads拼接组成,二代测序大部分时间都要花在拼接上。读长越长,拼接工作量就越小,拼接中出现的错误也越少,所以对读长这一指标的要求是越长越好。

第二个指标是成本,成本一般用每百万碱基花费价格(美元)衡量。比如使用Sanger法的第一代测序产生1MB测序数据要花 $2400,而第一种二代平台454需要 $10,现在用的最多的Illumina平台只需要 $0.05 ~ $0.15 。

最后一个指标是通量。二代测序的另一个名字正是高通量测序(High-throughput sequencing),通量这个翻译乍听起来有些抽象,其实throughput的中文翻译就是吞吐量、产出量的意思,实际就是描述测序仪产生数据的能力,二代测序的最大优势也正是高通量,以一台双flow cell的Hiseq2500为例,一次运行27小时产出的数据量就多达60G,相当于20个人的完整基因组大小。

通量可以类比成流量。流量=流速*横截面积。通量=测序速度*同时进行的测序反应数量。也就是说通量实际上是测序速度和同时测序量两个指标的综合,高同时测序量正是前文提到的大规模平行测序(massively parallel)决定的,同时检测几十万个到几千万个DNA分子序列是二代测序高通量的保证。


 

二代测序的缺陷

在成本和通量上,二代测序都可以说无可挑剔,但过短的读长却成了二代测序的硬伤。reads的大小只有几百bp,而整个基因组的数据量往往多达数G,怎么把这些不计其数的reads按顺序拼成一个完整的基因组于是成了新物种测序的核心问题。

基因序列的复杂性使得reads无法直接拼成染色体,而只能拼成一个个长片段,这种长片段我们称为contig,然后我们再通过长片段建库双端测序等其他技术手段推测出contig的顺序,把contig连成scaffold,再通过Hi-c等手段一步步还原成染色体。

例如美洲野牛有28对染色体,但是测出reads拼成的contig却有约47万条,进一步拼接成的scaffold也还有12万8千余条 ,而染色体级别的基因组图谱至今还遥遥无期。

测序仪产生数据往往只要几个星期甚至几天,但后续的数据拼接却长达几个月甚至几年,有些已测序物种如小麦甚至直到今天都没能拼出质量合格的基因组图谱!而即使是质量合格的基因组完成图,也会有大量没能确定序列的空缺(gap)。

读长短带来的另一个问题是我们无法保证测序仪测到的片段包含了整个基因组,在二代测序中我们把大量的基因组打碎成了无数短片段,所以同一种短片段碎片必然有很多个,你一次捞上来了几G可能都是同一种片段。

所以我们就只能多测,甚至达到基因组原本大小的数十倍,才有把握基本覆盖了整个基因组没有漏网之鱼。这也就是我们常说的覆盖度。而数据量和基因组大小相差的倍数则成为测序深度。用高深度来实现高覆盖度需要数十倍数据量,使得二代测序低成本高通量的优势在一定程度上也被抵消了。


 

应运而生的三代测序

如何解决读长问题呢?追求长度长的三代测序应运而生了。

对于二代测序和三代测序的特点有一个形象的比喻:二代测序是吃米饭,三代测序是吸面条。二代高通量测序和三代单分子测序的区别可以用“吃米饭”和“吃面条”来形容。

 

二代术像吃米饭,一粒粒的很短,但是同时能吃很多粒;三代测序像吃面条,抓住一头一吸,从头读到尾,一次只能吃一根。(当然实际肯定不只一根,只是数量少于2代)二代测序把基因组染色体打断成了无数小片段,同时对许多小片段测序,如同吃米饭一样一口就吃进去许多粒米。

而三代测序则像是在吸长寿面一样,它不把长片段打碎,而是从长片段的一端像吃面条一样不把面条咬断一口气吸下去,直到吸到另一端把面吃完。 

二代测序实现高通量的核心思想正是前面提到的大规模平行测序(massively parallel)。也正基于“吃米饭”的道理,通过把长片段打断成小片段来实现对几十万个到几千万个DNA短片段的同时检测。通过小片段来实现高通量,这不幸使得通量与读长陷入了一个鱼和熊掌不能兼得的困境。

人们对基于纳米孔技术的三代测序一度报以极大的希望,但纳米孔技术的不成熟使得希望一再落空,最终向传统光学信号妥协的pacbio率先发布了实用化的三代测序仪。它的平均读长达到了3000bp(3kb),而最高读长甚至达到了40000bp(40kb),但成本与通量均弱于Illumina二代平台,只有300MB,而且错误率高达15%,远高于二代测序。

就个人的观点来看,在纳米孔测序依然遥遥无期的今天,利用已经成熟的现有技术开发新测序平台不失为一个不错的选择。在不打断片段的情况下对长片段进行多段同时测序,兼具了二代测序与三代测序的优点,是一个可供参考的发展方向。

题图来源:123rf正版图库

(编辑:Jerrusalem;排版:甘蔗西西)


 

本文来自果壳网,谢绝转载

如有需要请联系sns@guokr.com