在过去几年里,新一代DNA测序技术平台在那些大型测序实验室中迅猛发展,各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术(next-generation sequencing),是相对于传统Sanger测序而言的。Sanger测序法一直以来因可靠、准确,可以产生长的读长而被广泛应用,但是它的致命缺陷是相当慢。十三年,一个人类基因组,这显然不是理想的速度,我们需要更高通量的测序平台。此时,新一代测序技术应运而生,它们利用大量并行处理的能力读取多个短DNA片段,然后拼接成一幅完整的图画。
2006年底,美国X大奖基金会设立了基因组ArchonX大奖,奖金高达1000万美元。这项大奖将颁给**个能在10天之内,用不到100万美元的费用,完成100个人类基因组测序的民间团队。附加条件是覆盖率不小于98%,误差不大于1/10000bp。重赏之下,必有勇夫。454生命科学公司自2005年推出市场上头个新一代测序平台Genome Sequencer20以来,就成为该奖项的有力竞争者。
之后,454公司、Solexa公司和Agencourt私人基因组学公司分别被罗氏、Illumina和ABI公司收购,都是瞄准了测序这个潜在的巨大市场。人类基因组测序的成本也在持续下降,也许,我们很快就能看到ArchonX大奖花落谁家。
新一代测序技术的魅力
新一代测序技术究竟有着什么样的魅力,引各大公司竞折腰?那就让我们先来看看它与Sanger测序流程的比较(图1)。Sanger测序大家都比较了解,是先将基因组DNA片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒DNA。每个循环测序反应产生以ddNTP终止的,荧光标记的产物梯度,在测序仪的96或384毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时,四通道发射光谱就构成了测序轨迹。
在新一代测序技术中,片断化的基因组DNA两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的PCR克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。
图1. Sanger测序与新一代测序的流程比较(图片来自NatureBiotechnology)。
新一代测序技术备受关注的一个主要原因就是它的通量持续增长,潜力无限。ABI公司的SOLiD3系统是目前*高通量的系统,单次运行能产生50GB的人基因组序列数据,相当于基因组的17倍覆盖度。遥想当年SOLiD刚刚发布时,通量也只有2.5GB。短短一年半的时间,随着SOLiD系统升级到SOLiD3,通量提高了20倍,这种可扩展性得益于独特的开放玻片形式和灵活的微珠设计。
Illumina同样不甘落后,在它的宏伟蓝图中,今年将会实现单次运行获得95GB以上的高质量数据。而依靠近期试剂与软件的升级,Genome Analyzer IIx能够获得100bp以上的配对末端读长,并在每次运行中产生超过20GB的高质量数据。虽然与95GB的目标相距甚远,相信Illumina还会在硬件、软件、试剂上有大动作。
新一代测序仪在准确性上也是绝不含糊。SOLiD系统原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前新一代基因分析技术中准确度*高的。其秘密在于SOLiD系统采用**的双碱基编码技术,在测序过程中对每个碱基分析判读两遍,能够在序列测定中减少原始数据错误,提供内在的校对功能。使用连接酶替代聚合酶方法获得更高的保真度,能够明显减少因碱基误配而出现的错误,可以消除相位不同步的问题。另外,测序过程中定期更换测序引物也能够减少背景噪音和错误率。
虽然还无法与传统Snager方法的1000bp读长相抗衡,但新一代测序技术的阅读长度也在稳步提高。Roche的新一代测序平台Genome SequencerFLX目前的读长为400 bp,这也是*让它引以为傲的地方。Roche应用科学市场部经理TimothyHarkins曾表示:“我们的平台与其他平台的*大区别就在于测序的读长。其他平台只能产生几十个碱基的读长。”
不仅仅是测序……
新一代测序技术的应用也不再局限于单纯的测序。有了这些测序平台,研究者们能够对未知基因组的生物体样本进行基因表达研究。这意味着他们可以获悉哪些基因被转录,这些基因是否与其他已知的基因同源,抑或它们是全新的。另外,他们还能鉴定表达水平、体细胞突变和剪接变异体。这些都是上一代测序所无法实现的。有关人士认为,新一代的测序方法还会入侵芯片和其他技术领域,给芯片市场带来一定的冲击,但由于价格等问题,要完全取代表达谱芯片还需要一定的时间。
深入的重测序还能让研究人员更多地了解与很多**相关的遗传作用。不久前,剑桥大学的研究人员就利用454的测序仪,发现一种致病基因的罕见突变有可能降低罹患I型糖尿病的风险。这项研究提出了一种从大量候选基因中识别更多I型糖尿病特异基因的方法。而高通量测序在耐药性方面的研究也使个性化**的前景更广阔。
数据分析与储存
虽然测序速度提高了,费用也下降了,但测序产生的海量数据却为后续的分析与储存带来了巨大的挑战。除非你了解如何分析和储存新数据,增加新技术的通量和扩展应用才会变得有用。��千人基因组计划为例,他们不仅面临数据储存的问题,还面对如何比较两个不同个体的基因组的分析障碍。接着就是注释问题——课题组还要对人类基因组进行完整注释。**个亚洲人基因组图谱的绘制者王俊博士也表示,测序产生的大量数据给后期的生物信息分析带来了巨大的压力,他们面临了现有的生物分析软件无法解决的问题,例如测序数据量较大增长了序列比对的时间、测序序列平均读长较短导致序列很难**定位,为此,他们独立自主研发出SOAP、SOAPsnp软件,“这是我们完成这个项目时*值得骄傲的地方之一”。
新一代的测序平台运行一轮后往往产生TB数量级的信息,包括数据和图像。如果你想要存储所有图像,那么在计算机硬件上的花费可能会高于仪器运行所需的费用。Illumina公司研发副总裁TonySmith认为:“真正大的数据是图像。Illumina为客户提供储存所有图像的机会,因为有些客户想要这些图像。问题是你每轮获得的图像数据可能是上百GB甚至1TB。而未来数据只会增不会减。客户可以出于质量控制目的存储一组图像,或储存一轮特别重要的图像并备份归档。”
扫清障碍
新一代测序技术尽管优势多多,但价格高也是有目共睹的,一台新一代测序仪的价格大约在50万美元,除非实验室测序的工作量非常大,否则是不会考虑购买的。另外,每次开机的费用也不菲。对于KB到MB范围的小型项目,Sanger测序无疑还是*佳的选择;但对于全基因组测序、鉴定体细胞突变等大型基因组计划,新一代测序技术则更有魅力。此时,Sanger测序就不仅仅是试剂的投入了,你还需要购买机器人、处理天文数字的96孔板或384孔板、维护毛细管测序仪、购置昂贵的生物信息学设备来处理信息流。显然,新一代测序仪就简单得多。
现在的*大挑战就是如何将每个样品的费用降低到更多更小的实验室都可以接受。长江后浪推前浪,所谓“第三代”或“下下一代”的单分子测序系统将成为新一代测序的有力竞争者。Helicos公司在去年推出了HeliScope测序仪。它的研制是基于Helicos公司的单分子测序技术,它可以通过合成互补链技术对数百万个DNA片断进行测序而无需对DNA链进行扩增。但目前HeliScope测序仪正遭受测序错误的困扰,而且其价格惊人,大约是其他测序仪的2倍。PacificBiosciences打算在明年将产品正式推向市场,它的目标是在2013年前实现三分钟读完人类基因组。
新一代测序技术正在以惊人的速度向前发展,而多家公司你追我赶的竞争造就了目前百花齐放的局面。有人预言,五年后个人基因组图谱的价格将是100美元。让我们拭目以待吧。