论测序,华大基因算是国内至Top的研究院,装备精良,人才济济。2008年底,头个亚洲人基因组出炉。这一研究成果公布在权威期刊《Nature》杂志上,文章的通讯作者和**作者正是来自深圳华大基因研究院的王俊博士。在这篇文章中,研究人员利用新一代测序仪Illumina Genome Analyzer完成了人基因组的测序,测序量达到36倍覆盖率,并且研究人员还比对了NCBI人类相关基因组,短读取序列达到99.97%覆盖率。
记者:**个黄种人基因组图谱的公布是我们的骄傲,相比较于水稻、家蚕、家鸡、家猪等动植物基因组图谱,这个基因组图谱的完成是否更困难一些?还是更容易一些,在这个基因组测定过程中是否遇到了一些技术困难?具体有哪些?
王俊博士:相较于水稻、家蚕、家鸡、家猪等动植物基因组图谱而言,**个黄种人基因组图谱的总体工作相对更加困难一些。我们在测定**个黄种人的时候采用了新一代测序仪 Illumina Genome Analyzer,虽然测序价格更便宜,测序速度更快,却给数据的存储、处理、分析、展示带来了巨大的挑战,尤其是面临了现有的生物分析软件无法解决的问题,例如测序数据量较大增长了序列比对的时间,测序序列平均读长较短导致序列很难**定位,而针对这些困难我们独立自主研发的软件(SOAP、SOAPsnp)是我们完成这个项目时值得骄傲的地方之一。
记者:在基因组测定过程中主要采用的技术点有哪些?您认为关键的一项技术是什么?
王俊博士:在基因组测定过程中主要的技术点是基因组测序和生物信息分析。我认为关键的技术是生物信息分析,因为随着新一代测序技术的广泛使用,测序的成本大大降低,测序速度有所提高,而测序过程也变得相对简单容易,但是测序产生的大量数据却给后期的生物信息分析带来了巨大的压力,因此我认为生物信息分析是在基因组测定过程中关键的一项技术。
世界**研究院Wellcome Trust Sanger研究院至少拥有37台Illumina的Genome Analyzer,5台ABI SOLiD和2台454 GS FLX。但是他们也没有完全抛弃毛细管方法,目前仍有50台ABI 3730,用于斑马鱼和猪的基因组计划。光是看这个数据,就已经让人咂舌了。当然,从下面的访谈中你也可以看出,**的基因组中心和一般的实验室还真是不一样,他们资金雄厚,站得高,看得远。因此他们的选购标准不适合普通实验室,仅作了解。
Q:你们选择新平台的标准是什么?
A:我们一定要站在前沿,无论代价是什么,我们都会做。我们经常测试新仪器和现有仪器的新版本。我们要看到这项技术确实能产生合理量的准确序列,才会进行购买。但同时,我们还有开发资源的任务,因此我们对检验新技术很有兴趣,并且我们还能验证现有技术,它们对于其他实验室或许还不够成熟。因为我们希望站在测序的前沿,我们就要比小实验室跑得更快,它们的经费可能只够买一台仪器。同时,我们有义务与他人分享我们的经验。
Q:你们有着何种数据储存与分析硬件来支持测序仪?
A:我们的计算机设备特地为支持新一代测序而刚刚更新过。我们有320 TB的文件服务器来短期存储图像和序列。整套设备能支持大约30台Illumina的测序仪。当然,我们还会扩充的。
Q:你们会长久储存测序仪所获得的数据吗?
A:就目前来说,是足够的,因此你不必在每次开始新一轮测序之前删除以前的。我们有足够的容量来储存。但一个月之后的情况呢,我不敢说。
Q:能谈谈Sanger研究院的新一代测序平台所参与的计划吗?
A:我们正利用Illumina参加Mike Stratton的癌症基因组计划以及大猩猩测序计划。Julian Parkhill正用它进行高通量的病原体研究。例如,在高度可变的**群体中,任一群体都有很多突变,你很难知道哪个是真正致病的,但是如果你通览大量的群体,你就能得到其他方法无法获得的大量信息。我们主要利用454的仪器进行病原体测序。
Q:在使用这些新平台时,你们遇到的技术及数据处理上的大挑战是什么?
A:我想对于用惯了ABI毛细管测序仪的人们来说,这些新仪器并不是开箱即用的。你不能只是插上插头,然后就等着在电脑上分析数据。它还需要进行许多开发和支持,这是技术上的挑战。就数据方面而言,近很多人在讨论储存及计算需求。每个人都想储存图像,让问题更加恶化。但是我认为这个问题不难解决,你可以投更多的钱去买更多的硬件。当然这对小型实验室来说比较困难。
大的挑战是去了解如何以优的方式提取和分析数据,因为这些数据我们并不熟悉。例如颜**分、碱基检出、校准、数据的标准化这些问题。如果你能解决这些问题中的一部分,我们就能获得更好的分析技术,也就能从相同的数据中获得更多更高质量的碱基。
另外一个问题是仪器厂商的品质衡量与用户不一致。人们不知道该使用哪个判断阈值(cutoffs threshold)。我们该把判断阈值设在哪里,才能得到好的数据,但又不抛弃过多的数据?这个问题非常棘手。
David Duggan负责TGen的两个基因分型中心。他们利用Affymetrix、Illumina、Sequenom和ABI的技术进行着多项基因分型研究。后来,他购买了一台Illumina的Genome Analyzer,将高通量测序融入了实验设计中。Duggan博士很详细地谈论了当时选购GA时的考虑因素,值得国内的实验室借鉴。不过,那已是两年前的事了,目前的选择又多了很多,还需要大家重新评估。
Q:你为何决定购买Illumina的测序仪?
A:你别忘了,我们是在(2007年)3月做决定的。当时只有454和Illumina两种选择。我们也和ABI联系过。Helicos也联系了我们,谈到HeliScope。但我们不想为SOLiD再等9个月,而HeliScope还需要1年多的时间。
我们也不是光从便利性考虑。我们很满意Illumina系统的一些特征。比如说,能够进行1 GB的基因组DNA测序;仪器上的运行时间在3天。HeliScope的预计运行时间要长得多。同时,Illumina的样品量为0.1-1 mg,与我们的实验设计相符。后,一个很大的因素就是运行费用。Illumina GA的运行费用在3000-4000美元,比较合理。就这样的费用而言,除了NIH的拨款,我们还能从其他地方获得基金。所以,购买GA并是出于某种考虑,而是上述种种因素的综合。
Q:你能不能给我们例举一下如何将高通量测序整合到研究中?
A:举个例子,我们正在进行一个合作项目,利用tag-SNP方法来筛选52个候选基因。理想上我希望对部分群体中全部52个基因进行重测序,不仅鉴定出SNP变异体,还有插入和缺失多态性,然后再根据数据设计出实验方法来对7200个样品进行基因分型。它比单独的SNP研究更**。
我们设想的另一个实验设计是,目前,我们是分阶段进行基因组范围的研究。在每一个阶段,我们将基因组区域逐渐缩小。一开始,我们研究4000个样品的50万个SNP。然后根据预算,鉴定前1000个或几百个SNP,并在一个确认的群体中进行基因分型。之后在第三阶段,我们挑出少数有意义的SNP,并开始重测序。
而有了新一代测序技术的高通量,我们不再限制在少数候选区域。我们能将管道扩宽一些,对几十个候选基因区域进行重测序。比如之前的一项研究,他们鉴定出人类基因组上II型糖尿病的十个致病区域。每次测序一个?不,我想一次全部测序。新一代测序技术也赋予我们这个能力。它比Sanger测序更便宜,也更高效。
Skolnick博士是Myriad Genetics公司的CSO、技术奠基人。该公司的发展战略是开发急需的医疗保健产品,主要涉及肿瘤、老年痴呆症和抗病毒等几个领域。他的研究小组克隆了乳腺癌、卵巢癌、前列腺癌、肥胖等**的易感基因。另外,他们还利用Sanger测序和454的Genome Sequencer对葡萄藤和苹果的���因组进行了测序。在,很多测序工作也是围绕植物展开,那么Skolnick博士的经验可能会有一定的借鉴意义。
Q:你为什么选择454技术来进行苹果和葡萄藤项目?
A:当时我们受意大利一所研究院的委托,刚完成了葡萄的项目,并开发出一种高度自动化的引物步移平台来填补缺口。那时454刚上市,我们就想454的4倍覆盖度能够很好地填补剩余的缺口。实际上,它完成地非常好,我们也就不需要再进行任何引物步移。对于葡萄和苹果而言,测序都是复杂的项目,因为它们都是非近交的天然生物。复杂度在于你实际上要同时测两个基因组,母本染色体和父本染色体。如果你发现序列差异,你还必须解释到底是错误还是多态性。
Q:对于苹果基因组项目,你使用了与葡萄不同的策略。你能谈一谈这些吗?
A:在葡萄项目中,我们基本完成了拼接,打算开始引物步移时,才决定使用454。我们利用了7倍Sanger覆盖度和4倍454覆盖度。在苹果项目中,我们只利用BAC和fosmid完成了4倍Sanger覆盖度,然后,就加入了10倍454覆盖度,其中大部分是平均500个碱基的长读取。现在,我们的总覆盖度是14倍,而不是11倍,因为有两个染色体,父本和母本,那么每个多态性的平均覆盖度为7倍,在确定两个染色体的特定差异上,可靠性是进一步增强了。
Q:谁开发了这些项目的拼接软件?
A:拼接软件是由我们小组的Andrey Zharkikh开发的。拼接程序很独特,因为它在拼接两个不同的单倍体。它将显示出序列相似性的重叠群(contig)放在一起,同时,它又试图将它们分成A、B两个染色体。因此,当它看到序列差异或缺失时,它必须询问“这是我必须修正的错误吗?还是我要试图去理解的真正序列差异?”
有了这种杂合体的拼接策略,你能得到数百万个遗传标记物,非常棒。接着,你能使用它们中的1000或2000或3000的亚群,来进行互相定位。于是,你得到了海量的生物学信息。
Q:你计划将拼接软件与他人共享吗?
A:当然愿意。不过,我们只能克隆Andrey的。它不是一个真正的程序或产品,它是一系列脚本和代码片段。我们所能做的是将所有信息告诉454,让他们在拼接程序中加入这段。将它变成产品需要巨量的工作。那真的超出了我们的范围。