过去,人类常见病的研究主要是利用全基因组关联研究(GWAS)来筛查共有的变异体。近年来,测序技术的蓬勃开展以及个性化医疗的目标让科学家们从共性转移到个性,努力发现稀有的变异体。
尽管新一代测序平台的出现让测序费用迅速下降,然而每个碱基的费用仍然阻碍了更多完整测序的基因组出现。除了经济上的限制,人们还普遍意识到很难从如此多的变异体中鉴定出真正起作用的位点。基于这些原因,研究人员通常一开始就关注编码区的变异体。这也就催生了外显子捕获技术。罗氏NimbleGen于去年初*先推出了外显子捕获芯片,从基因组DNA中抓出外显子部分,然后测序。这一步也是价格不菲,于是人们退一步,以转录组测序(RNA-Seq)作为替代。尽管这种方法无疑将错过一些低表达基因,但它的优势是产生了更多的信息,比如基因表达水平和剪接模式。
这些方法究竟孰优孰劣?美国杜克大学医学院人类基因组变异中心以及国家癌症研究所的研究人员将高覆盖度全基因组测序和RNA-Seq所鉴定出的变异体进行了比较,来系统研究RNA-Seq在鉴定人类编码变异体方面究竟效果如何。这个研究结果发表在5月28日的《GenomeBiology》上。
研究人员从同一个个体的外周血单核细胞(PBMC)中提取出DNA和RNA,并利用Illumina的Genome AnalyzerII测序仪对cDNA和gDNA分别测序。gDNA的测序产生了14.5亿个读数,每个读长75bp。cDNA的测序产生了2.8亿个读数,一半读长75 bp,一半读长68 bp。
之后,研究人员利用SAMtools来检出两个序列中的单核苷酸变异体(SNV)。插入缺失和大的结构变异体不包括在内。在gDNA中,SAMtools检出了外显子中的51,055个SNV,在cDNA中则检出了64,128个。其中,gDNA的48,740个和cDNA中的40,605个通过了质量控制过滤。
他们还直接评估了RNA-Seq在鉴定变异体上的灵敏度和特异性,并评估了覆盖度和基因的表达水平这些关键因素如何相互作用,影响表现。研究人员发现,在全基因组测序中所鉴定出的外显子变异体中,只有40%被RNA-Seq所捕获,然而,若只集中在PBMC表达的基因,这个数字就上升到81%。研究人员还发现,在处理RNA-Seq数据时,假阳性率高可能是个问题,特别是当覆盖度水平高时。
作者认为,只要有高表达基因的组织来源,并执行了适当的质量控制筛选,在发现高水平表达基因的编码变异体时,RNA-Seq是一种快速廉价的替代方法。