什么是泛基因组呢,泛基因组能做什么呢,泛基因组该怎么做呢?
众位观众,稍安勿躁,下面请听小编细细道来。
2005年,Tettelin H 等人提出了微生物泛基因组概念(Pan-genome,pan 源自希腊语‘παν’,全部的意思),泛基因组包括核心基因组(Core genome)和非必需基因组(Dispensable genome)。其中,核心基因组指的是在所有菌株中都存在的基因;非必需基因组指的是仅在部分菌株中存在的基因(Tettelin H, et al. 2005)。2009 年,Li R 等人**采用新全基因组组装方法对多个人类个体基因组进行拼接,发现了个体独有的DNA序列和功能基因,并**提出了“人类泛基因组”的概念,即人类群体基因序列的总和(Li R, et al. 2009)。2013 年泛基因组测序开始应用于动植物研究领域。目前泛基因组在真核生物研究中已涉及**、鸟类、陆生水生动物、昆虫、植物等,可见泛基因组研究的地位和重要意义。另外小编浏览已发表的真核生物泛基因组文献发现,大部分的泛基因组文章影响因子都在10分以上。
我们已经了解了泛基因组包括核心基因组和非必需基因组,核心基因组由所有样本中都存在的序列组成,一般与物种生物学功能和主要表型特征相关,反映了物种的稳定性;非必需基因组由仅在单个样本或部分样本中存在的序列组成,一般与物种对特定环境的适应性或特有的生物学特征相关,反映了物种的特性。那么我们能利用泛基因组测序研究什么呢?
泛基因组测序是运用高通量测序及生物信息分析手段,针对不同但又相互关联的个体材料进行低/高深度的测序及泛组装,构建泛基因组图谱,丰富该物种的遗传信息。现在的研究趋势逐渐转向探索更大分类阶元的进化关系, 通过具有内在关联的不同属或科内物种测序分析,不仅可以获得多个基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA 序列和功能基因信息,有利于理解物种形成的分子进化机制及其与自然选择的关系。其选材多样,应用广泛,可选择不同亚种材料进行泛基因组测序来研究物种的起源及演化等重要生物学问题;也可选择野生种和栽培种等不同特性的种质资源进行泛基因组测序去发掘重要性状相关的基因资源,为科学育种提供指导;还可选择不同生态地理类型的种质资源进行泛基因组测序开展物种的适应性进化,外来物种入侵性等热门科学问题的研究,为分子生态学等学科提供新的研究手段。
泛基因组测序和de novo测序有什么区别吗,怎么感觉两者好像呢?
由于同一个物种的基因组序列之间可能有很大的差异,不仅包括很多的单核苷酸多态性差异,同时还有数量众多的特有基因片段。因此,单个个体的基因组de novo测序分析不能**的反应物种基因水平的全部遗传信息,尤其是在研究同一物种中差异巨大的不同亚种或者变种时,此类特有片段的差异往往要比共有片段中的差异更为重要,这些差异以及特有基因往往与物种特有的生物学功能有关。因此,为了能够更好的进行群体遗传学和育种研究,需要根据物种的情况构建泛基因组,分析核心基因和非必要基因的基本情况,并从特有基因序列的角度来研究物种内的差异。
基因组de novo测序与泛基因组测序的差异
![](http://zt.yzimgs.com/ComFolder/641360/image/201703/201703171012413381.png)
*后,小编分享一篇*近发表的甘蓝泛基因组文献“The pangenome of an agronomically important crop plant Brassica oleracea”(Agnieszka A. Golicz1, et al. 2016)。
甘蓝在农业中是一种重要的二倍体植物,其包括卷心菜,花椰菜,西兰花,球芽甘蓝,大头菜和羽衣甘蓝等多种常见作物。芸苔属作物在随着其花序,腋芽,叶和茎生产的同时具有显著的形态学差异。虽然甘蓝已有两个参考基因组,但由于存在结构变异(PAV)即存在/缺失变异,拷贝数变异,参考序列不能获得所有的基因信息。植物参考基因组会缺失一些重要的农艺基因,造成关联分析难以进行。为了解决这个问题,本文通过对九种有形态差异的甘蓝和一种野生型近缘芸薹属物种进行泛基因组测序分析。
对每个物种构建1-3个PE文库(300-500bp),采用HiSeq2000 (100 /101 bp reads) 和HiSeq2500 (126 bp reads)测序,*终组装出泛基因组大小为587Mb,包含61,379基因(图1)。
图1 甘蓝泛基因组
甘蓝泛基因组中大部分基因(81.3%,49895)为核心基因,18.7%(11484)基因是非必需基因,其中2.2% (1322)为某一品系特有基因。泛基因组建模表明其是一个包含有限基因(直系同源基因簇)的封闭模型,这与玉米和大豆的泛基因组分析结果一致(图2)。
图2 泛基因组模型
对可变基因和核心基因比较发现,可变基因长度比核心基因短,外显子少(图3a,b),可变基因编码区的SNP密度低。但在校正基因的实际拷贝数后,可变区基因有较高的SNP密度(图3c)。核心基因具有高比例的同义SNP和低比例的非同义SNPs(图3d,e)。
图3 核心基因和可变基因比较分析
用RAxML构建10个甘蓝物种的系统进化树(图4a),发现4,324(37.7%)基因PAVs与系统发育评估一致,推测这些PAV为形态型谱系特异性基因PAV;其中在B. Macrocarpa中发现数量*多的特有PAV,这反映了其相对其它样品进化关系较远。
对PAVs进行分析发现,许多基因与抗病、开花时间、硫甙的代谢和维生素合成等功能有关(图4b、图5)。
图4 系统发育树和基因GO富集
图5 FLC和AOP2基因编码产物进化树
结论
甘蓝泛基因组中约18.7%的可变基因可能对育种产生影响。不同的芸薹属作物与更广泛的物种基因库相比,其等位基因集合还是有所局限,其中的一些变化可能是由于PAV造成的。进行更广泛的物种杂交可以获得一些芸薹属物种中不存在的基因,由于这些新基因的出现,PAV有助于保持杂种优势并增加物种活性。此外,在B. Macrocarpa中发现数量*多的特有PAV,表明甘蓝野生近缘物种在驯化过程中发生了显著的基因丢失。
参考文献
1. Tettelin H, Masignani V, Cieslewicz M J, et al. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial “pan-genome” .Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(39):13950-5.
2. Blanche H, Cann H, Bolund L, et al. Building the sequence map of the human pan-genome.Nature Biotechnology, 2010, 28(1):57-63.
3. Golicz A A, Bayer P E, Barker G C, et al. The pangenome of an agronomically important crop plant Brassica oleracea. Nature Communications, 2016, 7.