人类基因组计划(Human Genome Project)是一项雄心勃勃的举措,旨在对人类的每个DNA片段进行测序。该项目吸引了来自世界各地研究机构(包括包括怀特黑德研究所)的合作者,并*终于2003年完成。如今,二十多年过去了,怀特黑德研究所成员Jonathan Weissman及其同事们在一项新的研究中超越了人类基因组序列,****地构建出人类细胞中表达的基因的功能图谱。相关研究结果于2022年6月9日在线发表在Cell期刊上,论文标题为“Mapping information-rich genotype-phenotype landscapes with genome-scale Perturb-seq”。他们将每个基因与它在细胞中的作用联系起来,这是多年来在单细胞测序方法Perturb-seq上合作的成果。
这些数据可以在Weissman实验室的网站上找到,供其他科学家使用。Weissman说,“这是一个大资源,就像人类基因组是一个大资源一样,你可以进去并进行基于发现的研究。与其提前确定你要研究的生物学,不如拥有这张基因型-表型关系图,你可以进去筛选这个数据库,而不必做任何实验。”
这种筛选使得这些作者能够深入研究各种生物学问题。他们用它来探索功能未知的基因对细胞的影响,研究线粒体对应激的反应,并筛选出导致染色体丢失或增加的基因,一种在过去被证明很难研究的表型。论文共同通讯作者、前Weissman实验室博士后Tom Norman说,“我认为这个数据集将使那些来自生物学其他领域的人能够进行各种我们甚至还没有想到的分析,突然之间他们就有了可以利用的数据。”
开创性的Perturb-seq
这项新的研究利用了Perturb-seq方法,该方法可以以****的深度追踪开启或关闭基因的影响。该方法由包括Weissman和麻省理工学院教授Aviv Regev在内的一组研究人员于2016年**发表,但只能用于小规模的基因集,且花费巨大(Cell, 2016, doi:10.1016/j.cell.2016.11.038)。
论文共同**作者、Weissman实验室医学博士生Joseph Replogle的基础研究工作使得大规模的Perturb-seq图谱成为可能。Replogle与Norman、Britt Adamson(普林斯顿大学分子生物学系助理教授)以及10x Genomics公司的一个小组合作,着手构建一个可以扩大规模的新版Perturb-seq。他们于2020年在Nature Biotechnology期刊上发表了一篇概念验证的论文(Nature Biotechnology, 2020, doi:10.1038/s41587-020-0470-y)。
Perturb-seq方法使用CRISPR/Cas9基因组编辑将遗传变化引入细胞,然后使用单细胞RNA测序来捕获有关因特定遗传变化而表达的RNA的信息。因为RNA控制着细胞行为方式的所有方面,这种方法可以帮助破解遗传变化的许多细胞影响。
自从他们*初的概念验证论文发表以来,Weissman、Regev和其他人已经在更小的范围内使用这种测序方法。例如,他们在2021年使用Perturb-seq来探索人类和病毒基因在感染HCMV(一种常见的疱疹病毒)的过程中如何相互作用(Nature Biotechnology, 2021, doi:10.1038/s41587-021-01059-3)。
在这项新的研究中,Replogle和包括论文共同**作者、Weissman实验室研究生Reuben Saunders在内的合作者,将这种方法扩大到整个基因组。他使用人类血癌细胞系以及来自视网膜的非癌细胞,对超过250万个细胞进行了Perturb-seq,并利用这些数据建立了一个将基因型和表型联系起来的**图谱。
深入研究数据
在完成这种筛选后,这些作者决定将他们的新数据集投入使用,并研究一些生物学问题。Norman说,“Perturb-seq的优势在于它可以让你以无偏见的方式获得一个大数据集。没有人完全知道你能从这种数据集中得到什么限制。现在的问题是,你到底用它做什么?”
**个*明显的应用是研究具有未知功能的基因。鉴于这种筛选也读出了许多已知基因的表型,这些作者可以用这些数据来比较未知基因和已知基因,并寻找类似的转录结果,这可能表明这些基因产物作为一个更大的复合物的一部分一起发挥作用。
一个名为C7orf26的基因的突变尤其引人注目。这些作者注意到,那些在移除后导致类似表型的基因是一种叫做Integrator的蛋白复合体的一部分,该复合体在产生小核 RNA方面起着作用。Integrator复合体由许多较小的亚亚基组成---以前的研究表明有14个单独的蛋白---他们能够确认C7orf26是该复合体的第15个组分。
他们还发现,这15个亚基在较小的模块中一起发挥作用,在Integrator复合体中执行特定的功能。Saunders说,“如果没有这种高清晰的图谱,就不太清楚这些不同的模块在功能上是如此不同。”
Perturb-seq的另一个好处是,由于这种检测方法专注于单细胞,这些作者可以利用这些数据来观察更复杂的表型,因为当它们与其他细胞的数据一起研究时,这些表型就会变得模糊不清。Weissman说,“我们经常把所有‘基因X’被敲除的细胞拿出来,对它们进行平均取值,看它们如何变化。但有时当你敲除一个基因时,失去同一基因的不同细胞会有不同的行为,而这种行为可能会被这种平均取值所忽略。”
图片来自Cell, 2022, doi:10.1016/j.cell.2022.05.013。
这些作者发现,在移除后在不同细胞中出现不同结果的一个基因子集负责染色体的分离。它们的移除导致细胞失去一条染色体或获得一条额外的染色体,这种情况被称为非整倍体。Weissman 说,“你无法预测失去这个基因的转录反应是什么,因为它取决于你获得或失去哪条染色体的次级效应。我们意识到,我们可以逆转这种情况,构建这种复合表型,寻找染色体获得和丢失的特征。通过这种方式,我们对正确分离DNA所需的因子进行了**次全基因组筛选。”
Norman说,“我认为这项非整倍体研究是迄今为止这些数据的*有趣的应用。它捕捉了一个你只能用单细胞读出的表型。你不能用其他方式去捕捉它。”
这些作者还利用他们的数据集来研究线粒体如何对应激做出反应。从自由生活的**进化而来的线粒体在它的基因组中携带13个基因。在细胞核DNA内,大约有1000个基因与线粒体功能有某种程度的关系。Replogle说,“长期以来,人们一直对细胞核DNA和线粒体DNA在不同的细胞条件下如何协调和调控很感兴趣,尤其是当细胞遭受应激时。”
这些作者发现,当他们干扰不同的线粒体相关基因时,细胞核基因组对许多不同的基因变化的反应是相似的。然而,线粒体基因组反应的变化要大得多。
Replogle说,“线粒体为什么仍有自己的DNA,这仍然是一个悬而未决的问题。从我们的研究中得到的一个大的启示是,拥有独立的线粒体基因组的一个好处可能是对不同的应激源有局部的或非常特异的遗传调节作用。”
Weissman说,“如果一个线粒体被破坏,而另一个线粒体以不同的方式被破坏,这些线粒体可能会有不同的反应。”
在未来,这些作者希望将Perturb-seq用于他们开始使用的癌细胞系以外的不同类型的细胞。他们还希望继续探索他们的基因功能图谱,并希望其他人也能这样做。Norman说,“这确实是这些作者和其他合作者多年研究工作的结晶,我真地很高兴看到它继续成功和扩大。” (生物谷 Bioon.com)