第一个“无缝”人类基因组终于测序

第一个“无缝”人类基因组终于测序

在研究人员首次宣布他们已经对人类 DNA 中包含的大约 30 亿个字母中的大部分进行了测序近 20 年后,科学家们终于绘制了整个人类基因组的图谱。

尽管人类基因组计划在 2003 年完成时受到全世界的欢迎,但在当时,基因组的许多部分仍然无法放置。这项由国家人类基因组研究所、加利福尼亚大学圣克鲁兹分校和西雅图华盛顿大学领导的科学家联盟完成的新工作最终填补了最后 8% 的DNA字母或碱基对,即在之前的序列中没有家。

新的基因组为更好地了解人们的 DNA 如何不同以及基因突变如何导致疾病铺平了道路。科学家们于 3 月 31 日在《科学》杂志上发表了他们的发现。

2003 年,人类基因组计划和生物技术公司 Celera Genomics 的科学家解决了最大的难题。但技术限制意味着他们无法将 15% 的人类 DNA 序列放入图片中。大多数未映射的区域集中在端粒(染色体末端的帽子)和着丝粒(染色体密集的中间部分)周围。2013 年,研究人员将这一差距缩小到仅 8%,但他们仍然无法放置 2 亿个碱基对——相当于整条染色体。

“自从我们有了第一个人类基因组序列草案以来,确定复杂基因组区域的确切序列一直是一个挑战,”该研究的共同作者、华盛顿大学医学院研究员 Evan Eichler在一份声明中说。“我很高兴我们完成了这项工作。完整的蓝图将彻底改变我们对人类基因组变异、疾病和进化的看法。”

DNA由称为核苷酸的微小分子组成,每个核苷酸都含有一个磷酸基团、一个糖分子和一个氮碱基。四种类型的氮碱基(腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)配对在一起形成了编码我们遗传身份的 DNA 双螺旋上的梯级。这些双螺旋的两条链形成一条染色体,人类总共有 23 对染色体,一对来自父母双方。DNA测序是确定一段DNA中碱基对构建块顺序的过程。

为了完成人类基因组计划,研究人员依靠短读技术,一次扫描数百个碱基对,将它们分离成与更大的全基因组相比很小的 DNA 片段。这使得该项目类似于组装一千万块蓝天拼图,留下了很多空白。这项工作也很困难,因为一对染色体中的两条染色体来自不同的人(来自父母一方),这使得区分来自同一基因组片段的 DNA 序列变得更加困难地点。

为了解决这些困难,新研究的研究人员转向了一种奇怪的人体组织,称为完全葡萄胎,当精子与没有细胞核的卵子受精时形成。卵子是无法生存的,它附着在子宫上形成一个“痣”,所有染色体都来自父亲,但没有来自母亲。

科学家们从这颗痣中制造了一个细胞系(一组可以在实验室中培养的细胞),其中仅包含一个人的 23 对染色体。为了对葡萄胎 DNA 进行测序,科学家们使用了两种新的测序技术,将测序项目变成了一个拥有数万块碎片的拼图。新的长读取技术使用激光一次扫描 20,000 到 100 万个碱基对,产生更大的拼图块,因此比以前更少的间隙。

长篇阅读的方法使团队能够将代码中一些最困难和重复的部分拼凑起来。结果:他们发现了 115 个他们认为编码蛋白质的新基因,使整个基因组总数增加了 19,969 个。

然而,创建第一个无间隙序列不会是研究人员努力的终点。他们估计大约 0.3% 的基因组可能包含错误,研究人员将需要更好的质量控制方法来验证这些难以测序的区域。

此外,使已测序的葡萄胎受精的精子细胞仅包含一条 X 染色体,因此研究人员将需要单独对 Y 染色体进行测序,这会触发胚胎发育为生物学上的雄性,并着手进行更具雄心的测序父母双方的基因组。

科学家们认为,更完整的人类基因组图谱将使未来的研究人员能够更好地了解 DNA 在个体和社区之间的差异,并为他们提供更好的参考点来研究基因组中可能导致有害疾病的突变。

研究人员还与人类泛基因组参考联盟合作,该联盟旨在对来自世界各地的 300 多个人类基因组进行测序。这一举措不仅可以让科学家更好地了解个体之间基因组的哪些部分不同,还可以帮助他们更好地了解不同的遗传疾病是如何出现的,以及如何最好地治疗它们。

“未来,当某人对其基因组进行测序时,我们将能够识别其 DNA 中的所有变体,并利用这些信息更好地指导他们的医疗保健,”美国国家人类基因组研究所高级研究员 Adam Phillippy,声明中说。“真正完成人类基因组序列就像戴上一副新眼镜。现在我们可以清楚地看到一切,我们离理解这一切意味着什么又近了一步。”

为您推荐