为不孕、癌症等研究打开新大门

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

终于,人类Y染色体的完整序列被科学家弄清楚了。

这意味着,人类泛基因组的最后一块拼图被拼上。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

这项重磅研究刊登在最新一期Nature之上。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

该序列提供了人类Y染色体完整的62,460,029个碱基对。

其中有30,000,000个是本次新发现的,上面带有41个额外的蛋白质编码基因。

它将对我们研究繁殖(比如Y染色体导致的不孕不育)、进化、癌症等重要问题提供方向。

作者表示:

几年前人类Y染色体序列还存在一半缺失,并且都是非常难以摸清的DNA(比如卫星DNA)。

当时我们甚至都怀疑它们是否还能测出来。

现在的发现真的是一个巨大的转变。

Ps. 完整序列可在UCSC大学基因组浏览器上查阅和使用,通过Github访问也可。

科学家首次发布人类Y染色体完整序列

科学家和临床医生研究基因组的目的之一,就是通过将个体的DNA与标准的参考DNA进行比较,确定哪里存在变异。

今天我们的主角:Y染色体,它最广为人知的功能是确定男性性别(其实也会出现在双性人中)。

但实际远不止此。

一些男性的某些细胞如果缺失了这一染色体,就会面临癌症、阿尔茨海默病等疾病缠身的风险。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

因此,一个完整的Y染色体序列能够使科学家更好地了解它在人体内发挥的所有作用。

然而,即使是最新的参考序列(GRCh38)也都还有一半以上的Y染色体缺失,这使得我们理解变异和相关疾病十分困难。

而之所以科学家很难破解完整的序列,是因为该染色体机构中的一些DNA是回文形式的(顺读和反读都一样,且跨越了超一百万个碱基对)。

此外,还有很大一部分DNA是卫星DNA,也就是大型、高度重读的非蛋白质编码区域。

一旦两个卫星DNA相互连接,测序过程就会进一步复杂化。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

现在,得益于长读(long-read)测序技术和新的计算组装方法进步到能够处理重复序列,并将序列中的原始数据转换为某种可用的信息,研究人员终于实现了Y染色体的无缝读取。

在此,他们解决了几个关键挑战,比如精确定位回文序列中发生倒位的位置。

——这里的“他们”指的是T2T联盟,一个专门研究Y染色体的国际小组,2018年成立,领导者包括加州大学圣克鲁斯分校(UCSC)生物分子助理教授Karen Miga。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

T2T联盟之前就发布了人类Y染色体着丝粒(即染色体两半连接在一起的区域)的第一个序列,共涉及30万个碱基对。

现在,仅仅经过5年时间,他们发现了新的3000万个碱基对,破解了Y染色体的全部序列。

该结果意义何在?

首先是在生殖方面。

虽然Y染色体上的基因相对较少,但都很复杂且动态,并且编码重要的功能,例如精子的产生。

完整的Y染色体参考序列将使科学家能够以前所未有的方式研究人类基因组这部分的无数特征,弄清与Y染色体相关的疾病(比如精子生成不足导致的不孕)将变得更加容易。

另外,复杂的结构导致Y染色体是人类甚至类人猿中变化最快的染色体。

也就是说两个健康人的Y染色体可能看起来非常不同,比如一个人拥有一个基因的40个拷贝,而另一个人仅19个。

完整的参考序列则能够更好的研究这种进化。

UCSC表示,体外受精机构或其他不孕症研究的未来焦点可能就将聚焦于此。

人类首个Y染色体完整序列问世!补齐最后一块基因拼图|Nature

其次,对于人类种群进化和迁移研究来说,它也是非常重要的资源。

因为Y染色体在一组遗传物质中代代相传,在该组遗传物质之外则很少发生重组,而人类X染色体上的常染色体和基因则经常重组并彼此共享遗传物质,不方便进行代际遗传中的基因追踪等研究。

此外,这项成果对卫星DNA的一些谜题也有帮助。

以及此前有研究表明,随着年龄的增长,携带Y染色体的人可能会失去部分或全部遗传物质,但科学家们从未完全理解为什么会发生这种情况以及它可能产生的影响。

完整的Y染色体序列可能有助于解开这个谜团。

还有一个意外的发现

本研究的成果也将可能改善细菌基因组的研究。

由于细菌DNA通常取自人类皮肤,人类DNA可能作为其中的污染物出现。

譬如有证据表明,公共数据库中大约5000个细菌基因组可能包含与人类Y序列相关的污染。

现在,利用完整的Y染色体序列,科学家就能够识别出污染序列,然后将其去除,只留下细菌DNA进行研究。

这在之前,都可谓无从下手。

未来计划

虽然完整的人类Y染色体序列将为许多新发现打开大门,但接下来,作者还需要与人类泛基因组参考联盟合作,将该序列整合到人类泛基因组中。

该基因组是基因组学的新参考,结合了来自不同祖先背景的多人的基因组信息,可以实现更为公平的研究和临床发现。

当然,作者们的另一目标是希望与全世界科学家共享这一数据和研究,最终打造出一本Y染色体的遗传差异目录,扩大人类疾病的遗传研究,并为基础生物学提供新的见解。

论文地址:
https://www.nature.com/articles/s41586-023-06457-y
参考链接:
https://news.ucsc.edu/2023/08/t2t-y-chromosome.html