中风、痴呆症等神经系统疾病是致病、致残的主要原因之一,据世界卫生组织(WHO)报道,全球有超过三分之一的人口遭受这类疾病的影响。其中,神经退行性疾病是一类慢性高发疾病,更是严重威胁人类的健康和生活质量。

深入了解蛋白质的结构和运作方式,将为我们解决这些疾病提供重要依据。早在上世纪 50 年代,对于蛋白质折叠问题的探索就已经开始了。而 AlphaFold 的出现,彻底改变了科学家们研究蛋白质折叠的范式。

如今,AI for protein sciences 又有了新的突破——

近日,来自哥本哈根大学、圣裘德儿童研究医院和伊利诺伊理工学院的研究团队,推出了一种设计具有特定结构性质的蛋白质变体的通用算法,将蛋白质的研究拓展到了固有无序蛋白(IDPs)领域。

IDPs 是一种无法折叠成稳定或有序三维结构的蛋白质,被认为在健康系统和各种疾病的病理生理学中都具有重要的生物学意义。与折叠的蛋白质不同,IDPs 的特点是高度无序、局部移动性和高动态性,对现有预测工具而言尤其具有挑战性。

这项研究不仅在理论上提出了新的设计方法,还通过实验验证了设计的 IDPs 变体,并使用机器学习模型来预测 IDPs 的集合属性,为计算蛋白质设计提供了新的工具,或将帮助我们了解多种神经退行性疾病(如阿尔茨海默病、帕金森病、肌萎缩侧索硬化症)和多种类型癌症的发病机制,以及促进新药的发现和生物材料的开发。

相关研究论文以“Design of intrinsically disordered protein variants with diverse structural properties”为题,已发表在权威期刊 Science Advances 上。

重磅突破:AI填补蛋白质设计一大空白,或揭秘癌症、痴呆症发病机制,促进新药发现和生物材料研发

我们为什么需要关注 IDPs?

一张折纸在以特定方式被折叠之前,只不过是压制的木浆;一旦被折叠,它就变成了新的东西。几次精确的折叠和翻转后,它就变成了一种可以预测你未来的纸制品——幸运签。同样的一张纸,改变几个折叠步骤,就变成了一只展翅欲飞的鹤,象征着好运的降临。

类似地,一长串氨基酸分子在自发折叠成其特定形状之前没有任何功能。细胞通过将氨基酸的小分子串成长长的多肽链来制造蛋白质。选择哪种氨基酸取决于 DNA 提供的指令集。在生成后的瞬间,多肽链精确地弯曲、折叠成蛋白质的最终 3D 形状。

如果蛋白质不能极其高效地完成这一折叠过程,一系列灾难就会在人体内发生进。折叠错误或解开的蛋白质可能会产生毒性和导致细胞死亡。许多疾病和障碍,如镰状细胞性贫血,都是由折叠错误的蛋白质引起的。折叠错误的蛋白质还可以聚集成团块,这是阿尔茨海默病和帕金森病等神经退行性疾病的标志。

因此,预测出蛋白质分子的 3D 形状对于我们理解或者是治疗神经退行性疾病是非常重要的。

然而,结构生物学领域历来专注于研究折叠成稳定 3D 结构的蛋白质和核酸,目前对蛋白质在细胞中如何发挥功能的理解大多基于“序列-结构-功能”关系这一概念。

而真核生物中约有 30% 的蛋白质并不折叠成稳定的 3D 结构,这些动态变形的蛋白质就是 IDPs,或者当它们位于其他结构化蛋白质域的背景下时,被称为“固有无序区域”(IDRs)。IDPs 和 IDRs 在分子和细胞功能中扮演着各种重要角色,挑战着序列-结构-功能范式。

IDPs 的细胞功能失调与几种神经退行性疾病(阿尔茨海默病、帕金森病、肌萎缩侧索硬化症)和许多癌症有关,它具有自我结合形成生物分子凝聚物并在细胞环境中生成多种无膜细胞器的能力,这一特性在细胞生物学和疾病中越来越被认为是非常重要的。

为了更全面地理解生物学和人类疾病,达特茅斯学院助理教授 Paul Robustelli 在一个相关的专题中强调:“结构生物学必须超越对具有稳定 3D 结构的蛋白质的研究,并发展规则来解释 IDRs 的序列如何决定它们在溶液中采用的形状分布,以及这种分布如何决定它们在细胞中的功能和在疾病中的功能失调。”

将计算蛋白质设计扩展到 IDPs

IDPs 具有极端但通常非随机的结构异质性,不能形成稳定的折叠结构,因此与折叠蛋白质相比,IDPs 的结构预测更具挑战性,其计算设计仍然受限。

为此,Francesco Pesce 和同事们已经解决了这个挑战。在之前发布的名为 CALVADOS 的计算模型的基础上,他们设计了一个通用算法来生成具有预定义全局属性的 IDPs,并使用它来生产四种具有不同特性的 IDPs。他们还专注于一种名为 A1-LCD 的 IDPs,并通过实验验证了该模型对 A1-LCD 几种变体的序列-集合关系的推导。

他们设计了具有特定结构性质的蛋白质变体的通用算法。该算法利用粗粒度模拟和自由能计算,结合蒙特卡洛采样方法,在序列空间中进行搜索,生成具有目标结构特征的蛋白质序列。研究人员使用该算法设计了多种蛋白质变体,并对其进行了实验验证,结果表明该算法能够有效地设计具有不同紧密度、长程相互作用和相分离倾向的蛋白质变体。

该算法通过搜索序列空间,并使用高效的粗粒度模拟将每个序列与其构象性质联系起来。并使用 CALVADOS 模型进行粗粒度分子动力学(MD)模拟,并生成 IDPs 的构象集合。算法会利用蒙特卡洛算法(MCMC)采样序列空间,并预测其构象性质(通过 MD 模拟和计算自由能)。通过优化过程,寻找特定氨基酸排列,以确定目标结构特征。

重磅突破:AI填补蛋白质设计一大空白,或揭秘癌症、痴呆症发病机制,促进新药发现和生物材料研发

图 | 研究团队设计具有目标构象性质的 IDPs 序列的算法概述。

该算法可以设计具有特定结构性质的 IDPs 序列,例如紧缩程度、长程接触和相分离倾向。此外,它还可以探索序列空间,并找到具有新颖构象特征的 IDPs 序列。研究团队还利用机器学习模型加速算法,使其更高效。

在未来,研究团队建议进行更广泛的序列空间采样,并探索将 MCMC 采样与其他方法(如强化学习和贝叶斯优化)相结合来更有效地探索序列空间。并且,作者指出机器学习和模拟的结合将在设计具有更复杂结构可观测量的序列时尤为重要,其中模拟可能更昂贵,而化学计算可能效率较低。此外,该算法可以应用于设计具有其他结构特征的序列,并展示了设计具有目标接触图的序列的可能性。

AI for Proteins,一直在进步

自 20 世纪 60 年代起,科学家们对蛋白质的研究就开始了,当时主要靠 X 射线和核磁共振(NMR)等传统技术来解析其结构。随着对蛋白质生物化学机制认识的深化和计算技术的迅猛进步,研究者们开始转向计算方法来预测蛋白质的结构。

2016 年,许锦波团队开创性地将深度残差网络(ResNet)运用于结构预测,显著提升了蛋白质残基接触预测的精确度。基于这一成果,一系列结合共进化和深度学习算法的研究相继问世,例如 AlphaFold(侧重于残基距离预测)和杨建益与 David Baker 团队开发的 trRosetta(侧重于引入二面角信息等),均采纳了 ResNet 架构。

2020 年,AlphaFold2 在 CASP14 竞赛中一鸣惊人,达到了 98.5% 的预测准确率。2021年,David Baker 团队在 Science 杂志发布了开源的蛋白质预测工具 RoseTTAFold,该工具利用自然语言处理(NLP)技术,直接从多序列比对(MSA)中提取共进化信息,其预测精度可与 CASP14 中的 AlphaFold2 相媲美。从此,基于蛋白质序列的预训练模型,亦称为蛋白质语言模型(PLM),开始广泛应用于蛋白质结构预测。

2022 年末,Meta 公司推出了 ESM-2 和 ESMFold,成为当时发布的最庞大、最复杂的蛋白质语言模型之一。2024 年,David Baker 团队推出了 RoseTTAFold All-Atom(RFAA)这一新型结构预测方法,它能精确描绘生物单元中所有原子的 3D 坐标,包括蛋白质、核酸、小分子、金属和化学修饰。

除了在蛋白质结构预测领域的显著进展,人工智能(AI)也在蛋白质研究的其他多个方向持续发力,如预测蛋白质与其他生物分子的相互作用、蛋白质设计、蛋白质组学等。展望未来,AI 将继续拓展其影响力,填补蛋白质研究领域的诸多空白。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。