SiteAF3赋能精准位点特异性折叠,革新生物分子复合物结构预测

哈奇一
2025-11-20 01:23:07
生命科学
技术教程

PNAS 的《Accurate site-specific folding via conditional diffusion based on AlphaFold3》一文提出了 SiteAF3 模型。该模型优化 AF3 框架,固定受体结构并整合口袋信息,在蛋白 - 小分子、肽段、核酸复合物预测中表现突出:成功率最高 81.2%、DockQ 得分最大提升 44.0%,且显存占用减少、推理提速,插件式兼容 AF3,为药物设计提供高效工具。



精准预测生物大分子复合物结构是理解生命过程与药物发现的关键。尽管 AlphaFold3(AF3)在复合物预测方面取得重大进展,但在特定位点(如结合口袋或变构位点)的预测精度仍存在不足。


研究人员提出SiteAF3,一种基于AlphaFold3框架的条件扩散方法,用于实现高精度的位点特异性折叠。SiteAF3通过固定受体结构并可选性地整合结合口袋及热点残基信息,优化了扩散过程。在蛋白–小分子、蛋白–肽段及蛋白–核酸等多类数据集上,SiteAF3的预测精度均显著优于AlphaFold3,尤其在孤儿蛋白及变构配体的结构预测中表现突出,同时减少计算开销。该模型以插件形式兼容AlphaFold3,为高精度生物分子互作建模提供了实用工具。相关研究近期发表在PANS上。



准确预测生物分子复合物结构是解析生命机理与理性药物设计的核心环节。AlphaFold2在单蛋白结构预测上实现了突破性成功,而AlphaFold3进一步扩展至蛋白–蛋白、蛋白–核酸、蛋白–配体等多种类型复合物,为计算生物学带来了新范式。然而,AF3仍存在若干挑战。其性能高度依赖于多序列比对(MSA),对序列同源性低的孤儿蛋白或错误MSA可能出现显著偏差。此外,AF3的共折叠模型在预测变构配体时精度不足;其构象采样仍耗时,GPU内存需求高;并且AF3的口袋引导模块未开放,限制了其在特定靶点下的可定制性。


为此,研究人员开发了SiteAF3,通过在AlphaFold3框架中引入条件扩散(conditional diffusion)机制与口袋/热点信息引导,实现受体固定条件下的高精度位点特异性折叠。这一方法显著提升了复合物结构预测的准确性与可控性。


  方法概述


SiteAF3基于AF3框架改进了两个核心模块:


a.条件扩散模块:在扩散过程中固定受体结构,仅对配体原子坐标进行噪声采样与更新,使采样集中于目标结合位点附近。


b.口袋与热点信息引导:在MSA模块中引入结合口袋与关键残基信息,作为条件输入,增强局部位点的结构约束与定位精度。


噪声初始化以口袋中心为高斯分布核心,同时引入随机旋转与平移以增加构象多样性。配体的更新通过掩码机制限制在可变部分,从而降低显存消耗并增强对大体系的适用性。模型训练与推理均保持与AF3兼容,用户可将其作为轻量化插件直接调用。



  结果


SiteAF3网络架构与关键改进


SiteAF3的总体架构继承AF3的推理流程,包括输入准备、表示学习、结构预测与置信度评估。主要改进体现在:


a.条件扩散机制:仅更新配体坐标,受体固定;


b.局部注意力掩码机制:优化显存占用并加速训练;


c.位置更新模块:将固定受体与预测配体无缝结合形成完整复合物。


这些改动确保了模型能在已知受体结构条件下高效搜索配体构象空间,特别适用于特定靶点的结合预测。


蛋白–小分子复合物预测


在FoldBench与PoseBustersV2数据集上,SiteAF3的成功率分别为71.6%与81.2%,均显著高于AF3(62.0%和73.1%)。模型在五种配置模式下进行比较,其中“pocket-masked AF3 MSA”模式表现最佳,平均LRMSD降低30%以上。在变构配体(allosteric ligands)预测中,SiteAF3准确识别了CK2α–LVF等变构结合位点,而AF3将其错误定位至正构口袋。此外,SiteAF3对孤儿蛋白和含辅因子体系同样表现出更高鲁棒性与泛化性。



蛋白–肽段复合物预测


在PepPCBench数据集上,SiteAF3的平均DockQ得分比AF3提高11.2%,中位数提高7.0%。研究人员进一步分析了不同肽段长度的影响:短肽(5–9aa)与中肽(10–15aa)提升最显著;长肽(16–30aa)提升较小;这与模型以口袋中心为噪声核心的初始化策略相一致。



蛋白–核酸复合物预测


在蛋白–dsDNA与蛋白–RNA数据集中,SiteAF3平均DockQ分别提高10.2%与14.7%,中位数提升13.6%与44.0%。结合口袋与热点残基信息可进一步增强核酸分子定位精度,尤其在dsDNA复合物中表现突出。


计算效率与内存优化


SiteAF3相较AF3在以下方面具有显著优势:


a.显存占用减少:局部掩码矩阵乘法仅更新配体坐标,使可处理体系规模扩大。


b.速度提升:当不使用MSA遗传搜索时,推理时间显著缩短,适用于高通量虚拟筛选。


研究人员指出,在大体系中SiteAF3避免了AF3常见的显存溢出问题(>3500 tokens),并能在RTX 6000(48GB)环境中稳定运行。


  讨论与结论


SiteAF3在AlphaFold3框架下实现了高精度位点特异性折叠,在多类复合物预测中均显著优于原模型。


其主要优势包括:对变构位点、柔性肽及孤儿蛋白预测表现突出;预测不确定性高的结构中仍保持高精度;GPU占用低、推理速度快、插件式兼容。


研究人员指出,SiteAF3的条件扩散思想与口袋约束机制可推广至其他共折叠模型(如Boltz、Chai、Protenix、HelixFold等),并有望与亲和力预测模块结合,进一步提升结合能估计精度。


未来工作方向包括:将噪声初始化改进为基于口袋形状的可学习策略;引入共价结合预测模块;允许局部受体构象灵活性以模拟诱导契合效应。


总之,SiteAF3为高精度复合物预测与药物设计提供了一个通用、高效且可扩展的平台,标志着从AlphaFold3向“位点感知结构生成”的重要跨越。



参考资料


H. Tang, & J. Wang, Accurate site-specific folding via conditional diffusion based on AlphaFold3, Proc. Natl. Acad. Sci. U.S.A. 122 (44) e2521048122, https://doi.org/10.1073/pnas.2521048122 (2025).





文章改编转载自微信公众号:智药邦


原文链接:https://mp.weixin.qq.com/s/s6jEDxfH_PFo-972wPMGbQ

25
0
0
0
关于作者
相关文章
  • 蛋白质设计新革命:ProT-VAE 模型让酶活性翻倍、耐热性飙升 61℃ ...
    Evozyne 与英伟达团队在《PNAS》提出 ProT-VAE 模型,融合变换器与 VAE,以三层嵌套架构突破蛋白 ...
    了解详情 
  • Saprot——无需编程背景的开源蛋白质语言模型技术 ...
    发表于国际顶尖期刊 Nature Biotechnology 的文章《 Democratizing Protein Language Model Trai ...
    了解详情 
  • ECloudGen —— 以电子云为桥梁的结构感知分子生成新范式 ...
    基于结构的分子生成(Structure-Based Molecular Generation, SBMG)代表了人工智能驱动药物设计 ...
    了解详情 
  • 伊辛模型:相变是自然界最迷人的现象之一
    伊辛模型作为统计物理学中的经典框架,不仅成功解释了铁磁材料的相变现象,更在量子计算、优化算 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行QBM-VAE示例代码,根据系统提供的随机seed值,求出正确的FID值。

通过奖励

10个一年效期的550量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

替换seed值

您的seed值为

第三步

输入您计算的FID值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

550bit*10

配额