融入化学先验知识的分子基础模型:Ouroboros 在多靶点药物设计与分子优化中的突破

Dorian
2026-01-29 02:03:43
生命科学
技术教程

大规模化学预训练模型的出现,显著增强了模型捕捉分子结构与功能之间复杂关系的能力。近年来,分子基础模型因其能够学习通用分子表征,并支持下游任务中的分子优化而受到广泛关注。然而,在预训练过程中显式融入化学知识的研究仍然较少。鉴于小分子在溶液中具有高度动态的特性、其在与靶标结合时会发生构象变化以及药效团互补性的关键作用,将分子构象空间与药效团信息纳入分子基础模型的构建过程,对于提升模型对真实化学问题的理解能力具有重要意义。


针对这一挑战,新加坡国立大学张阳等于2026年1月4日在《Advanced Science》合作发表研究论文,题为“Learned Conformational Space and Pharmacophore Into Molecular Foundational Model”。




该研究提出了一种新的分子基础模型Ouroboros,在预训练阶段引入构象空间相似性和药效团相似性投影,以对表征空间进行正则化。实验结果表明,该模型能够在多种实际化学任务中表现出优异性能,包括基于相似性的虚拟筛选、定向多靶点药物设计、化学性质预测以及定向分子优化。



Ouroboros代码仓库:https://github.com/Wang-Lin-boop/Ouroboros



背景


近年来,针对小分子的通用基础模型的研究迅速发展,其核心目标在于构建能够提升下游任务性能的分子基础模型。不同的预训练策略通过引入不同层面的化学知识,构建化学预训练模型,从而促进其在多种下游任务中的应用。其中,自监督预训练策略主要用于理解不同形式的化学表示(如SMILES、分子图、InChI以及分子指纹等);而监督式预训练则旨在整合化学结构与其多模态信息、功能或性质之间的关系。生成式预训练的兴起,使分子基础模型具备了分子生成能力,能够同时生成分子结构和化学性质。然而,高质量、带实验标注的数据集极为稀缺,研究者往往需要借助化学信息学工具生成大量简单标签,这在一定程度上限制了模型在预训练阶段获取复杂化学知识的能力。此外,生成式预训练模型通常需要采用可被分词的化学语言表示,这使得模型难以直接基于分子图进行表征学习;而已有研究表明,分子图在表征学习方面往往具有更优的性能。


方法


本文提出了一种由两个正交模块组成的统一模型Ouroboros:一个模块负责将分子结构(分子图)映射为一维表征向量,另一个模块负责将表征向量转换为分子的SMILES表示。该设计使得分子表征学习与分子生成过程可以相互独立地进行训练,从而能够针对每个模块灵活选择合适的神经网络结构、数据集和训练策略。与其他分子生成框架不同的是,该重构模型不需要任何prompt或噪声输入,能够在表征空间中重构化学结构。



图1 Ouroboros研究动机与整体架构


具体来说,表征模块通过图神经网络将分子图转换为一维表征向量(图1a),并基于由查询分子与参考分子两两相似性构建的相似性矩阵进行预训练。通过构象空间–药效团相似性(CSPS)学习(图1b),表征模块被正则化至一个具有化学意义的表征空间中。此外,重构模块利用基于Transformer的架构,将编码后的一维表征向量重构为原始的分子SMILES表示。该模块在大规模无标注化学结构数据集4820万个分子上进行训练,旨在充分探索表征空间,从而提升模型的分子生成能力。


结果


将表征模块应用于基于相似性的虚拟筛选


首先通过零样本相似性评估检验表征模块的表示能力与泛化性能,该评估旨在识别在结构上相似且具有相近生物活性的分子。在两个虚拟筛选基准数据集(DUD-E中的102个靶标和LIT-PCBA中的15个靶标)上,Ouroboros在BEDROC方面,相较于6种基线方法展现出更强的表征能力(图2a)。结果表明,尽管训练所用的分子结构数据集规模相对较小,该表征模块仍在两个基准测试中均取得了均衡且较高的富集性能。进一步在DUD-E与LIT-PCBA数据集上对Ouroboros与MolFormer(目前采用最大规模预训练数据集的分子基础模型)进行了正面对比(图2b、c)。结果显示,Ouroboros在DUD-E基准上与MolFormer性能相当,并在不同靶标上呈现出互补优势;而在来源于高通量实验筛选的LIT-PCBA数据集中,Ouroboros在多数靶标上超越了MolFormer。



图2 将Ouroboros的表征相似性应用于虚拟筛选和定向多靶点药物设计。


随后,作者将模型应用于具有挑战性的多靶点药物发现任务,为多个癌症驱动基因设计多靶点抑制剂,例如KRAS、TP53、PI3Kα、SMAD4和ARID1A,以实现合成致死或抑制肿瘤细胞增殖。本研究共纳入了10个不同的驱动相关靶标(KRAS、PI3Kα、PI3Kγ、MEK1/2、PLK1、WEE1、CHK1/2、AURKA、PRMT5以及PARP1/2)以及119个参考化合物。首先通过相似性筛选富集潜在活性分子,随后结合分子对接方法筛选用于实验测试的候选化合物。最终,共有18个分子被成功合成并用于酶活性测试,其中7个化合物(38%)表现出活性,3个化合物(16%)如预期般展现出多靶点抑制行为(图2d-g)。


基于表征模块的化学性质建模


在该框架下,Ouroboros的分子性质预测器通过深度神经网络将分子表征映射至对应性质(图3a)。图3b展示了Ouroboros性质预测器在10个不同与药代动力学和毒理学相关的分子性质数据集上的平均Spearman相关系数(SPEARMANR),其数值显著高于基于AI的GeminiMol以及多种基于分子指纹的方法,包括ECFP4、AtomPairs、MACCS、RDK和CombineFP。如图3c所示,对Ouroboros与CombineFP进行了正面对比。结果表明,Ouroboros不仅在脂溶性、溶解度等相对简单的任务中表现优异,而且在半衰期和清除率等更具挑战性的任务上也实现了显著性能提升。



图3 基于Ouroboros表征模块的分子性质预测器训练


在微调过程中,每一个性质预测器都会独立地对表征模块进行优化,从而使预训练得到的重构模块不再可用(图3d)。为了与其他化学语言模型基线进行公平比较,在微调模式下评估了Ouroboros的性能,结果如图3e所示。尽管Ouroboros并非为微调而设计,但其仍在所有方法中取得了最高的平均性能(0.687),其次为Uni-Mol(0.676)。此外,Ouroboros的表现也优于专门为分子性质建模而设计、融合多种分子指纹与GNN的FP-GNN。还对Ouroboros与Uni-Mol进行了正面对比,结果显示两种方法在不同任务中各具优势,其中Ouroboros在清除率和血浆蛋白结合率方面表现更为突出。


表征空间中的定向化学演化与分子生成


如图4a所示,Ouroboros被用于在两种具有不同骨架的抑制剂之间构建一条迁移路径,这两种抑制剂分别为[1,3,5]-三嗪衍生物和5-杂环吡唑并吡啶,均靶向3′,5′-环腺苷单磷酸磷酸二酯酶4B(PDE4B),该酶是多种生理过程的重要调控因子。作者比较了化学迁移过程中生成的所有分子的QED评分与两种起始分子的评分。如图4b所示,Ouroboros生成了许多QED评分高于两种参考分子的分子(16.08%)。得益于重构模块对化学空间的有效建模,迁移路径上的大多数分子均获得了高于0.5的SA评分,这一阈值通常被认为具有可合成性。



图4 探索Ouroboros中的表征空间


进一步探索Ouroboros是否能够整合来自两组参考分子的药效团特征,以生成新型双靶点抑制剂。为此,首先在Enamine REAL多样性数据集上进行相似性筛选,以识别潜在的AURKA/PI3Kγ双靶点抑制剂。同时,将相同的参考化合物输入Ouroboros进行化学融合,从而实现两种策略生成候选分子的直接对比。结果表明,相较于ECFP4和相似性筛选方法,化学融合策略生成了更多具有更优对接评分和结合自由能的化合物(图4c)。此外,还比较了化学融合生成分子与通过ECFP4和Ouroboros相似性筛选获得分子的配体效率,进一步验证了Ouroboros化学融合策略在发现高效双靶点抑制剂方面的优势。


采用第三方评估工具QikProp比较了Ouroboros的随机传播与定向化学演化在分子性质优化任务中的表现。图4d和4e展示了在更大尺度上的溶解度和膜渗透性优化结果,所涉及的四种代表性有机分子包括两种膜渗透性较低的分子以及两种疏水性较强且水溶性较差的分子。尽管对不同性质缺陷的分子采用了相同的损失函数,Ouroboros的定向迁移仍成功生成了多种在膜渗透性或溶解度方面显著改善的分子,同时其表征相似性均保持在0.6以上。这些结果充分表明,Ouroboros的定向迁移策略在分子性质优化方面具有高度的通用性与有效性。


局限性及展望


首先,Ouroboros并未直接预测分子的动态三维构象,而这一方向具有重要研究前景。这一设计选择源于小分子构象本身具有高度动态性和多样性,受到可旋转键数量及环境条件变化的显著影响。对分子动态构象空间的预测是未来一项极具潜力的研究方向。其次,尽管Ouroboros在多种分子性质预测任务中展现出优异性能,但当前基准仅涵盖10种分子性质,仍存在广阔的拓展空间。此外,针对特定生物靶点生成高亲和力分子正日益受到关注,而当前Ouroboros尚不能直接预测药物–靶点结合亲和力,而是依赖分子对接来识别迁移路径上具有更优对接评分和结合构象的分子。这进一步凸显了在未来工作中引入蛋白质表征、并将其纳入药物–靶点结合亲和力预测模型训练的重要性,以持续增强Ouroboros框架的整体能力。



参考链接:https://doi.org/10.1002/advs.202513556





文章改编转载自微信公众号:智药邦


原文链接:https://mp.weixin.qq.com/s/dcgKLiMM0Mo_eD0j2lwMHA

59
0
0
0
关于作者
相关文章
  • AI赋能化学生物学 —— 五大核心领域应用、挑战与未来展望 ...
    伴随着算法、算力和数据的融合发展, 近年来人工智能(AI)取得了突破性的进展。得益于其在化学和生 ...
    了解详情 
  • 深度学习驱动从头抗生素设计:新型抗菌分子 NG1 与 DN1 的发现及 ...
    发表于 Cell 的《 A generative deep learning approach to de novo antibiotic design 》提出一 ...
    了解详情 
  • QDRL量子深度强化学习—— 量子计算与强化学习协同,攻克网络节 ...
    网络关键节点识别是网络科学基础问题。本研究提出量子深度强化学习(QDRL)框架,融合强化学习与 ...
    了解详情 
  • 大话伊辛模型——从磁性本质到智能算法的跨界之旅 ...
    一篇充满争议的博士论文,如何变成横扫AI、物理、社会学的万能钥匙?伊辛模型藏着怎样的跨界密码 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额