StoL框架:化学增强扩散模型驱动的小分子到大分子构象生成新方法

Jack小新
2026-05-09 03:00:17
生命科学
技术教程


  研究背景与科学问题


分子构象——即原子在三维空间中的精确排列——深刻影响着分子的反应性、稳定性及分子间相互作用等核心化学性质。随着分子尺寸增大,可及构象数量呈指数级增长,穷举式构象空间探索面临严峻的计算挑战。然而,理解构象分布对于药物设计、催化剂开发和生物科学等领域至关重要。


传统构象生成方法主要分为两类:基于物理的方法(如分子动力学、元动力学)精度较高但计算代价昂贵;基于启发式规则的方法(如RDKit)计算效率高但精度有限,常遗漏关键构象。近年来,扩散模型作为强大的生成范式,在分子构象生成中展现出潜力,但现有方法仍存在架构复杂、缺乏化学知识嵌入、依赖大分子训练数据等瓶颈。特别是,纯数据驱动模型常生成非物理或能量不合理的结构,且大分子高质量数据集的构建本身即为难题。


  StoL框架:类LEGO式的模块化构象生成


针对上述挑战,华南师范大学兰峥岗教授团队研究提出了StoL(Small-to-Large)框架——一种端到端的化学增强扩散模型方法,核心理念是仅利用小分子数据训练模型,即可生成大分子的多样化高质量构象。该框架无需在训练阶段见过目标大分子或任何同等规模的结构,从根本上规避了大分子数据匮乏的限制。


StoL以SMILES字符串为输入,直接输出多种构象的笛卡尔坐标,采用类似LEGO积木的模块化设计,包含三个核心阶段:


(1)分子片段化。 输入SMILES被系统性地拆解为若干较小的化学有效片段。算法识别分子图中的非环单键进行裂解,保留含6—10个重原子的片段,并采用"最大片段优先"的树遍历策略选择片段组合。相邻片段至少共享三个重原子以保证结构连贯性,所有片段组合后须能完整重构原始分子。 (2)片段构象生成。 每个片段的SMILES被转化为分子图,由化学增强扩散模型生成多种合理的三维构象。该模型采用两阶段训练策略:先进行纯数据驱动的预训练,再进入化学增强阶段,引入Sinkhorn算法和Gumbel-softmax技术进行原子匹配与排列优化,同时加入环系平面性检查等化学约束。这些化学先验知识的嵌入显著加速了训练收敛并提升了生成质量。 (3)全局组装与验证。 过滤后的三维片段被组装为完整分子结构,并经化学信息学约束验证结构完整性与热力学合理性,最终输出多样化的构象集合。



▲ Fig.1 | StoL流程应用于伏立诺他(vorinostat)的示例说明。(a) 伏立诺他的SMILES表示及其分子结构。(b) 分子的片段化处理及对应的片段SMILES。(c) 对片段1进行降维处理后,通过聚类技术获得10种代表性构象。(d) 伏立诺他的最终组装。左图展示了由StoL和RDKit生成的分子结构的PCA可视化结果,右图展示了六种代表性三维结构。


图1以抗癌药物伏立诺他(vorinostat)为例,展示了StoL的完整流程:从SMILES输入到分子片段化、片段构象降维聚类,再到最终组装。右侧的PCA可视化表明,StoL生成的构象在构象空间中的覆盖范围明显优于传统RDKit方法,能够探索到更广泛的构象区域。


  化学增强策略的关键作用


StoL的核心创新在于将化学原理系统性地嵌入扩散模型的多个环节。在训练阶段,化学增强(CE)策略解决了分子生成中的原子排列不确定性问题:由于同类原子间的排列是不确定的,模型需要学习正确的原子-坐标对应关系。StoL引入Sinkhorn算法求解最优排列矩阵,并结合Gumbel-softmax实现可微分的离散采样,使排列学习融入端到端训练。此外,环系平面性约束确保芳香环等结构生成时保持正确的几何特征。



▲ Fig.3 | (a) StoL25-init数据集中的构象异构体分布。每个结构均通过对10个RDKit生成的初始构型进行DFT优化获得。(b) P-CE-StoL模型与non-CE-StoL模型的训练损失曲线比较。红色线条对应P-CE-StoL的训练损失和验证损失,蓝色线条对应non-CE-StoL的训练损失和验证损失,横轴为训练迭代次数。纵轴为归一化损失,定义为 /t T,其中T表示各策略最终收敛的损失值。


图3(b)清晰展示了化学增强策略的效果:与非增强模型(non-CE-StoL)相比,化学增强模型(P-CE-StoL)的训练损失收敛速度显著加快,最终损失值也更低,验证了化学知识嵌入对模型训练效率和性能的实质性提升。图3(c)进一步通过片段生成质量的对比,表明化学增强策略生成的构象在键长、键角等几何参数上更加合理。


  DFT验证与性能评估


为严格评估StoL的生成质量,研究者对生成构象进行了密度泛函理论(DFT)级别的几何优化与能量验证。



▲ Fig.2 | 伏立诺他构象的DFT评估。(a) 基于StoL生成的初始构型,经DFT计算得到的29种代表性构象,按能量降序排列。浅绿色标记表示同时由RDKit和StoL初始构型获得的结构。(b) 以最低能量结构为参考的相对能量(ΔE)箱线图,比较了由RDKit+DFT(StoL25-init数据集)和StoL+DFT(基于StoL生成的初始构型进行DFT计算)所生成的构象异构体。


图2以伏立诺他为例展示了DFT验证结果。StoL生成的初始猜测经DFT优化后获得了29种代表性构象,其中包含RDKit无法找到的独特低能构象。能量箱线图显示,StoL+DFT工作流产生的构象能量分布整体低于RDKit+DFT,表明StoL能够更有效地探索低能构象空间。



▲ Fig.4 | (a) 使用20种StoL生成的代表性初始结构经DFT优化后的构象异构体分布。(b) 环形图展示了200个分子中,由RDKit和StoL初始化的DFT工作流所获得的最低能量构象异构体之间的能量差(ΔEmin = ERDKit+DFT min − EStoL+DFT min,单位:kcal/mol)。(c) 柱状图展示了StoL+DFT工作流产生更低能量构象异构体的分子的ΔEmin值,按能量差升序排列(单位:kcal/mol)。


图4将评估扩展至200个分子的系统性测试。图4(a)展示了StoL生成的20个代表性初始结构经DFT优化后的构象分布情况。图4(b)的环形图给出了关键统计结果:在200个测试分子中,StoL+DFT工作流在相当比例的分子上找到了比RDKit+DFT更低能量的构象。图4(c)和(d)分别展示了两种方法各自占优的分子及其能量差异。这些结果表明,StoL作为构象搜索的初始猜测生成器,能够有效补充甚至超越传统启发式方法,尤其在柔性大分子的低能构象发现方面具有显著优势。


  总结与展望


StoL框架的主要创新贡献可归纳为以下几点:第一,提出了"小分子训练、大分子生成"的片段化策略,从根本上解决了大分子训练数据匮乏的问题,具有出色的可扩展性和可迁移性;第二,系统性地将化学先验知识嵌入扩散模型的训练和推理过程,显著提升了模型效率和生成质量;第三,端到端的黑箱设计使框架无需专家干预即可使用,降低了应用门槛。


该研究也存在一定局限性:当前片段约束为6—10个重原子,对于含有更大刚性子结构的分子可能需要调整;此外,片段间柔性连接区域的构象采样完整性仍有提升空间。未来方向可包括扩展训练数据的化学多样性、引入更精细的片段间相互作用建模,以及与增强采样方法的联合使用。


该工作深刻揭示了一个重要启示:在分子生成领域,将基础化学原理与机器学习模型深度融合,远比单纯增加数据规模或模型复杂度更为有效。这一思路对物理信息增强的分子生成研究具有广泛的借鉴意义。


结合,以提升框架在更复杂设计场景中的适用性。



参考文献:Yifei Zhu, Jiahui Zhang, Jiawei Peng, Mengge Li, Chao Xu, and Zhenggang Lan. The Journal of Physical Chemistry Letters (2026) https://doi.org/10.1021/acs.jpclett.5c04019





文章改编转载自微信公众号:AI4Mat前沿


原文链接:https://mp.weixin.qq.com/s/MQ9L5_SfIsThlFWtGKKQqw

29
0
0
0
关于作者
相关文章
  • 原子无序不再难解!AI + 蒙特卡洛框架精准预测无序材料宏观物性 ...
    本文解读ACS Nano 2025论文,提出等变图神经网络(GNN)与蒙特卡洛(MC)模拟相结合的一体化计算 ...
    了解详情 
  • 酶的「瘦身革命」—— 用蛋白质语言模型给工业酶精准减重 ...
    导读:一把剪刀剪掉多余的氨基酸,活性位点却丝毫不动 —— 这不是科幻,而是来自 Imp ...
    了解详情 
  • 伊辛模型视角下的化工品期货关联相变研究
    摘要:本文将统计物理学中的伊辛模型(Ising Model)映射到期货市场,以 10 个化工品为研究对象 ...
    了解详情 
  • 深度神经网络赋能 CFD 计算:架构、耦合策略与多领域应用全景 ...
    最近有点痴迷于人工智能技术在仿真方面的应用了,但是LLM大语音模型来做仿真目前还是不现实,直 ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas