从小分子拼出大结构:StoL 让分子 3D 构象生成告别算力焦虑

薛定谔了么
2026-04-13 21:16:00
人工智能
生命科学
论文精读与讲座笔记

本文解读 arXiv 预印本论文《Chemistry-Enhanced Diffusion-Based Framework for Small-to-Large Molecular Conformation Generation》,研究提出StoL(Small-to-Large)框架,将化学先验与扩散模型结合,采用 “LEGO 式片段组装” 策略,仅用小分子数据训练,即可直接生成大分子高质量 3D 构象。该方法无需大分子训练集、不依赖外部软件,在药物分子上实现比传统工具更全面的构象覆盖,且能找到能量更低的稳定结构,为药物设计、催化模拟提供轻量高效的构象生成方案。




分子的 3D 形状,直接决定它能不能成药、稳不稳定、怎么反应。可越大越灵活的分子,构象数量就指数爆炸,想算出一套靠谱的 3D 结构,要么慢到离谱,要么不准到没法用。传统方法要么靠量子化学暴力搜索,算力烧不起;要么靠经验规则快速生成,却容易漏掉关键低能构象。


最近,一种叫StoL的新框架彻底换了思路:把大分子拆成碎片,用 AI 生成碎片,再像拼乐高一样搭回大分子。更厉害的是,它只学过小分子,就能直接造大分子的 3D 构象,还自带化学规律约束,生成又快又稳。


  一、大分子 3D 构象:计算化学的 “老大难”


想要准确预测分子性质,第一步就是拿到合理的 3D 构象。但分子越大、可旋转单键越多,构象空间就越恐怖。


传统的分子动力学、元动力学虽然精度高,但对大分子做全空间搜索成本极高,很难把低能构象找全。而基于经验规则的快速工具,虽然快,却常常局限在局部构象区间,覆盖不够全面,也容易出现不合理的键长、键角和原子碰撞。


近几年火起来的扩散模型,给分子生成带来新希望,但多数模型都是纯数据驱动,缺少化学规律约束,很容易生成不符合化学常识的结构,而且必须用大量大分子数据训练,对没多少数据的新分子根本不友好。


科研界一直想要一个两全其美的方案:够快、够准、够化学合理,还不用啃大分子数据集。


StoL 的出现,正好补上了这块缺口。


  二、StoL:用 “小分子碎片” 拼出 “大分子构象”


StoL 的全称是 Small-to-Large,核心逻辑非常直观:不直接生成大分子,而是拆成碎片生成,再拼回去。


2.1 整体流程:拆解 — 生成 — 组装三步法


整个流程像极了用乐高搭模型,清晰又好理解:


片段拆解:把目标分子按化学规则切成合理小碎片,只切环外单键,保证每块碎片化学上合法。


碎片生成:用训练好的扩散模型,给每块碎片生成一批高质量 3D 构象。


全局组装:按重叠区对齐,把碎片一块块拼回完整分子,再做化学校验,去掉不合理结构。


最惊艳的是,StoL全程不用任何大分子结构训练,只需要小分子碎片数据,就能轻松扩展到大分子,可迁移性极强。


2.2 化学增强扩散模型:让 AI 懂化学常识


普通扩散模型只学数据,StoL 则把化学规则 “焊” 进模型里,训练分两步:


1.先做常规数据驱动训练,搭好分子骨架;


2.再进入化学增强阶段,处理对称、原子匹配、芳香环平面性。


它用 Sinkhorn 算法处理原子等价性,用 Gumbel-softmax 稳定原子序,还专门加平面性约束,不让芳香环歪掉。这样训练出来的模型,收敛更快、结构更合理,不会出现物理上荒唐的构象。



图1 化学增强扩散模型训练与结构验证流程


2.3 组装与过滤:只保留化学合法结构


拼碎片不是硬凑,而是通过共享原子区域精确对齐,只保留 RMSD 足够小的组合。组装完成后,还会做一套完整化学检查:键长、键角、连通性、原子冲突、分子式一致性……


层层过滤后,输出的构象直接可用,不用再手工修结构。



图2 StoL 框架:从 SMILES 输入到 3D 分子构象的全流程


  三、真实效果:药物分子测试完胜传统工具


研究团队选择了抗癌药物伏立诺他(Vorinostat) 做典型演示,这分子长且柔性高,是公认的构象生成难题。


StoL 先把它切成三块,分别生成碎片构象,再组装成完整分子。结果显示,StoL 生成的构象在空间里分布更广、更均匀,而传统工具 RDKit 只集中在一小块区域。




图3 药物分子 Vorinostat 构象生成与能量优化对比


经过 DFT 量子化学优化后,对比更加明显:


1.StoL 能覆盖 RDKit 找到的所有构象,还能找到更多新构象;


2.找到的最低能构象,比传统方法低出1.88 kcal/mol;


3.构象能量区间更宽,更接近真实势能面分布。


在包含 200 个类药分子的 StoL25-init 测试集上,StoL 同样表现稳定:


超过一半分子的玻尔兹曼加权 RMSD 低于 1 Å,整体几何精度极高;65% 的分子能找到比传统方法更低的能量构象,真正做到 “构象找得全、低能找得准”。


  四、碎片策略重新定义分子构象生成


StoL 最核心的突破,是用 “从小到大” 的片段化思路,绕开了大分子生成最头疼的数据瓶颈。它不再需要庞大的大分子训练集,只依靠小分子片段数据,就能实现高质量、高覆盖的构象生成,让大体系分子模拟不再被算力和数据卡脖子。


将化学先验嵌入扩散模型的训练与组装全过程,不仅让结构更合理、训练更稳定,也让整个流程端到端、不依赖外部软件,简单易用。这种 “物理规则 + AI 生成” 的模式,为下一代分子生成模型提供了可复制的范式。


相比于传统方法,StoL 在构象覆盖度、结构合理性、低能构象搜索能力上全面占优,尤其适合柔性药物分子、环境污染物、有机催化中间体等缺乏高质量构象的体系。


  五、总结


分子越大,构象越难算,这是计算化学持续多年的痛点。StoL 用 “拆解 — 生成 — 组装” 的 LEGO 式策略,配合化学增强扩散模型,给出了一套轻巧却强大的解决方案。它只学小分子,就能做大分子;只输 SMILES,就能出一整套合理 3D 构象;比传统工具覆盖更广,比纯数据 AI 更化学可信,还能稳定找到能量更低的优势构象。从药物筛选、分子模拟到催化设计,StoL 都能快速提供高质量初始构象,把过去要算几天的构象搜索,压缩到小时甚至分钟级。


这是一次真正 “又快又好又省” 的突破,让大分子 3D 构象生成,从此走出算力与精度的两难困境。




论文链接:https://arxiv.org/abs/2511.12182v1

91
1
0
0
关于作者
相关文章
  • ICLR 2025|DrugFlow:多域分布学习引领SBDD生成模型新范式 ...
    说实话,现在的3D分子生成领域简直卷出天际。Diffusion已经被大家玩烂了,Flow Matching也渐渐让 ...
    了解详情 
  • 大语言模型从头造适配体:InstructNA 让功能核酸设计告别盲目筛 ...
    本文解读Nature Computational Science 2026的研究《 De novo design of functional nucleic aci ...
    了解详情 
  • 基于多任务变分自编码器的晶格超材料力学性能逆向设计方法 ...
    本文解读 International Journal of Mechanical Sciences 2025 年论文《Generative inverse desi ...
    了解详情 
  • AI 扩散模型重塑非晶材料研究——千倍提速,精准重构无序原子世 ...
    本文解读 npj Computational Materials 期刊论文《A generative diffusion model for amorphous ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas