MOLWORLD:面向药物设计的分子世界模型与可达性感知分子优化技术

Akkio
2026-06-17 16:15:24
化学科学
量子信息
论文精读与讲座笔记
本帖最后由 Akkio 于 2026-6-17 16:22 编辑


针对现有分子优化方法多聚焦于孤立地最大化预测分数,而忽视候选分子在实际药物研发中所需的结构可达性与可解释性问题,埃默里大学与默沙东联合提出了一种名为 MOLWORLD​ 的分子世界模型引导框架。该研究将可操作分子优化形式化为分子转移图的序贯扩展过程,其中节点代表分子,边编码有效的局部结构转化。MOLWORLD 摒弃了传统的孤立生成范式,转而通过迭代选择局部锚定上下文、条件生成候选分子、评估性质并预测新分子与现有图谱的连接,实现对化学空间的渐进式探索。实验结果表明,MOLWORLD 在 QED、DRD2、GSK3β 及对接任务中,不仅能发现具有竞争性高分性质的分子,更在结构连通性上显著优于基线方法——其生成分子几乎无孤立节点,且平均分子转移度大幅提升,确保了候选分子可通过连续的有效局部结构转化从已知系列到达。这一工作证明,显式建模分子转移结构能够将分子优化从单纯的分数驱动提升至符合实际先导优化流程的可操作层面,为药物化学中的系列设计提供了更具落地潜力的技术路径。



背景


分子优化在药物发现中旨在发现具有更优目标性质的分子,例如活性、选择性、对接亲和力或类药性。近年机器学习方法通过 de novo 分子生成或从现有分子出发的性质引导优化取得了明显进展,但实际先导优化往往要求候选分子不仅能获得高预测分数,还应当是可操作的(actionable)——即能从已知分子经有效局部结构转化到达,从而可被解释为演化中化学系列的 plausible revision。

现有 de novo 和单分子优化方法未显式建模此种可达性,尤其当目标分子及连接它与已知化合物的中间分子均未知时。本文据此将可操作分子优化形式化为:给定一组相关初始分子,在发现强性质分子的同时确保它们可从初始集合经有效局部结构转化到达。新分子一旦生成并连入当前系列,即成为后续设计可用的分子世界的一部分,因此优化是对结构化分子世界的迭代扩展过程,而非一次性孤立生成。

 



 

图1 分子转移图扩展

方法


基于上述动机,作者提出 MOLWORLD。该框架在每轮从当前分子转移图中选择局部锚定上下文,基于上下文生成候选,评价性质,并预测新分子如何与现有图相连。具体而言,MOLWORLD 将分子生成看作闭环图扩展过程。它不独立生成分子,而是维护一个不断演化的分子转移图,并用新生成分子反复扩展该图。这样,搜索空间能够逐步增长,同时生成分子仍通过有效局部转化与初始分子系列保持连接。

文章贡献包括:提出可达性感知的可操作分子优化问题;引入分子转移图来表示演化化学系列;提出包含上下文生成器与分子世界模型的 MOLWORLD;并证明该方法在保持结构连通性的同时实现竞争性性质优化。


 

图2 MOLWORLD框架图

结果


上下文生成器和分子世界模型在 ChEMBL 上预训练以学习局部分子转化模式。评估数据集为 ZINC250 和 PMV21,使用 MMPDB 构建分子转移图(节点为分子,边为有效局部结构转化)。

性质优化任务遵循 PMO benchmark,包括 QED 类药性及 DRD2、GSK3β、JNK3 三个生物活性相关任务,Oracle 预算分别为 10,000 次与 1,000 次。对照方法含 GraphGA、REINVENT、Augmented Memory、GP-BO 和 MOLLEO。评价指标为可达生成分子的 top-k oracle 分数曲线下面积 AUC@k,以及孤立节点比例与平均转移度以衡量图内可操作连通性。

MOLWORLD 在 ZINC250 和 PMV21 上整体表现最强,多数任务获最佳或高度竞争的 AUC;更重要的是结构连通性显著优于基线——孤立节点比例接近零,平均转移度明显更高,表明生成分子通过有效局部转化更好地整合进分子转移图。

基于对接的优化任务使用 TDC 中 DRD3、EGFR 和 Adenosine A2A receptor(对应 PDB ID 3PBL、2RGP、3EML),docking oracle 由 PyScreener AutoDock Vina 后端实现。MOLWORLD 在 -6 与 -8 两个阈值下均获最高 docking 成功比例,同时保持最高非孤立比例与更大平均转移度,说明高质量分子兼具更优预测结合能力与结构可达性。

分数分布与优化动态分析显示,固定 oracle 预算下 MOLWORLD 将生成分子分布推向更高分区域并形成更强高分尾部。消融实验分别替换锚定上下文选择、上下文生成器及世界模型式图演化,完整 MOLWORLD 始终产生更集中于高分区域的分布,各组件均有贡献。可视化显示早期分子主要与初始分子重叠(模型先在起点图附近搜索),随优化进行逐渐扩展至新化学空间区域,oracle 分数随生成顺序提高,体现出多步局部结构编辑的可操作特征。


表1 ZINC250与PMV21的性质优化平均结果



理解 MOLWORLD


分数分布与优化动态分析表明,在固定 oracle 预算下,MOLWORLD 在四个 PMV21 任务上都把生成分子分布推向更高分区域,并形成更强的高分尾部。这种分布视角补充了 top-k AUC,因为它反映的不只是少数最佳样本,而是整个生成集合的质量。

消融实验分别替换锚定上下文选择、上下文生成器以及世界模型式图演化。结果显示,完整 MOLWORLD 始终产生更集中于高分区域的分布,而各消融版本都向低分区域移动,说明三个组成部分均有贡献。


 

图3 MOLWORLD的消融分布和顺序优化案例


作者还可视化了 GSK3β 任务上的生成分子探索。早期分子主要与初始分子重叠,说明模型先在起点图附近搜索;随着优化进行,生成分子逐渐扩展到新的化学空间区域,oracle 分数也随生成顺序提高。定性案例进一步展示了 QED 任务中从初始分子经多步局部结构编辑逐步到达高 QED 分子的路径,体现了该方法可操作特征。


 

图4 GSK3β上的分子分布与分数进展


结论


本文提出 MOLWORLD,一个用于可操作分子优化的分子世界模型引导框架。通过把化学系列表示为演化分子转移图,MOLWORLD 不仅优化目标性质值,还优化通过有效局部结构转化实现的可达性。框架迭代地选择局部锚定上下文、生成候选、评价性质,并预测新分子如何连接回当前图,从而支持分子世界的序贯扩展。实验表明,MOLWORLD 能发现竞争性高分分子,同时比现有方法保持更强结构连通性。这说明显式建模分子转移结构能够使分子优化更可操作,并更符合实际先导优化流程。

MOLWORLD 使用匹配分子对可达性作为可操作先导优化的结构代理。它可以描述生成分子是否能通过局部结构转化连接到演化类似物系列图,但并不能保证逆合成可达性、商业可得性或实验可行性。未来工作应整合逆合成感知约束、不确定性感知图演化以及前瞻性实验验证。



参考链接:https://doi.org/10.48550/arXiv.2605.08954


原文地址:https://mp.weixin.qq.com/s/n5OV1h2emWxEgjjy2zTtMw



8
0
0
0
关于作者
相关文章
  • 专用量子计算与Madelung变换在流体力学纳维-斯托克斯方程模拟中 ...
    本文围绕湍流模拟长期受困于经典计算“非线性计算深渊”的瓶颈展开,针对经典计算流体 ...
    了解详情 
  • Adv. Mater.:AMDEN非晶材料逆向设计框架发布,基于扩散模型实现 ...
    针对晶体材料因缺乏长程有序结构导致逆向设计难度大的核心挑战,本文提出基于扩散模型的首个多元 ...
    了解详情 
  • CrysLDNet:面向晶体预测的VAE+潜在扩散自监督学习框架 ...
    原文地址:https://openreview.net/forum?id=l1H5bKhG5R  研究背景与科学问题晶体材料在能 ...
    了解详情 
  • AI 颠覆 PROTAC 研发:DeepDegradome 实现从蛋白结构直接从头设 ...
    本文解读发表于PNAS的重磅研究,该研究提出结构感知型深度学习框架 DeepDegradome,将片段药物发 ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas