本帖最后由 Akkio 于 2026-6-17 16:22 编辑
针对现有分子优化方法多聚焦于孤立地最大化预测分数,而忽视候选分子在实际药物研发中所需的结构可达性与可解释性问题,埃默里大学与默沙东联合提出了一种名为 MOLWORLD 的分子世界模型引导框架。该研究将可操作分子优化形式化为分子转移图的序贯扩展过程,其中节点代表分子,边编码有效的局部结构转化。MOLWORLD 摒弃了传统的孤立生成范式,转而通过迭代选择局部锚定上下文、条件生成候选分子、评估性质并预测新分子与现有图谱的连接,实现对化学空间的渐进式探索。实验结果表明,MOLWORLD 在 QED、DRD2、GSK3β 及对接任务中,不仅能发现具有竞争性高分性质的分子,更在结构连通性上显著优于基线方法——其生成分子几乎无孤立节点,且平均分子转移度大幅提升,确保了候选分子可通过连续的有效局部结构转化从已知系列到达。这一工作证明,显式建模分子转移结构能够将分子优化从单纯的分数驱动提升至符合实际先导优化流程的可操作层面,为药物化学中的系列设计提供了更具落地潜力的技术路径。
背景
分子优化在药物发现中旨在发现具有更优目标性质的分子,例如活性、选择性、对接亲和力或类药性。近年机器学习方法通过 de novo 分子生成或从现有分子出发的性质引导优化取得了明显进展,但实际先导优化往往要求候选分子不仅能获得高预测分数,还应当是可操作的(actionable)——即能从已知分子经有效局部结构转化到达,从而可被解释为演化中化学系列的 plausible revision。
现有 de novo 和单分子优化方法未显式建模此种可达性,尤其当目标分子及连接它与已知化合物的中间分子均未知时。本文据此将可操作分子优化形式化为:给定一组相关初始分子,在发现强性质分子的同时确保它们可从初始集合经有效局部结构转化到达。新分子一旦生成并连入当前系列,即成为后续设计可用的分子世界的一部分,因此优化是对结构化分子世界的迭代扩展过程,而非一次性孤立生成。
图1 分子转移图扩展
方法
基于上述动机,作者提出 MOLWORLD。该框架在每轮从当前分子转移图中选择局部锚定上下文,基于上下文生成候选,评价性质,并预测新分子如何与现有图相连。具体而言,MOLWORLD 将分子生成看作闭环图扩展过程。它不独立生成分子,而是维护一个不断演化的分子转移图,并用新生成分子反复扩展该图。这样,搜索空间能够逐步增长,同时生成分子仍通过有效局部转化与初始分子系列保持连接。
文章贡献包括:提出可达性感知的可操作分子优化问题;引入分子转移图来表示演化化学系列;提出包含上下文生成器与分子世界模型的 MOLWORLD;并证明该方法在保持结构连通性的同时实现竞争性性质优化。
图2 MOLWORLD框架图
结果
上下文生成器和分子世界模型在 ChEMBL 上预训练以学习局部分子转化模式。评估数据集为 ZINC250 和 PMV21,使用 MMPDB 构建分子转移图(节点为分子,边为有效局部结构转化)。
性质优化任务遵循 PMO benchmark,包括 QED 类药性及 DRD2、GSK3β、JNK3 三个生物活性相关任务,Oracle 预算分别为 10,000 次与 1,000 次。对照方法含 GraphGA、REINVENT、Augmented Memory、GP-BO 和 MOLLEO。评价指标为可达生成分子的 top-k oracle 分数曲线下面积 AUC@k,以及孤立节点比例与平均转移度以衡量图内可操作连通性。
MOLWORLD 在 ZINC250 和 PMV21 上整体表现最强,多数任务获最佳或高度竞争的 AUC;更重要的是结构连通性显著优于基线——孤立节点比例接近零,平均转移度明显更高,表明生成分子通过有效局部转化更好地整合进分子转移图。
基于对接的优化任务使用 TDC 中 DRD3、EGFR 和 Adenosine A2A receptor(对应 PDB ID 3PBL、2RGP、3EML),docking oracle 由 PyScreener AutoDock Vina 后端实现。MOLWORLD 在 -6 与 -8 两个阈值下均获最高 docking 成功比例,同时保持最高非孤立比例与更大平均转移度,说明高质量分子兼具更优预测结合能力与结构可达性。
分数分布与优化动态分析显示,固定 oracle 预算下 MOLWORLD 将生成分子分布推向更高分区域并形成更强高分尾部。消融实验分别替换锚定上下文选择、上下文生成器及世界模型式图演化,完整 MOLWORLD 始终产生更集中于高分区域的分布,各组件均有贡献。可视化显示早期分子主要与初始分子重叠(模型先在起点图附近搜索),随优化进行逐渐扩展至新化学空间区域,oracle 分数随生成顺序提高,体现出多步局部结构编辑的可操作特征。
表1 ZINC250与PMV21的性质优化平均结果
理解 MOLWORLD
分数分布与优化动态分析表明,在固定 oracle 预算下,MOLWORLD 在四个 PMV21 任务上都把生成分子分布推向更高分区域,并形成更强的高分尾部。这种分布视角补充了 top-k AUC,因为它反映的不只是少数最佳样本,而是整个生成集合的质量。
消融实验分别替换锚定上下文选择、上下文生成器以及世界模型式图演化。结果显示,完整 MOLWORLD 始终产生更集中于高分区域的分布,而各消融版本都向低分区域移动,说明三个组成部分均有贡献。
图3 MOLWORLD的消融分布和顺序优化案例
作者还可视化了 GSK3β 任务上的生成分子探索。早期分子主要与初始分子重叠,说明模型先在起点图附近搜索;随着优化进行,生成分子逐渐扩展到新的化学空间区域,oracle 分数也随生成顺序提高。定性案例进一步展示了 QED 任务中从初始分子经多步局部结构编辑逐步到达高 QED 分子的路径,体现了该方法可操作特征。
图4 GSK3β上的分子分布与分数进展
结论
本文提出 MOLWORLD,一个用于可操作分子优化的分子世界模型引导框架。通过把化学系列表示为演化分子转移图,MOLWORLD 不仅优化目标性质值,还优化通过有效局部结构转化实现的可达性。框架迭代地选择局部锚定上下文、生成候选、评价性质,并预测新分子如何连接回当前图,从而支持分子世界的序贯扩展。实验表明,MOLWORLD 能发现竞争性高分分子,同时比现有方法保持更强结构连通性。这说明显式建模分子转移结构能够使分子优化更可操作,并更符合实际先导优化流程。
MOLWORLD 使用匹配分子对可达性作为可操作先导优化的结构代理。它可以描述生成分子是否能通过局部结构转化连接到演化类似物系列图,但并不能保证逆合成可达性、商业可得性或实验可行性。未来工作应整合逆合成感知约束、不确定性感知图演化以及前瞻性实验验证。
参考链接:https://doi.org/10.48550/arXiv.2605.08954
原文地址:https://mp.weixin.qq.com/s/n5OV1h2emWxEgjjy2zTtMw
|