Nat Mach Intell｜CoCoGraph：在化学约束空间内学习真实分子分布的新型图扩散模型

Jack小新 · 发表于 1783074394

本帖最后由 Jack小新于 2026-7-3 19:06 编辑

2026年5月4日，西班牙罗维拉-威尔吉利大学研究团队在《Nature Machine Intelligence》发表论文，题为“A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules”。研究提出一种协同约束图扩散模型CoCoGraph，通过在分子生成过程中直接嵌入化学价键约束，并引入扩散模型与时间模型的协同机制，实现了100%化学有效分子的生成，在GuacaMol基准测试、36项化学性质分布评估、专家类图灵测试以及基于片段补全的条件生成任务中均展现出较强的真实性、效率和应用潜力

背景

新分子的发现与设计是药物研发、先进材料、绿色制冷剂、未知代谢物识别以及靶点结合分子发现等领域的核心问题。然而，类药分子空间规模可达约10的60次方量级，分子发现因此成为一个高维、复杂且难以穷尽搜索的问题。传统分子生成方法多依赖规则模型与优化策略，通常更擅长对既有分子进行局部修饰，而非真正生成全新结构。随着深度学习发展，变分自编码器、生成对抗网络、图神经网络以及扩散模型陆续被用于分子生成，但分子有效性、化学约束、计算效率、分布真实性和泛化能力仍然是关键瓶颈。尤其对于药物发现而言，一个生成模型不仅要能画出合法结构，还要使生成分子的物化性质、拓扑结构和类药特征接近真实化学空间，同时能够探索训练集中未见过的新分子。

方法

CoCoGraph的核心思想不是让模型从数据中学习化学价键规则，而是把规则直接写入扩散过程。普通图扩散模型通常通过向分子图逐步添加噪声，再学习反向去噪过程来生成新分子；CoCoGraph进一步将每一步噪声化和去噪操作限制在固定节点与固定度序列之内，即保持原子种类、分子式、原子数、键数以及每个原子的价键数不变。模型采用“双边交换”（DES）作为基本操作：随机选择分子中的两条化学键AB和CD，将其移除后重新形成AC和BD。由于每个参与原子失去一条键又获得一条键，因此价键数天然保持不变，分子图始终处在化学有效空间中。

这一设计带来四个直接影响，即不满足价键约束的无效分子不会被生成；分子结构搜索空间被显著压缩；模型无需耗费参数去学习基础化学规则；神经网络容量可以集中用于学习真实分子中更细微的结构模式。CoCoGraph由两个模型协同工作，扩散模型负责预测每一步去噪过程中应当反转哪一次双边交换，输入包括分子图特征、边特征、图级特征和扩散时间；时间模型负责估计当前分子图距离真实分子还有多远，输出归一化时间，用于替代单纯的扩散步数。由于不同分子在随机化过程中的进展速度并不一致，固定时间步并不能准确反映结构状态，时间模型相当于为扩散模型提供了当前位置感，使采样过程更符合真实去噪轨迹。最终生成分子时，模型并不简单选择最后一步结构，而是在整个轨迹中选择预测时间最短、最接近真实分子状态的结构。

图1 约束协同图扩散模型CoCoGraph

结果

CoCoGraph在标准基准上优于现有分子生成模型

在GuacaMol基准测试中，CoCoGraph与JTVAE、DiGress、GDSS、GruM以及DeFoG等模型进行比较。为保证不同训练集之间的公平性，评估使用经过处理的PubChem参考数据库，筛选出不超过70个原子且不与任何训练集重叠的9440万余个分子。CoCoGraph设置了两个版本：BASE版本总参数量约53.4万，其中扩散模型约47.1万、时间模型约6.3万；加入分子指纹特征的FPS版本约440万参数，仍低于多数对照模型。

表1 基于PubChem数据库评估的GuacaMol基准测试模型比较

结果显示，CoCoGraph两个版本均达到100%化学有效性。BASE版本有效且唯一分子比例为99.8%，FPS版本为99.9%，二者新颖性均达到95.7%，说明价键约束并未明显限制化学空间探索。更关键的是，CoCoGraph在物化性质分布匹配上表现突出。GuacaMol通过10项物化性质的KL散度评估生成分子与真实分子的分布接近程度，CoCoGraph BASE和FPS版本分别获得95.7%和96.3%的KL散度得分，优于所有比较模型。去除时间模型后的FPS版本得分下降至94.4%，表明协同时间模型确实提升了分布学习质量。

从具体性质来看，CoCoGraph FPS在分子量、内部分子相似性、Bertz复杂度指数、芳香环数量等分布上最接近PubChem真实分子；在logP分布上优于JTVAE和DiGress，但略低于DeFoG；在氢键供体数量上则不如部分基线模型。总体而言，CoCoGraph FPS相较JTVAE和DiGress在10项性质中的8项更优，相较DeFoG严格与宽松版本在10项性质中的6项更优。计算效率方面，CoCoGraph BASE和FPS分别达到每秒生成1.19和0.98个分子，虽慢于GDSS，但在性质分布真实性上明显优于GDSS，形成了质量与效率之间更好的平衡。

图2 CoCoGraph FPS在GuacaMol基准性质上的性能比较

CoCoGraph生成分子在更广泛化学性质上具有真实性

标准基准通常只覆盖有限数量的物化指标，且一旦成为常用评估工具，也可能被模型开发过程过拟合。为更全面检验CoCoGraph生成分子的化学真实性，研究进一步扩展到36项化学性质，包括分子大小与组成、拓扑特征、电子性质和类药性指标等。为降低人为选择偏差，研究使用外部模型OpenAI O1-mini辅助选择一组可由RDKit计算且具有代表性的分子描述符，然后通过Jensen–Shannon距离比较生成分子与PubChem参考分子的性质分布。

图3 CoCoGraph FPS在36项化学性质子集上的详细性能比较

在36项性质的综合比较中，CoCoGraph在至少66.6%的性质上优于其他基线模型。其优势尤其体现在拓扑特征、电子性质和结构描述符上，例如Balaban’s J指数、价电子数、最大绝对部分电荷、重原子数、环数以及拓扑极性表面积TPSA等。这些指标与药物化学中的可合成性、结构复杂度、相互作用潜力和类药空间覆盖密切相关。CoCoGraph也存在不足，例如在定量类药性估计指标上不如除JTVAE之外的部分模型，在N–H/OH计数上也低于所有基线模型。这说明约束生成并非在每一项性质上都占优，但从整体分布真实性看，CoCoGraph更接近已知化学空间的统计结构。

合成分子大型数据库

由于参数量较小、采样效率较高，CoCoGraph可以在较普通的计算资源上进行大规模生成。研究构建了一个包含820万个合成分子的数据库，冗余率仅7.1%。结合95.7%的新颖性估计，该数据库约包含730万个PubChem中不存在的新颖、唯一且化学有效的分子。这一资源不仅可以用于类药化学空间探索，也可为材料科学、分子筛选和候选结构生成提供候选库。

图4 类图灵测试中的表现

为了评估这些合成分子在化学专家眼中是否像真实分子，研究设计了分子类图灵测试。专家每轮看到一对分子，二者具有相同分子式，其中一个来自真实数据集，另一个由CoCoGraph生成，参与者需要判断哪一个是真实分子。共有121名具有有机化学、生物化学及相关背景的专家参与，完成2420次分子对判断。总体准确率为62%，显著高于随机猜测的50%，但距离完全可靠区分仍较近。按教育程度划分，本科层级参与者准确率约60%，研究生及以上参与者约64%。对于无环分子和以脂肪族结构为主的分子，专家判断结果与随机猜测相容，说明在部分结构类型中，生成分子与真实分子的视觉和化学合理性非常接近。

这一测试同时揭示了CoCoGraph的潜在偏差。较大的合成分子更容易被识别，提示分子复杂度上升后生成难度增加；不同官能团和构象柔性并未呈现特别清晰的系统性偏差。整体来看，模型生成结构并不是依靠某类容易被识别的固定模式，而是在较大程度上捕捉到了真实分子的结构关系与化学模式。

通过数据库搜索和基于补全的条件生成应用于药物发现

在药物发现应用展示中，研究以对乙酰氨基酚为参照，首先从820万个合成分子数据库中寻找性质相似候选物。研究选取9项关键分子性质，并在归一化后的性质空间中计算候选分子与对乙酰氨基酚之间的欧氏距离。排名靠前的6个候选分子在结构上具有多样性，同时保持了与对乙酰氨基酚相近的性质轮廓，说明该数据库可作为性质相似分子检索和先导结构发现的候选来源。

研究进一步展示了CoCoGraph的条件生成能力，即基于分子补全的定向设计。具体做法是固定原始分子核心结构，例如对乙酰氨基酚，再连接一个具有任意分子式的随机片段。采样过程中，CoCoGraph只对新增片段进行去噪生成，原始分子骨架保持不变。该方法分别添加2–5个重原子的小片段和6–15个重原子的中等片段，并根据与对乙酰氨基酚的性质距离排序候选物。结果显示，模型可以在保留核心结构的同时探索不同片段增长方案，适用于先导化合物优化中常见的骨架保留、片段延伸和局部替换场景。

讨论

CoCoGraph的意义在于把分子生成模型从学习化学规则推进到在规则空间内学习真实结构分布。许多生成模型需要通过大量参数从训练数据中归纳价键规则、有效性和分布模式，因此容易出现无效结构、搜索空间过大或性质分布偏移。CoCoGraph通过双边交换机制将价键约束直接嵌入扩散过程，使模型从一开始就在化学有效空间中运行，这不仅提升有效性，也降低了模型复杂度。扩散模型与时间模型的协同则进一步解决了不同分子随机化速度不一致的问题，使模型根据当前结构状态而非机械时间步调整去噪策略。

模型仍存在边界条件。固定分子式的设计适合已知分子组成或可被分子式约束的问题，但在分子式未知的场景下，需要先生成或枚举合理分子式，再由CoCoGraph生成对应结构。当前实验限制在不超过70个原子的分子上，主要出于计算和公平评估考虑，并非原理上的限制；由于双边交换候选组合复杂度较高，面向更大分子时需要重新训练并投入更多计算资源。未来方向包括提升模型可解释性，理解其如何探索化学空间；利用820万合成分子数据库寻找潜在功能；扩展至按目标性质条件生成；结合质谱数据解决从MS/MS谱图到分子结构重建的反问题；以及在药物优化中更系统地支持片段增长、片段替换和骨架保留式设计。

参考链接：https://doi.org/10.1038/s42256-026-01229-5