本帖最后由 离子 于 2025-12-1 22:57 编辑
2025年发表于 Nature Computational Science 的研究《 Periodicity-aware deeplearning for polymers 》,提出聚合物周期性感知深度学习框架PerioGT,解决现有模型忽视聚合物周期性、泛化能力弱的问题。该框架以化学知识构建周期性先验,通过对比学习预训练整合特征,微调阶段引入周期提示,并借虚拟节点图增强策略建模复杂相互作用。PerioGT在16个下游任务中表现领先,虚拟筛选抗菌聚合物的实验成功率达83%,成功发现两种对MRSA强抗菌活性(MIC=8 μg/mL)的新聚合物。研究证实,引入周期性先验可显著提升模型性能,为聚合物建模提供统一高效方案。

深度学习已经在化学研究中展现出巨大的影响力,能够加速对复杂化学体系的发现与理解。然而,由于聚合物结构高度复杂,聚合物化学尚缺乏统一的深度学习框架。现有的自监督学习方法通常将聚合物简化为重复单元,忽视其固有的周期性特征,从而限制模型在任务间的泛化能力。
为了解决这一问题,研究人员提出了一种面向聚合物的周期性感知深度学习框架——PerioGT。在预训练阶段,研究人员构建了基于化学知识的周期性先验,并通过对比学习将其整合进模型;在微调阶段,引入基于该先验的周期性提示。同时,研究人员构建了图增强策略,通过虚拟节点的方式融入额外条件,以建模复杂化学相互作用。PerioGT 在 16 个下游任务中取得了领先性能。实验验证还表明,PerioGT 成功发现了两个具有强抗菌能力的聚合物,展示了其潜在的实际应用价值。结果表明,在模型中引入周期性先验能够显著增强性能。
深度学习因其建模复杂化学数据关系的能力,已经对化学研究产生深刻变革。在生物化学、有机化学和无机化学等多个子领域中,深度学习方法取得了突破。然而,作为化学领域最活跃的方向之一,聚合物科学却因体系复杂性而面临数据驱动研究的瓶颈。
聚合物由数量不等的重复单元通过共价键连接而成,具有不同于小分子的独特物化性质。除了重复单元结构本身,聚合物的性质还受到聚合度、分子量分布、交联程度和共聚结构等多种因素调控。这种复杂性使得聚合物设计空间巨大,但也极大增加了建模难度。
以往的聚合物建模研究主要聚焦于构建有效的表示方法,包括手工特征、分子指纹、独热编码、Polymer Genome、SMILES 表示、二进制矩阵、图表示等,但这些方法存在诸多限制,难以全面捕捉聚合物的拓扑复杂性。
自监督学习的兴起,为克服聚合物标注数据稀缺这一关键问题提供了机会。然而,现有 SSL 模型往往将聚合物视作小分子的 SMILES 序列,完全忽略其周期性结构,这是聚合物区别于小分子的根本特征,导致模型难以学习到真实的结构不变性。
此外,仅依赖重复单元结构不足以描述许多任务中的聚合物行为,因为其性质常受到多种附加条件的影响(如分子量、共聚比例等)。因此,聚合物建模亟需一个能够显式表示周期性并整合附加条件的统一深度学习框架。
基于上述挑战,研究人员提出 PerioGT 框架,其核心贡献包括:
· 构建基于化学知识的周期性增强模块(PA)作为周期先验。
· 引入周期性感知的对比学习预训练策略。
· 提出周期提示引导的微调策略(PGFT)。
· 设计可扩展的聚合物图(PolymerGraph),显式建模化学结构与附加条件的关系。
· 在抗菌聚合物筛选中成功验证模型的实际应用潜力。
方法
在 PerioGT 中,研究人员首先将聚合物的重复单元转化为图结构,并引入虚拟节点以整合附加条件。随后,采用基于周期性的采样策略(PA),从同一聚合物中采样不同等效片段作为正样本;并对节点和虚拟节点引入随机掩蔽,以提升模型鲁棒性。
预训练包括两个任务:
· 周期性对比学习(PACL):最大化同一聚合物不同片段的表示一致性。
· 掩蔽节点建模(MNM):恢复被掩蔽的节点特征。
微调阶段,引入周期性提示(PGFT),整合基于 PA 获得的等效结构信息,以增强模型对聚合物周期结构的理解。
结果
模型整体概述
PerioGT 的核心在于通过 PA 生成同一聚合物的结构等效片段,并通过对比学习强化模型对周期性的感知。相比传统 SSL 仅依赖局部化的掩蔽语言建模,PA-based 对比学习能够有效提升模型的全局结构理解。在多个任务中,PerioGT 均展现出优于现有 SSL 方法的性能。

聚合物性质预测
研究人员在十个大规模回归任务中系统评估模型。结果显示:
· PerioGT 在所有任务上均取得最佳表现。
· 基于小分子设计的模型(如 GNN、Transformer)在聚合物数据上表现不佳。
· 传统随机森林使用手工特征,也难以接近专门为聚合物设计的深度模型性能。
这说明结合周期性先验的 PerioGT 具备显著优势。
含附加条件的复杂任务
在涉及共聚物(如随机、嵌段、交替结构)或包含额外信息(如组成比例、分子量)的数据集中,PerioGT 再次取得最优性能。PolymerGraph 中的虚拟节点机制,使模型能够灵活整合不同类型的非结构条件。
即使是具有较强非线性或结构多样性的任务(如导电性预测、光伏效率预测),PerioGT 仍展现出优秀的泛化能力。
周期性感知能力分析
研究人员从两个层面进行分析:
1. PA 级别相似性
· PerioGT 能够稳定识别来自同一聚合物的不同增强片段,相似度显著高于 baseline。
· 聚类质量高(DB 指数最低)。
· KNN 分类准确率超过 80%,远高于其他 SSL 模型(<40%)。
· 当片段长度远超训练时的 MRU 数量时,PerioGT 仍保持高稳定性,说明其周期性建模具有良好泛化性。

2. 实例级别相似性
· 在结构极为相似的聚合物对中,PerioGT 能够将其嵌入到邻近位置,而 baseline 出现明显错分。
· 在随机替换原子后,PerioGT 保持最高相似度,表明其能有效捕捉决定性结构特征,而不被 MRU 大小或微小扰动误导。

潜在空间质量分析
优秀的潜在表征需兼具对齐性(alignment)与均匀性(uniformity)。
1. 属性对齐
· PerioGT 的表示与玻璃化转变温度、熔融温度、密度等关键属性的互信息最高。
· 在 KNN 回归中,PerioGT 表示显著优于 baseline,说明其表征能够高效反映与性质相关的物理化学因素。
2. 结构对齐
· PerioGT 在 Murcko scaffold 层面的聚类效果最佳(DB 指数最低)。
· 说明其能够捕捉重复单元的核心结构特征。
3. 均匀性
· 在多个任务中,PerioGT 的潜在表征分布最接近均匀分布(Watson U² 最低)。
· 这意味着模型能更充分利用潜在空间,提高任务迁移能力。

消融实验
研究人员验证了框架中各组件的重要性:
· 移除 PA 或对比学习后性能明显下降,证明周期性先验是关键组件。
· 虚拟节点、掩蔽建模、提示机制均对性能有所贡献。
· 线性探针结果进一步说明 PerioGT 表征质量较高。
抗菌聚合物发现案例
为验证实际应用价值,研究人员构建了包含 624 种候选聚合物的组合化库:
· 使用 PerioGT 进行虚拟筛选
· 实验验证排名前 30 个候选物
结果:
· PerioGT 的实验成功率高达 83%(25/30)
· 远优于其他 SSL 模型(57%、20%)
其中两种新聚合物表现出对 MRSA 的强抗菌活性(MIC = 8 μg/mL),并展现出破坏细胞膜的机制。
这展示了 PerioGT 在化学材料发现中的实际潜力。
讨论
构建面向聚合物的深度学习模型极具挑战,而 PerioGT 的关键贡献在于成功引入“周期性”这一聚合物结构的基本特征,使模型能够学习到更稳健、更具泛化性的结构表示。
作为自监督框架,PerioGT 通过周期增强、对比学习和掩蔽策略,有效捕捉结构语义,使模型在数据稀缺的情况下仍具有强大性能。
研究人员指出:
· 周期性对比学习并非强制所有等效重复单元完全一致,而是让模型学习到结构不变的语义特征,比依赖规则的规范化方法更加灵活。
· 随机共聚物虽然无严格周期性,但其局部结构仍具有规律性,因此模型依然能够受益。
· 未来可进一步扩展到更复杂的拓扑结构,如支化、交联聚合物。
· 当前框架可结合可解释性模块,以揭示聚合物性质的结构来源。
总的来说,PerioGT 为聚合物深度建模提供了可扩展、统一且性能卓越的基础。
整理 | DrugOne团队
参考资料
Wu, Y., Wang, C., Shen, X. et al. Periodicity-aware deep learning for polymers. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00903-9
文章改编转载自微信公众号:DrugAI
原文链接:https://mp.weixin.qq.com/s/g8ML72m_0Yqw-6fIVaTXFw?scene=1 |