JCTC | 基于潜在空间表征学习的聚合物多尺度模拟跨分辨率桥接方法

宇宙微尘 · 发表于 1778015654

研究背景与科学问题

聚合物的宏观性能由其微观结构决定，但交联拓扑、链构象等关键结构特征往往难以通过常规表征手段直接观测。经典分子动力学（MD）模拟虽已成为连接分子结构与力学行为的有效工具，但在时间和空间尺度上仍面临根本性瓶颈。粗粒化（CG）和联合原子（UA）模型通过降低物理保真度来缓解计算负担，却不可避免地丢失了化学细节和高频模式信息。更为棘手的是，从低保真度CG构型"反向映射"至高保真度UA构型在数学上是一个病态问题，计算代价高昂。

如何在不同分辨率之间高效、准确地转换，同时保留聚合物链的本质结构统计特征，是多尺度模拟领域亟待解决的核心挑战。本文提出了一种基于机器学习的潜在空间表征框架，通过线性奇异值分解（SVD）和非线性自编码器（AE）两种降维策略，在CG与UA尺度间建立紧凑且可映射的低维表征，实现了从CG到UA的"超分辨率"反向映射。

▲ Fig.1 | 不同精度尺度下聚合物构型经降维后投影至低维潜在表示空间的可视化。粗粒化（CG）和联合原子（UA）分辨率下的链构象分别采用线性（奇异值分解，SVD）和非线性（自编码器，AE）降维方法进行编码。所得潜在表示可在潜在空间中进行对齐，表明两种尺度共享结构信息，并由此建立了从粗粒化结构到联合原子结构的反向映射。

图1展示了该框架的整体思路：CG和UA尺度下的聚合物链构象分别通过SVD和AE编码至低维潜在空间，两个潜在空间之间存在近乎完美的线性映射关系，从而实现从CG结构到UA结构的重建。

模拟体系与方法设计

研究以聚二甲基硅氧烷（PDMS）为模型体系，分别在UA和CG两个保真度层级进行MD模拟。UA体系包含200条链（每链435个单体），CG体系包含800条链（每链200个珠子），生产运行均超过10⁸步以捕获长时动力学行为。

作者首先验证了两种分辨率模型在结构动力学上的一致性。通过对质心均方位移（MSD）进行归一化分析，发现CG与UA模型在亚扩散到扩散转变区间展现出几乎相同的函数形式，证实两者共享相同的结构松弛动力学。

▲ Fig.2 | 粗粒化（CG）和联合原子（UA）聚二甲基硅氧烷（PDMS）模型中聚合物质心的归一化均方位移（MSD）g3。CG——灰色实线，UA——蓝色虚线。时间以从弹道运动到亚扩散运动的交叉时间τ0进行归一化。(a) MSD g3以各模型特定的回转半径平方Rg²进行归一化。(b) MSD g3以τ0处的质心均方位移g3(τ0)进行归一化。后一种归一化方式突显了两种模型在结构弛豫方面几乎相同的函数形式。

图2对比了CG和UA模型的归一化MSD曲线。以交叉时间处的MSD值归一化后，两条曲线高度重合，表明尽管分辨率不同，聚合物链的结构松弛行为在统计意义上是等价的——这为跨尺度潜在空间映射提供了物理基础。

降维重建精度分析

框架的核心在于将高维聚合物构型压缩至低维潜在空间。作者系统比较了SVD（线性方法）和AE（非线性方法）在不同压缩比下的重建精度。

▲ Fig.3 | 重构精度随压缩比的变化关系。图中展示了聚合物链在粗粒化（上）和联合原子（下）分辨率下的代表性快照，其中蓝色为真实构型，橙色为奇异值分解（SVD）重构结果，红色为自编码器重构结果。压缩率定义为：压缩率(%) = (1 − r/3N) × 100%。在粗粒化尺度下，线性（SVD）和非线性（自编码器）降维方法可达到相当的重构精度，而在联合原子尺度下两者表现有所差异。

图3直观展示了不同压缩比下的链构型重建效果。在CG尺度，SVD和AE表现相当；而在UA尺度，AE在高压缩比区域展现出明显优势，能够捕获线性方法遗漏的非线性结构特征。

▲ Fig.4 | 重构误差随压缩比的变化关系。(a, c) 奇异值分解（SVD）重构（蓝色）、自编码器重构（红色）和Rouse基重构（橙色）的每原子坐标平均绝对误差（对所有链取平均），分别对应(a)粗粒化尺度和(c)联合原子尺度。(b, d) 关键链统计量的相对误差，包括端到端矢量模|R|和回转半径Rg，分别对应(b)粗粒化尺度和(d)联合原子尺度。

图4进一步量化了重建误差。在CG尺度下，仅需保留约10个模式（压缩率约98%）即可实现亚σ级别的逐原子重建精度，且端到端矢量和回转半径等关键链统计量的相对误差低于1%。UA尺度下所需模式数略多，但AE在高压缩区域的误差显著低于SVD和经典Rouse基。

数据驱动模式与Rouse模式的物理对应

一个重要发现是，SVD学习到的数据驱动模式与经典Rouse模式之间存在清晰的物理对应关系。

▲ Fig.5 | 粗粒化尺度下数据驱动的奇异值分解（SVD）模式与经典Rouse模式的比较。(a) 将第一个SVD模式表示为Rouse模式线性组合的投影系数，展示了模式之间的对应关系。(b) 全部SVD模式的投影系数，揭示其在Rouse基下的分解情况。(c) 各Rouse模式的自相关函数，展示其弛豫动力学特征。(d) 各SVD模式的自相关函数。

图5展示了SVD模式在Rouse基下的投影分析。第一个SVD模式几乎完全对应第一个Rouse模式，而后续SVD模式呈现出阶梯式衰减特征——这是因为每个Rouse矢量模式包含x、y、z三个分量，而SVD学习的是3N个独立标量模式，因此自然地将同一Rouse模式的三个空间分量聚类在一起。这一结果表明，数据驱动的潜在空间确实捕获了真实的聚合物动力学信息，而非统计伪影。

▲ Fig.9 | 具体而言，SVD模式的衰减呈现阶梯状特征；例如，第3、4、5个SVD模式的衰减行为与第二个Rouse模式相似。SVD模式呈现阶梯状的原因在于Rouse模式是一组N个矢量模式，每个Rouse模式具有x、y、z三个分量，且以相同的弛豫时间演化。然而，SVD学习的是3N个独立模式。因此，所观察到的"阶梯"现象是SVD试图识别并聚类Rouse模式矢量的x、y、z分量的结果。

跨尺度反向映射

框架的关键成果在于建立CG与UA潜在空间之间的线性映射。作者通过求解最小二乘问题学习映射矩阵，将CG潜在表征转换为UA潜在表征，再经解码器重建完整的UA构型。

▲ Fig.6 | 从粗粒化（CG）到联合原子（UA）聚合物构型的反向映射性能。(a) 通过粗粒化构型（橙色）反向映射得到的联合原子链（红色）重构结果，与真实联合原子链（蓝色）的对比。(b) 粗粒化和联合原子尺度下降维潜在表示之间的余弦相似度，用以量化反向映射变换所实现的对齐程度。(c) 模拟体系中全部200条链沿聚合物主链的键长和键角分布分析。

图6展示了反向映射的性能。CG与UA潜在表征之间的余弦相似度在主要模式上接近1.0，表明映射高度准确。重建的UA链在整体构象上与真实值吻合良好，键长和键角分布也与参考值高度一致，仅在局部细节上存在微小偏差。

▲ Fig.7 | 反向映射联合原子构型的力学响应：反向映射联合原子构型（红色）与原始联合原子构型（黑色）在单轴拉伸下的应力-应变曲线。实线表示三个单轴拉伸模拟方向（x、y、z）的平均应力，阴影区域表示三个模拟方向的应力最小值/最大值范围。

为验证反向映射构型的物理合理性，作者对其进行了单轴拉伸模拟。图7显示，经短暂MD弛豫后的反向映射构型与原始UA构型的应力-应变响应高度一致，证实了该方法在力学性能预测方面的可靠性。

▲ Fig.8 | 精确重构所需的数据集规模：在不同数据集大小下，重构误差随模式数量的变化关系，分别对应(a)粗粒化长度尺度和(b)联合原子长度尺度。两图中压缩率定义为：压缩率(%) = (1 − r/3N) × 100%。

图8分析了数据集规模对重建精度的影响，结果表明在CG和UA尺度下，约500-1000个构型即可实现收敛的重建精度，说明该方法的数据需求适中。

▲ Fig.11 | 反向映射联合原子构型的统计特性：(a) 径向分布函数，以及(b) 模拟体系中全部200条链的二面角分布（红色、橙色），与真实联合原子分布（黑色）的对比。

图11进一步验证了反向映射构型的径向分布函数和二面角分布与真实UA构型的一致性，确认了局部结构统计特征的准确重现。

总结与展望

本文建立了一套完整的聚合物多尺度潜在空间表征框架，实现了两个关键目标：其一，在CG和UA尺度下均获得了紧凑且高精度的链构象编码；其二，验证了两个潜在空间之间存在近乎完美的线性映射，使得从CG到UA的超分辨率反向映射成为可能。数据驱动模式与Rouse模式的物理对应进一步增强了方法的可解释性。

当前框架的局限在于尚未实现潜在空间内的显式时间演化。未来的自然延伸方向是在CG潜在空间中传播动力学，仅在需要时解码至UA分辨率，从而真正实现加速的多尺度聚合物动力学模拟。这一思路为突破聚合物模拟的时空尺度瓶颈提供了切实可行的技术路径。

参考文献：Saaketh Desai, Mark Wilson, Songyue Liu, Senou Kounouho, Thomas O’Connor, and Rémi Dingreville. Journal of Chemical Theory and Computation Article ASAP https://doi.org/10.1021/acs.jctc.5c02130

文章改编转载自微信公众号：AI4Mat前沿

原文链接：https://mp.weixin.qq.com/s/hTRj_n4LQsvIZ9v6YbGMwQ