|

研究背景与科学挑战
分子动力学(Molecular Dynamics, MD)模拟作为现代科学研究的核心工具,已被广泛应用于蛋白质折叠、材料高压行为、过冷液体中的液-液相变以及非晶化过程等复杂现象的机理探索。然而,第一性原理精度的MD模拟面临着显著的计算瓶颈:一方面,求解薛定谔方程以获取可靠的原子间作用力计算开销巨大;另一方面,离散化误差随积分步长的立方增长,迫使传统MD采用0.5–1.0 fs的微小时间步长,导致典型模拟需要数百万步积分才能覆盖纳秒级时间尺度。
为突破这一限制,研究领域已发展出两条主要路径:其一是通过机器学习原子间势(Machine-Learning Interatomic Potentials, MLIPs)加速力的计算;其二是通过多时间步(Multiple Time-Step, MTS)积分器实现较大的有效步长。然而,MLIPs仍受限于数值积分所要求的小时间步长,而MTS则难以摆脱系统中快速变化相互作用对短时间步的需求。近年兴起的生成式机器学习方法(如Boltzmann生成器、Timewarp、ITO、MDGen等)虽然能够直接生成构型或轨迹,但普遍存在以下局限:仅预测原子位置而忽略动量信息、依赖化学键或特定运动模式的归纳偏置、需要数百纳秒量级的训练数据,且大多仅在小分子与多肽体系上得到验证。
针对上述挑战,IBM欧洲研究院,微软科学人工智能研究院(英国剑桥)Thiemann等研究者提出了TrajCast——一种基于自回归等变消息传递神经网络的无力场分子动力学框架,直接更新原子位置与速度,从而摆脱传统数值积分对小时间步长的束缚。
TrajCast框架的方法设计

▲ Fig.1 | TrajCast框架概述。a,自回归工作流程:
图1系统展示了TrajCast的整体架构。其核心思想在于:摒弃传统"预测能量/力—数值积分"的间接路径,转而通过等变消息传递神经网络(Equivariant Message-Passing Neural Network, MPNN)直接预测时间间隔Δt后的新状态x(t+\Delta t),其中Δt可比传统MD时间步长大1–2个数量级。
自回归轨迹生成机制(图1a):网络以原子位置r(t)、速度v(t)和化学类型Z作为输入,输出经过Δt时间演化后的新构型。每一步的输出即作为下一步的输入,这种滚动预测方式保留了轨迹的马尔可夫性质。在训练阶段,模型基于NVE(微正则系综)轨迹进行学习,以逼近牛顿方程在Δt尺度上的解;在推理阶段,通过在每次前向传播后引入CSVR(canonical sampling through velocity rescaling)热浴对速度进行重标定,从而实现NVT(正则系综)采样,保证轨迹服从玻尔兹曼分布。 等变消息传递网络的内部构造(图1b–d):节点与边属性经嵌入模块编码为初始特征;消息构建阶段,潜在特征与由可学习径向基和边矢量球谐展开所构成的滤波器进行卷积;更新模块中,邻居消息经池化后与速度矢量在可学习径向–球谐基下作张量积,再经非线性激活并按节点元素加权残差连接。整个架构严格满足旋转、平移和置换等变性,这是保证物理定律在网络预测中得以维持的关键。 守恒律约束(图1e):为确保物理合理性,TrajCast在输出层对预测的位移和速度进行显式校正,强制施加质心位移、总线动量及总角动量的守恒约束,避免自回归滚动过程中出现系统整体漂移或非物理转动。
跨体系基准测试
研究者在三类具有代表性的体系上对TrajCast进行了系统验证:气相对乙酰氨基酚小分子、晶态α-石英及液态水。
小分子体系:对乙酰氨基酚

▲ Fig.2 | 对乙酰氨基酚在7 fs预测时长下分子动力学(MD)模拟与TrajCast预测结果的性质对比。a,基于元素分辨振动态密度(VDOS)对动力学性质进行比较。b,通过比较势能分布对能量学进行验证,势能由后处理计算得出
作为首个测试基准,研究选取了包含H、C、N、O四种元素的对乙酰氨基酚分子,采用7 fs的预测步长(约为典型MD步长的7–10倍)。如图2所示,TrajCast在三个维度上均与参考MD高度吻合:(a) 元素分辨的振动态密度(Vibrational Density of States, VDOS)准确再现了各原子类型在0–2000 cm⁻¹频率范围内的振动特征;(b) 势能分布与MD结果重合度极高,表明能量采样的正确性;(c) 以两个二面角为反应坐标的自由能面精确重构了构象空间,证明TrajCast不仅能够刻画快速振动,还能捕捉较慢的构象翻转动力学与动力学合理的过渡态采样。
晶态材料:α-石英

▲ Fig.3 | TrajCast在30 fs预测时长下对晶体石英的评估。a,用于训练和验证TrajCast的石英原子构型示意图。红色球代表氧原子,棕色球代表硅原子。b,基于元素分辨振动态密度(VDOS)比较动力学性质。c,通过比较势能分布验证能量学,针对TrajCast生成的轨迹使用相同的力
对于包含4300个原子的晶态α-石英体系,TrajCast采用了高达30 fs的预测步长——这是传统MD时间步长的30倍。图3显示,即使在如此大的时间间隔下,模型仍能准确重现O与Si两种元素各自的VDOS谱线,特别是高频区域的Si-O伸缩振动模式得到了精确还原;势能分布与参考MD几乎完全重合。这一结果尤为重要:晶态体系中高频声子模式通常是对大时间步长最为敏感的动力学特征,TrajCast对其的精确捕获表明网络确实学习到了系统的短时动力学本征结构,而非简单的长时统计平均。
凝聚相液体:液态水

▲ Fig.4 | 在5 fs预测时长下对液态水的TrajCast基准测试。a,块体水瞬时构型快照,氢原子以白色表示,氧原子以红色表示。b,TrajCast与MD的元素分辨振动态密度(VDOS)对比。c,氧原子在相关时间τ最长达10 ps范围内的均方位移(MSD)。扩散系数依据参考文献55中所述的方法,通过对1至10 ps范围内的斜率进行拟合计算得出。阴影区域
液态水作为氢键网络动力学的经典测试体系,其扩散行为对任何MD方法都是严苛考验。研究者以5 fs步长训练TrajCast,结果如图4所示:(b) H与O原子的VDOS均与MD参考结果吻合,包括水分子librational模式和O-H伸缩振动;(c) 氧原子的均方位移(Mean Square Displacement, MSD)在高达10 ps的相关时间内与MD曲线平行演化,基于1–10 ps区间拟合得到的扩散系数与参考值一致。这一表现说明TrajCast在处理无序液相体系的长程输运性质时同样稳健。
零样本泛化:液态水的非晶化过程

▲ Fig.5 | 液态水非晶化的零样本预测。a,由MD和TrajCast NVT轨迹计算得到的扩散系数从300 K冷却至180 K过程中的演变。数据点为四次独立运行的平均值,误差棒对应标准差。
TrajCast最具吸引力的能力之一是其在训练分布之外的泛化性。研究者进行了一项具有挑战性的零样本实验:将仅在300 K下训练的模型应用于从300 K冷却至180 K的过冷非晶化过程。如图5所示,扩散系数随温度降低呈现出特征性的急剧下降,与MD参考结果在定量上保持一致,准确捕获了液态水向非晶态冻结转变的动力学减速现象。这一结果表明,TrajCast学习到的并非是训练温度下的"记忆",而是系统内在的物理演化规律,使其能够外推至非平衡、动力学停滞的亚稳态区域。
预测步长与数据效率分析

▲ Fig.6 | 预测时长和训练集规模对TrajCast性能的影响。a,针对水进行训练的TrajCast模型预测速度与参考速度的奇偶图(parity plot)对比,预测时长为
图6系统分析了预测步长Δt与训练集规模对模型性能的影响。速度预测的平行图显示,随着Δt增大,预测误差虽然有所增长,但模型仍能保持合理的精度;同时,TrajCast展现出显著的数据效率——仅需远少于1 ns的训练轨迹即可达到收敛性能,这与需要数百纳秒训练数据的同类生成模型形成鲜明对比。这种数据效率的根源在于:等变架构天然编码了旋转平移对称性,守恒律约束进一步压缩了假设空间,使得模型从极少样本中便能抽取出系统的动力学规律。
总结与展望
TrajCast作为一种直接预测原子状态的无力场分子动力学框架,在方法论上实现了三项关键突破:其一,通过自回归等变消息传递网络直接输出位置与速度的完整相空间状态,避免了力的计算与数值积分,从而将有效时间步长提升10–30倍;其二,严格施加的等变性与守恒律约束保证了长时间轨迹滚动的物理合理性,使得模型在4300原子的石英体系中每天可生成超过15 ns的轨迹数据;其三,框架对化学键无先验假设,具备向反应性体系推广的潜力,且展现出从平衡态向过冷非晶态的零样本泛化能力。
尽管TrajCast取得了显著进展,仍存在若干值得深入探索的方向:其一,当前验证集中于均质体系,对含多相界面、缺陷演化等异质体系的适用性尚待检验;其二,热浴施加方式虽然有效但带有启发式特征,发展更严格的系综采样方案将是重要课题;其三,与大规模MLIP基础模型的融合——例如以TrajCast作为长时间步生成器、MLIP作为精度校正器——有望构建新一代多尺度模拟范式。
对于从事计算材料、生物物理和凝聚态模拟的研究者而言,TrajCast提供了一条突破传统MD时间尺度限制的新路径,尤其适用于需要长时间演化且难以通过粗粒化方法处理的复杂动力学问题,有望加速材料发现与超越实验可及范围的物理现象探索。
参考文献:Thiemann, F.L., Reschützegger, T., Esposito, M. et al. Force-free molecular dynamics through autoregressive equivariant networks. Nat Mach Intell (2026). https://doi.org/10.1038/s42256-026-01227-7
文章改编转载自微信公众号:AI4Mat前沿
原文链接:https://mp.weixin.qq.com/s/OdGF_b4yjwseDn_NiiPhcQ?scene=1 |