面向大规模原子模型时代的图神经网络——DPA3

graphite · 发表于 1780892571

随着机器学习原子间势能模型的发展，构建能够泛化至多种化学系统的大原子模型成为计算材料科学的重要方向。本文综述了 Zhang 等人提出的 DPA3 模型，该模型基于线图级数图神经网络架构，支持深层扩展、多任务学习与物理一致性约束。文章系统分析了 DPA3 的模型设计、缩放规律、在多类 MLIP 任务上的性能，以及在 OpenLAM-v1 数据集上训练的 DPA-3.1-3M 大原子模型的零样本泛化能力。DPA3 在多个基准测试中实现了优于或媲美现有模型的精度，同时参数量更少，展现出良好的参数效率与扩展性。本文还讨论了 DPA3 与等变模型、超图模型等的差异及其未来发展方向。

1. 引言：从 MLIP 到 LAM 的演进

1.1 机器学习原子间势能模型的发展

传统的原子模拟依赖于密度泛函理论，其计算复杂度为 O(Ne3)O(Ne3)（NeNe 为电子自由度），限制了系统规模。机器学习原子间势能模型通过学习 DFT 标注的数据，构建原子构型到势能的映射，实现了线性复杂度的模拟，代表性工作包括：

Behler-Parrinello 网络（2007）：首次提出原子中心对称函数。

DeepPot-SE（2018）：引入嵌入网络与拟合网络，支持大规模分子动力学。

NequIP（2022）：基于 E(3) 等变图神经网络，提升数据效率。

MACE（2022）：高阶等变消息传递，兼顾精度与效率。

1.2 大原子模型的兴起与挑战

尽管 MLIP 在特定系统中表现出色，但训练新系统仍需大量 DFT 数据。为此，研究者开始探索大原子模型，即通过大规模预训练获得跨系统的通用势能面。

代表性 LAM 包括：

M3GNet（2022）、CHGNet（2023）：基于图网络的无机材料通用势。

GNoME（2023）：发现 38 万种新结构，展示数据缩放规律。

Uni-Mol2（2024）：分子科学预训练模型，展示参数与数据缩放。

然而，LAM 仍面临三大挑战：

数据不一致：不同数据集的 DFT 设置（泛函、基组、赝势）不同，难以合并；架构可扩展性差：深层 GNN 易出现过平滑或数值不稳定；物理一致性不足：部分模型不满足能量守恒或对称性约束。

2. DPA3 模型架构解析

2.1 线图级数

DPA3 的核心创新是线图级数：通过对初始原子图 G⁽¹⁾反复应用线图变换L，生成一系列图 G⁽¹⁾,G⁽²⁾,…,G^(K)。

G⁽¹⁾：原子为节点，近邻原子对为边。

G⁽²⁾：键为节点，共享原子的两键之间连边 → 编码角度信息。

G⁽³⁾：角度为节点，共享键的角度之间连边 → 编码二面角信息。

G⁽⁴⁾：二面角为节点 → 编码更复杂的四体相互作用。

理论可扩展至任意 K，但作者实验发现 K=2（原子 + 角度）为实用最优。

2.2 消息传递与残差更新

DPA3 在所有 LiGS 图上同时进行消息传递。对于图 G^(k)，第 l 层的节点特征和边特征 e_αβ^(k,l)通过残差更新：

其中：

u_α^(k,l) 是对邻域消息的聚合（卷积），m_s,αβ^(k,l)是边自消息，δv,δe 是可训练步长，增强深层稳定性。

关键设计：G^(k)的节点特征等于 G^(k−1)的边特征，因此无需为 k>1存储节点特征，显著降低内存。

2.3 激活函数：SiLUT

深层网络中常用激活函数（SiLU、GELU）可能引发数值爆炸或梯度消失。作者提出 SiLUT（Silu with LookUp Table），通过查找表近似 SiLU，确保数值稳定。消融实验表明，超过 9 层（约 200 万参数）时，无 SiLUT 的模型出现不稳定。

2.4 数据集编码与多任务学习

为解决 DFT 设置不一致问题，DPA3 引入数据集编码：

c(Dm)是数据集 m的独热编码（或可学习嵌入），e_m(Zi) 是按化学式的能量偏置，消除 DFT 零点的任意性。

与以往多任务方法（每个数据集一个独立拟合头）相比，DPA3 的参数量不随数据集数量增长，显著提升了扩展性。

2.5 物理一致性保证

保守性：总能量为原子贡献之和，力与维里通过自动微分获得，天然满足能量守恒；平移/旋转不变性：所有输入特征（距离、角度、二面角）均不变；置换等变性：对称化算子保证同种原子交换时特征相应置换。

3. 缩放规律验证

3.1 实验设置

在 OMat24 数据集（含 89 种元素、百万级构型）上进行缩放实验。采用 IsoFLOP 方法：固定计算预算 C=P×N×D（PP为每参数每数据的 FLOPs，N 为参数量，D 为数据量），调整 N 与 D，拟合验证误差与 N,D,C 的关系。

3.2 主要发现

验证能量 MAE 随 N,D,C 增加呈幂律下降：

缩放指数与大型语言模型（如 GPT-3）类似，验证了 DPA3 在原子模拟领域遵循通用缩放规律。

消融实验表明：SiLUT 是深层缩放的必要条件；残差步长有助于稳定训练。

4. 基准测试结果

4.1 小分子：SPICE-MACE-OF

数据：100 万构型，ωωB97M-D3/def2-TZVPPD 标注。

结果：

DPA3-L3（0.9M 参数）能量 LWAMAE 与 MACE(M)（2.3M）持平。

DPA3-L6（1.3M）误差比 MACE(L)（6.9M）低 34%。

DPA3-L24（4.9M）误差比 MACE(L) 低 66%，参数量少 30%。

对比：eSEN 仍最优，但 DPA3 在参数效率上显著领先。

4.2 扭转能：TorsionNet-500

DPA3-L24 在 MAE、RMSE、势垒高度 MAE 上均最低。NABHh = 0：所有预测的势垒高度误差 < 1 kcal/mol，优于 MACE(L)（60% 降低）。

4.3 水与冰系统

数据：133 个构型（极少数据），PBE0-TS 泛函。

结果：

DPA3-L12 能量 LWARMSE 比 NequIP 低 60%，力低 30%。DPA3-L24 反而略有下降 → 小数据下深层模型过拟合，符合缩放规律预期（需大数据支撑深层缩放）。

4.4 催化/二维/多孔材料

数据：甲酸分解/Cu、缺陷双层石墨烯、沸石。

结果：

DPA3-L6 优于 NequIP，与 AlphaNet 相当。DPA3-L12/L24 在多数任务上超越 AlphaNet。

4.5 DPA2 测试集（18 个任务）

涵盖合金、电池、半导体、药物分子、烷烃裂解等。

DPA3-L24 在能量与力 LWARMSE 上整体最优。

注：EqV2 在某些系统的力误差更低，但因其非保守（力和能量分开拟合），物理一致性较弱。

5. 大原子模型 DPA-3.1-3M

5.1 训练设置

数据：OpenLAM-v1，31 个数据集，含 OMat24、OC20、SPICE2 等。

模型：16 层，3.26M 参数，K=2。

训练：4M 步，128 GPU，多任务采样权重按数据集重要性与稀疏度启发式设定。

5.2 零样本泛化评估

评估 12 个下游任务（催化、无机、分子），与 7 个 LAM 对比：

DPA-3.1-3M 在所有域上均排名第一，尤其催化与分子域领先明显。

在无机材料域（其他模型的“主场”），DPA-3.1-3M 能量 LWARMSE = 9.1，与 Orb-v3（9.0）、SevenNet（9.0）几乎持平。

DPA-3.1-3M 的参数量仅为 Orb-v3 的 1/8，体现了 DPA3 架构的参数效率。

5.3 微调实验

Matbench Discovery：DPA-3.1-3M-FT（微调 OMat24 编码）在 RMSE 和 R2R2 上排名第一，F1 排名第四（次于 eSEN-30M、Orb-v3、SevenNet）。

SPICE-MACE-OFF：微调后精度接近 DPA3-L12（2.5M），但低于 DPA3-L24（4.9M），说明预训练 epoch 数（60 vs 400）仍有提升空间。

5.4 数据集编码 vs. 独立拟合头

独立拟合头方法（如 DPA-2.4-7M）需 7.69M 参数。

统一数据集编码仅需 3.26M 参数，性能相当或更优 → 参数量不随数据集增长，具备强扩展性。

6. 局限性与未来方向

6.1 与等变模型的差距

在 rMD17、3BPA、乙酰丙酮等小分子 AIMD 数据集上，DPA3 精度不及 MACE 等 E(3) 等变模型。原因可能是：

等变特征能更高效编码方向信息，

LiGS 虽能捕捉角度/二面角，但仍是不变特征，信息容量较低。

未来方向：将等变特征引入 LiGS 框架。

6.2 模型与数据规模受限

当前 DPA3 最大为 24 层（4.9M 参数），受限于 GPU 内存（A800 80GB）。未来可通过：

模型并行，

更大数据集（如 OMol25，含 2500 万分子构型），

混合精度训练，

进一步探索更大规模的缩放规律。

6.3 DFT 设置不一致问题

DPA3 的数据集编码仅将不同数据集视为“不同任务”，并未真正对齐 DFT 泛函/基组差异。更系统的解决方案包括：

多保真学习（Multi-fidelity），跨泛函迁移学习，统一标注规范（如全用 PBE + 平面波）。

6.4 对比模型的访问限制

UMA 模型（Facebook，2025）因许可证限制在中国不可用，未能纳入对比。

7. 总结与结论

DPA3 是面向大规模原子模型设计的图神经网络架构，具有以下显著优势：

架构创新：LiGS + 残差更新 + SiLUT 实现深层稳定扩展。

多任务高效：数据集编码机制使参数量与数据集数解耦。

物理一致：保守性 + 平移/旋转/置换对称性保证模拟可靠性。

缩放规律验证：首次在 LAM 中系统展示幂律缩放，指导未来扩展。

综合性能优越：在 MLIP 任务上与等变模型持平或更优，在 LAM 零样本任务中排名第一，参数量仅为其 1/8。

DPA3 为构建通用、可扩展、物理合理的原子模拟基础模型提供了重要参考，同时也指明了未来在等变性、多保真数据、更大规模扩展等方面的研究挑战。

参考文献：

[1] Erwin Schrödinger. Quantisierung als eigenwertproblem. Annalen der physik, 386(18):109–

139, 1926.

[2] Max Born and W Heisenberg. Zur quantentheorie der molekeln. Original Scientific Papers

Wissenschaftliche Originalarbeiten, pages 216–246, 1985.

[3] Daan Frenkel and Berend Smit. Understanding Molecular Simulation: From Algorithms to

Applications, volume 1. Elsevier, 2001.

[4] Pierre Hohenberg and Walter Kohn. Inhomogeneous electron gas.

Physical review,

136(3B):B864, 1964.

[5] Walter Kohn and Lu Jeu Sham. Self-consistent equations including exchange and correlation

effects. Physical review, 140(4A):A1133, 1965.

原文地址：http://doi.org/10.1038/s41524-026-02146-2