CrysLDNet：面向晶体预测的VAE+潜在扩散自监督学习框架

Akkio · 发表于 1779376247

原文地址：https://openreview.net/forum?id=l1H5bKhG5R

研究背景与科学问题

晶体材料在能源、电子、医疗、交通及基础设施等领域具有举足轻重的地位。在新材料发现与设计的工作流中，对新晶体化学性质的快速、准确预测是关键环节。传统密度泛函理论（DFT）虽精度可靠，但高昂的计算成本严重制约了大规模筛选效率。近年来，基于图神经网络（GNN）的数据驱动方法将3D晶体结构表示为多边图，利用GNN学习面向下游任务的结构表征，在精度可比拟DFT的同时大幅降低了计算开销。

然而，GNN类模型高度依赖大规模标注数据，而晶体性质的标注数据极为稀缺且在不同性质间分布悬殊。与此形成对比的是，仅含3D结构信息的无标签晶体数据资源丰富。研究者由此探索自监督预训练范式：CrysXPP、CrysGNN采用基于CGCNN的预训练—微调框架，Crystal Twins则借助Barlow Twins损失进行自监督学习。然而这些方法均以CGCNN为骨干，表征能力受限。

近期，CrysDiff和DPF等基于扩散模型的预训练框架尝试通过扰动—重建晶体结构来学习表征。但这类方法直接操作于高维异质特征空间——分数坐标遵循环绕正态分布、原子类型为离散类别、晶格结构为连续值——需联合采用得分匹配、D3PM和DDPM等多种扩散机制，对去噪网络架构和扩散步数提出严苛要求。同时，特征空间的非光滑性使所学表征表达力不足，下游性质预测性能受限。

CrysLDNet框架：方法学创新

针对上述挑战，作者提出CrysLDNet——据其所知首个面向晶体性质预测的潜在扩散预训练框架。其核心思想是：先将高维晶体结构压缩至光滑的潜在空间，再在该空间内执行扩散去噪过程，从而引导编码器学习兼具结构与化学语义的鲁棒表征。

▲ Fig.1 | 本文提出的预训练-微调框架CrysLDNet概览。在预训练阶段，VAE将晶体结构编码为潜在表示，并在此基础上应用LDM对编码的潜在空间进行优化。CrysLDNet的设计完全与不同骨干编码器架构的选择无关。预训练的编码器随后在带属性标签的数据上进行微调，以用于下游任务。

整体框架（如图1所示）由两阶段构成：

预训练阶段包含变分自编码器（VAE）与潜在扩散模型（LDM）两大核心模块。VAE编码器将晶体的原子类型、坐标和晶格结构映射为低维潜在表征，解码器通过三个独立的MLP分别重建这三类信息。在编码器选型上，作者采用Matformer网络以确保所学表征对平移、旋转和周期性变换保持不变性，这与晶体材料固有的物理对称性要求严格契合。VAE的训练目标综合了重建损失与KL散度正则项：原子类型采用交叉熵损失，坐标和晶格采用L2损失。

LDM则在VAE编码后的潜在空间内执行扩散过程：通过线性插值向干净潜在表征逐步注入高斯噪声，再训练基于Transformer的去噪网络从噪声样本恢复原始潜在分布。值得注意的是，LDM训练阶段VAE编码器与去噪网络参数同步更新，从而进一步精炼潜在空间结构。

微调阶段将预训练好的编码器与可定制的属性预测头结合，在带标签数据上微调以适配特定下游任务。由于潜在扩散过程的引导，编码器已具备表达力强、结构语义丰富的初始权重，微调过程能够更高效地收敛至高精度解。

CrysLDNet另一显著优势是骨干网络无关性——除Matformer外，该框架可无缝适配CoGN、PDDformer、iComformer、eComformer等多种最新晶体GNN编码器，体现出方法学层面的良好通用性。

实验验证与主要结果

重建性能：潜在扩散表征更具表达力

作者首先在GNoME和JARVIS两个数据集上评估不同预训练方法所得嵌入对原子组成与3D结构的重建能力。

▲ Fig.2 | CrysDiff、DPF和CrysLDNet预训练嵌入在(a) Genome数据集和(b) Jarvis数据集上的重构性能。新基线模型上的结果。我们进一步扩展了实验评估，纳入了若干近期的基线模型，包括CoGN (Ruff等人, 2024)、DimeNet++ (Gasteiger等人, 2020)、Equiformer (Liao & Smidt, 2023)、PotNet (Lin等人, 2023)、eComformer (Yan等人, 2024)、iComformer (Yan等人, 2024)以及PDDformer (Shen等人, 2025b)。

如图2所示，CrysLDNet在重建准确率上显著优于直接在特征空间执行扩散的CrysDiff和DPF。该结果支持了核心假设——在光滑潜在空间内执行扩散过程能够使编码器更高效地捕捉晶体的结构与化学语义，所得表征对下游任务更具迁移价值。

下游性质预测：全面超越基线

作者在JARVIS-DFT和Materials Project两大DFT基准数据集上，针对形成能、能带间隙、剪切模量、SLME等关键性质进行了系统评估（表1）。结果表明，CrysLDNet相较第二好基线在JARVIS上平均提升6.93%、在MP上提升7.83%。表2进一步引入CoGN、DimeNet++、Equiformer、PotNet、eComformer、iComformer、PDDformer等近期强基线进行对比，CrysLDNet的领先性得到稳健验证。

稀疏数据场景下的鲁棒性

▲ Fig.3 | 在稀疏数据条件下JARVIS-DFT数据集上四种属性的预测性能（MAE）。特别地，在20%微调数据比例下，本文模型CrysLDNet相对于次优模型的提升分别为10.41%、9.26%、5.39%和5.56%。配置形成能带隙总能量 Ehull 带隙体积模量剪切模量 SLME Spillage 能量(OPT) 能量(MBJ) (Kv) (Gv) (%) 仅VAE 0.031 0.126 0.032 0.059 0.284 10.61 9.773 4.970 0.374 仅LDM 0.030 0.123 0.031 0.052 0.302 10.37

实际应用中，特定性质的标注数据往往极为有限。图3展示了JARVIS-DFT稀疏数据条件下四种关键属性的预测性能。当微调数据比例仅为20%时，CrysLDNet相较第二好模型在形成能、能带间隙、总能量和Ehull任务上分别提升10.41%、9.26%、5.39%和5.56%，验证了潜在扩散预训练在低资源场景下的强大泛化能力。这一特性对于新材料发现这类典型的小样本问题具有重要现实意义。

消融研究：各模块贡献验证

消融实验进一步剖析了VAE和LDM两个模块的独立贡献以及联合训练的协同效应。表3显示：仅使用VAE预训练或仅使用LDM均可获得一定增益，但二者结合后的CrysLDNet在所有任务上均取得最优性能，证实两阶段设计具有显著的互补性。表4则揭示了VAE预训练轮次对最终下游性能的影响规律，为实际部署提供了实用指引。

理论合理性与训练稳定性

▲ Fig.4 | (a) 以重复模式排列的原子点云所表示的周期性晶体结构，并附有单位晶胞的放大视图。(b) 单位晶胞的多重图表示。(c) 晶体的旋转、平移和周期对称性。B 晶体结构中的对称性晶体材料满足物理对称性属性 (Dresselhaus等人, 2007; Zee, 2016)，其中一个主要挑战是所学习的表示必须满足关于平移、旋转的不变性。

晶体材料具备旋转、平移与周期性等多重物理对称性（图4）。任何学习到的表征都必须严格保持这些不变性，这是Matformer编码器被选用的根本依据。

▲ Fig.5 | LDM（无VAE损失）与CrysLDNet之间的损失曲线对比。D VAE-Flow联合训练稳定性 VAE-Flow联合训练可能变得不稳定，并可能导致编码器崩溃，但这通常发生在编码器从随机初始化开始从头训练时。一种常用且有效的解决方案是预训练编码器，使其从一个有意义的状态开始。在本文方法中，编码器并非从头训练，而是首先使用VAE预训练编码器。

此外，VAE与流匹配（Flow）的联合训练在编码器从随机初始化训练时易出现编码器塌缩。作者采用两阶段策略——先单独预训练VAE使编码器达到有意义的初始状态，再引入LDM联合优化——有效规避了这一隐患。图5的损失曲线对比直观展示了该策略带来的训练稳定性优势。

计算开销与可扩展性

作者还对GNoME数据集统计特性、不同骨干模型的实验配置、跨骨干的性能稳定性及预训练资源开销进行了系统报告（表5—表8）。结果表明CrysLDNet不仅性能领先，且预训练成本控制在合理范围内，在四种骨干网络上均能稳定带来增益，进一步印证其方法学的通用性。

总结与展望

CrysLDNet作为首个面向晶体性质预测任务的潜在扩散预训练框架，其核心贡献可归纳为三点：

第一，方法学创新——将VAE编码与潜在空间扩散有机结合，避免了直接在异质高维特征空间建模的复杂性，使编码器能够学习到既保持物理对称性又富含化学语义的鲁棒表征；

第二，性能提升显著——在多个DFT基准任务上，CrysLDNet相较从头训练和已有预训练基线均取得明显优势，尤其在稀疏数据场景下展现出突出的泛化能力，并具备一定的DFT误差校正潜力；

第三，架构通用性强——框架对骨干编码器的选择不敏感，能够与多种最新GNN编码器无缝集成，为后续研究提供了灵活的基础平台。

研究的潜在拓展方向包括：将潜在扩散预训练范式推广至晶体生成、缺陷预测、表面/界面性质等更广泛的任务；探索更高效的潜在空间几何先验设计；结合实验数据进行迁移学习以系统化校正DFT计算偏差。对于研究生与高校研究人员而言，本工作为材料信息学领域"预训练—微调"范式提供了重要的方法学参照，也为如何在物理对称性约束下设计生成—判别一体化模型提供了富有启发性的思路。

参考文献：Lee, J.; Kim, D.; Park, S.; Choi, Y.; Lee, H. Latent Diffusion Pretraining for Crystal Property Prediction. AI4Mat-ICLR 2026.

https://openreview.net/forum?id=l1H5bKhG5R

文章改编转载自微信公众号：AI4Mat前沿

原文链接：https://mp.weixin.qq.com/s/yq05sadIopKpgnnWRoCc_A?scene=1