分数扩散模型突破:XtalPaint实现97%准确率晶体氢原子位置修复

Jack小新
2026-06-25 10:47:39
材料科学
量子信息
论文精读与讲座笔记

近日,npj Computational Materials刊发了题为《Score-based diffusion models for accurate crystal-structure inpainting and reconstruction of hydrogen positions》的研究成果。该研究创新性地引入了计算机视觉中的图像修复技术,利用分数扩散模型对晶体结构中缺失的氢原子位点进行高精度重建,综合成功率超过97%,为解决材料数据库中氢原子位置缺失这一长期难题提供了高效的AI驱动方案。



研究背景与科学问题

含氢晶体材料在清洁能源、半导体及光催化领域扮演着关键角色,然而精确测定晶体中氢原子的位置始终是实验表征的一大瓶颈。氢原子在所有元素中拥有最低的X射线与电子散射截面,加之极高的非相干散射背景,使得中子衍射虽为定位氢原子的“金标准”,却受限于对大型设施的依赖及高昂的实验成本。尽管量子晶体学与Hirshfeld原子精修等手段提升了X射线衍射的定位能力,但无机晶体学数据库中仍有大量条目的氢原子位置缺失或仅依赖化学直觉估算,这极大限制了下游材料数据库的质量与原子尺度模拟的可靠性。

方法框架:从图像修复到晶体结构补全

本研究基于Microsoft的MatterGen扩散模型进行了针对性的重训练与优化。MatterGen原用于生成具备目标性质的稳定晶体,其核心机制是通过迭代去噪将高斯噪声逐步转化为符合目标分布的“干净”样本。研究团队将该机制与图像修复领域的两项关键技术进行了深度融合。其一是RePaint算法,通过在去噪过程中进行往复式的前向与反向采样,对已知区域进行重采样,以确保修复区域与已知区域在空间上的协调性。其二是TD-Paint策略,该策略允许模型在像素层面处理不同的噪声水平,从而在去噪阶段直接以已知信息为条件——保持已知区域无噪声,仅对缺失区域进行迭代预测。

在材料科学场景中,研究者将上述概念迁移至原子尺度,训练了三类模型:pos-only模型专注于原子位置的去噪;pos-only-RePaint模型集成了RePaint算法;pos-only-TD模型则将TD-Paint的差异化噪声理念应用于原子级别,对已知的非氢原子位置施加“零噪声”约束,仅对待预测的氢原子位置进行加噪与逐步去噪。最终,该流程还结合了基于NequIP架构的机器学习原子间势(MLIP)进行约束结构优化,构成了完整的预测闭环。




▲ Fig.1 | 不同修复方法单次试验性能的比较。a 多种模型和修复方法的结构匹配率:MatterGen、pos-only、pos-only-RePaint和pos-only-TD,模型描述详见正文。此外,我们还展示了在相应补充材料部分讨论的基于DFT重构方法的性能(虚线)。b 结构匹配率作为pos-only-TD和pos-only模型去噪步数的函数关系


单次预测性能对比



单次预测性能对比

实验数据显示,仅进行位置去噪的pos-only模型表现已优于原始MatterGen基线。虽然RePaint算法有效降低了结果方差,但对性能提升贡献有限,且需将去噪步数从300增至约1000步,导致计算开销显著增加。相比之下,pos-only-TD模型取得了最高的结构匹配率,证明模型能更有效地理解并利用已知位置的条件约束。作为参照,基于DFT静电势的纯第一性原理方法匹配率约为77%,远逊于pos-only-TD模型。进一步分析表明,pos-only-TD模型在较少的去噪步数下即可达到高匹配率,且在扩散轨迹中,成功匹配与未匹配结构之间的均方根偏差(RMSD)呈现出明显的分离趋势,说明模型在早期阶段即能锁定正确的氢构型。

预测质量的能量与结构验证


▲ Fig.2 | 预测结果与参考结构在能量和结构一致性方面的分析。a 仅针对匹配的预测:pos-only-TD模型生成的初始结构能量与使用NequIP进行结构弛豫后能量之间的差异。颜色用于区分

针对结构匹配的样本,研究者深入分析了其能量质量。结果显示,pos-only-TD模型生成的初始结构与经过NequIP弛豫后的结构能量差异极小,这意味着扩散模型输出的氢位置已非常接近局部能量最低点,无需进行大幅度后续优化。随后的DFT级别验证进一步证实,在绝大多数情况下,模型预测的结构经弛豫后与参考结构能量等同甚至更低,部分预测甚至发现了比实验参考更为稳定的氢原子排列方式。


▲ Fig.3 | 预测结构与参考结构相对稳定性的DFT验证

多次采样策略与性能最大化


▲ Fig.4 | 多次试验中低能量或结构(LES)匹配率的分析,按样本数量和晶胞尺寸进行解析。


▲ Table 1 | 最终算法总结

为了进一步逼近性能上限,研究团队引入了多次采样策略,即对同一结构生成多个候选预测并选取能量最低者作为最终结果。如表1总结所示,基于pos-only-TD模型并结合每次结构生成10个样本的算法流程,在DFT+MLIP数据集上的综合成功率达到了97.8%(在21至40原子/晶胞的子集上为97.2%);在包含实验宿主结构的EXP+MLIP数据集上,成功率为97.2%(子集为95.6%)。若排除数据库中标记为“理论”的条目,成功率更是超过99%。值得注意的是,该方法不仅对DFT弛豫后的结构表现优异,对直接来源于实验数据库的原始宿主结构同样具备高度的鲁棒性。

失败案例分析

研究亦对预测失败的案例进行了可视化分析。这些案例主要涉及氢原子存在多重近简并构型的复杂体系,或是宿主结构在氢位置重建后需发生显著弛豫的特殊情况。这类失败模式为后续算法的针对性改进指明了方向。


▲ Fig.5 | 未能实现结构匹配的预测氢原子位置的可视化。示例取自EXP数据集。图中,绿色和橙色小球分别代表参考结构和我们方法中氢原子的位置。a–d 四个未能实现结构匹配且能量高于实验参考结构(经后续DFT弛豫评估)的结构示例。

总结与展望

本研究成功实现了从计算机视觉图像修复到材料科学晶体结构补全的方法论迁移。pos-only-TD模型通过在原子级别引入差异化噪声处理策略,使扩散模型能够高效利用已知结构信息进行强条件约束,显著提升了氢位置重建的精度与效率。该方法以超过97%的综合成功率验证了其在材料研发中的实用价值,且其训练过程与氢无关(hydrogen-agnostic),具备直接迁移至离子嵌入等相关任务的潜力。未来,随着该方法向更复杂体系的拓展及其与高通量筛选流程的深度集成,有望为量子材料模拟提供更高质量的输入结构,进而加速新材料的发现进程。


原文链接

Reents, T., Cantarella, A., Bercx, M. et al. Score-based diffusion models for accurate crystal-structure inpainting and reconstruction of hydrogen positions. npj Comput Mater 12, 203 (2026). https://doi.org/10.1038/s41524-026-02090-1

代码开源

https://github.com/psi-lms/XtalPaint

45
0
0
0
关于作者
相关文章
  • 唯一量子企业上榜!玻色量子再登《财富》中国科技50强 ...
    了解详情 
  • FLOWR流匹配模型与SPINDR数据集:结构基础药物设计的三维配体生 ...
    2026年5月28日,来自辉瑞、阿斯利康、查尔姆斯理工大学的研究团队在《Nature Computational Scie ...
    了解详情 
  • ConfSeq构象描述语言:用Transformer统一三维分子构象预测与AI药 ...
    2026年6月11日,中国科学院上海药物研究所郑明月、张素林课题组于Nature Machine Intelligence在 ...
    了解详情 
  • Boltzmann Attention:用伊辛模型给Transformer加上协同注意力, ...
    传统注意力机制(softmax/sigmoid)本质上都是一个非相互作用的自旋系统——你关注的 ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas