本帖最后由 超能小量子 于 2026-6-12 16:08 编辑
分子晶体结构预测(CSP)是材料发现领域的重要计算工具,但其核心瓶颈在于计算成本高昂,这主要源于分子晶体极高的自由度和对大规模结构采样的依赖。本研究提出了一种基于类似物模板的快速CSP方法,其核心思想是利用已有的相似分子CSP景观数据,通过构建合理的结构类似物作为试探结构。这种方法能够以远少于传统方法的采样量,实现目标分子晶体结构的预测,并在保持精度的同时显著降低几何优化的计算负担。

研究背景
随着方法的快速发展,CSP已能够成功预测多种化学体系的实验观测晶体结构,涵盖不同化学性质、分子柔性以及盐和共晶等复杂系统。CSP的核心价值在于预测尚未已知的晶体结构,并结合性质预测生成"能量-结构-功能"映射图,从而指导新功能材料的发现。然而,由于分子晶体结构的自由度极高(包括晶胞参数、独立分子的位置和取向),为全面覆盖能量景观上的所有局部极小值,需要进行大规模的结构采样和几何优化。如何在保持合理预测精度的前提下大幅降低采样量,成为该领域的关键挑战,尤其对于高通量化学空间探索和快速初步测试等应用场景而言。
方法原理与工作流程
该方法被设计为一种通用采样过程,可与任何几何优化步骤配合使用,其工作流程主要分为模板选择与类似物构建两个阶段。
在模板选择与类似物构建方面,该方法以先前已预测的相似分子晶体结构作为模板。这里的"相似"指的是模板分子与目标分子共享有意义的子结构——即包含多个原子且在三维空间中具有相似几何构型的连通子结构。研究测试了六个相似分子家族,家族内成员之间通过少量化学取代即可相互转化。值得注意的是,模板并非仅使用全局能量最低结构,而是从原始景观中提取多个结构(可选全部结构或落在给定能量窗口内的子集,如25 kJ/mol或15 kJ/mol)。
对于每个模板,方法尝试构建所有"合理类似物"。具体实现是通过最大公共子结构叠合来复制不对称单元分子的位置和取向,从而保留晶胞参数及分子相对于晶胞轴的排列关系。关键在于,考虑子结构的对称性和分子中子结构的多个实例,可以枚举出每个模板的所有有效类似物。不同的子结构实例对和不同的同构叠合方式均会产生不同的类似物,确保了构建过程的完备性。
▲ Fig.1 | 由单一模板(中间)形成的多个有效类似物示例(左侧和右侧)。
完整工作流程
图3总结了完整的模板CSP工作流程。构建类似物后,对其进行晶格能最小化,使其弛豫至目标分子CSP景观上的局部极小值。该方法的设计初衷是作为通用采样过程,可与任何几何优化步骤配合使用。

▲ Fig.2 | 完整模板化晶体结构预测工作流程的流程图。

▲ Fig.3 | 模板晶体结构、由其生成的初始类似物以及最终优化类似物(即模板化CSP能量面上的结果结构)的示例。
验证与评估
研究采用RMSD指标评估预测结构与已知结构或传统CSP低能结构的匹配质量。结果显示,模板CSP预测结构与已知实验结构及传统准随机(QR)CSP低能结构能够高质量地叠合,证实了该方法能够高质量地恢复目标结构。
为了量化评估,研究引入了"恢复百分比"(Recovery Percentage, RP)作为核心评价指标,衡量模板CSP能够恢复的目标景观结构比例。在使用25 kJ/mol能量窗口时,多数情况下可达到可观的恢复率,部分案例恢复率超过50%。此外,恢复率与"统计难度"(即类似物数量与目标结构数量之比)呈正相关关系:当可构建的类似物数量相对于待恢复的目标结构数量越大时,恢复率越高。这符合直觉,因为更多的试探结构意味着更大的覆盖概率。
▲ Fig.4 | 模板化CSP预测结构(绿色)与已知结构(a)或低能量目标结构(b)(元素着色)之间叠合的示例。
与准随机方法的对比
该方法的关键优势体现在与等量采样的准随机CSP方法的对比中。在使用相同数量试探结构的条件下,模板CSP的恢复率普遍优于QR方法。除了更高的命中率,模板方法生成的试探结构更接近局部极小值,这意味着几何优化步骤的收敛更快、计算成本更低。
▲ Fig.5 | (a)使用25 kJ/mol模板选择窗口的各模板化CSP运行的回收百分比(RP)值与等效采样条件下QR CSP运行的相应RP值的散点图。位于x = y线上方的点表示模板化方法的性能更优,距该线越高代表优势越大。(b)使用25 kJ/mol模板选择窗口的模板化CSP运行RP值与相应QR CSP运行RP值之间差异的频率直方图。
主要贡献与展望
本研究的核心贡献主要包括三个方面:首先,首次提出并验证了基于假想晶体结构(而非仅实验结构)的类似物CSP方法;其次,证明该方法不仅能恢复已知实验结构,还能有效预测目标景观上的低能结构;第三,在等量采样条件下,模板CSP显著优于准随机方法,且试探结构更接近局部极小值,进一步降低了优化成本。
当然,该方法也存在一定的局限性。当前工作仅测试了刚性分子体系,且模板与目标分子需共享较大的公共子结构。未来的研究方向包括扩展至柔性分子、开发自动化的模板分子选择策略,以及利用日益丰富的CSP数据库构建更大规模的模板库。对于高通量筛选和快速初步评估等应用场景,该方法为降低CSP计算壁垒提供了一条切实可行的技术路径。
文章链接:https://doi.org/10.1021/acs.jctc.6c00596
代码地址: https://gitlab.com/ mol-cspy/mol-cspy
|