案例解析:基于量子计算的分子对接-QDOCK(Quantum Docking)

图1 基于光量子计算机的分子对接示意图
分子对接(Molecular docking)在药物发现中具有重要意义,但对接的计算速度和准确率始终难以平衡,其巨大解搜索空间对传统计算机来说是一项艰巨的任务。
本文通过引入网格点匹配(GPM, Grind point matching)和特征原子匹配(FAM, Feature atom matching)两种方法,将分子对接问题中的采样过程编码为二次无约束二进制优化(QUBO)问题来加速分子对接,使其能够通过量子计算机(如相干伊辛机CIM)进行求解。结果表明,GPM的采样能力接近Glide SP(一种进行广泛搜索的方法),并且据估计,同等问题的求解在CIM硬件上要比在传统计算机上快至少1000倍。该方法有望在未来加速小分子和多肽的药物虚拟筛选。
1. 背景介绍
分子对接是一种广泛应用于虚拟筛选、先导化合物优化和机制研究的计算技术,其核心是通过优化配体与蛋白质的结合姿态和自由能
然而,该问题的NP-hard特性导致精确求解需枚举大量构象,现有方法(如模拟退火、分步枚举、深度学习模型和GPU并行计算)仍难以应对十亿级数据库(如ZINC)的筛选需求。量子计算机(如量子退火器和CIM)为解决NP-hard问题提供了新途径,其通过将问题映射为QUBO模型并利用量子比特的相互作用实现高效求解。
2. 建模思路
2.1 问题表述
分子对接的采样过程是寻找到一个配体分子和靶蛋白结合的具体构象,用数学形式可表示成以下模型:假设一个配体由
2.2 QUBO建模
2.1中描述的模型是一个经典的优化问题,对于传统的优化算法难以在短时间内得到一个较优的解,本文中提出一种建模思路,首先将
这里的
此时上面的式子就可以转化成QUBO模型,
加入惩罚项
但是,在优化上面这个式子时,有两点约束条件要考虑:一是保持配体形状;二是一个格点只能匹配一个原子。因此,可以将约束也写成二次多项式形式,二者的惩罚项系数分别记为
接下来,就可以使用量子算法对这个QUBO model进行求解,这样就可以得到在约束条件下,使得能量最低状态的原子与网格匹配的状态,即QUBO模型的解,该解可用于得到最终的采样构象。
2.3 获得配体的对接构象(docking pose)
得到原子在网格中的位置后,就可以计算RMSD (Root Mean Square Deviation),在这里只考虑刚性对接的情况,计算Kabsch RMSD旋转矩阵:
最终的对接姿态可以通过如下公式计算(这一过程可以通过Prody Python包实现):
2.4 适配度 的计算
为了刻画
网格点匹配(Grid Point Matching,GPM)
在GPM方法中,网格点直接在预定义的对接盒
- 生成网格点:在对接盒
中以 的间隔生成网格点; - 计算范德华力:使用AutoDockFR中的AutoGrid工具预计算每个网格点
上的范德华力,并将其保存在每个网格点上; - 定义
:对于每个配体原子 和网格点 , 被定义为当原子 放置在网格点 上时的范德华力。
虽然AutoDockFR的打分函数中还包括静电和溶剂化项,但在GPM方法中,这些项被忽略,因为它们在离散空间中可能导致误差累积,从而影响性能。
特征原子匹配(Feature Atom Matching,FAM)
在FAM方法中,网格点首先在预定义的对接盒
- 中性的碳原子(neutral C)
- 氢键供体氢原子(H-bond-donor H)
- 氢键受体氧原子(H-bond-acceptor O)
配体原子
2.5 经典计算机的构象打分
之前已经提到,GPM和FAM的打分函数(
文章整体的思路可以由下图概括:

图2 基于QUBO的分子对接算法框架示意图
3. 求解结果
3.1 采样性能比较
本文在CASF-2016数据集上评估了不同采样方法得到的构象与真实构象之间的最小差异(mRMSD, minimum RMSD),结果如下:

图3 GPM和FAM在CASF-2016上的采样表现
- GPM:在257个测试案例中,GPM能够在225个案例(87.5%)中采样到高质量的对接构象(最小均方根距离mRMSD < 2 Å),平均mRMSD为1.1 Å,最大mRMSD约为5 Å。这表明GPM具有较强的采样能力,能够有效地找到接近真实晶体结构的对接构象;
- FAM:在相同的测试案例中,FAM在173个案例(67.3%)中采样到高质量的对接构象,平均mRMSD为1.8 Å,最大mRMSD为9.4 Å。虽然FAM的性能略逊于GPM,但仍然显示出一定的有效性;
- Glide SP(benchmark):作为一种广泛使用的对接软件,Glide SP在CASF-2016数据集的240个案例(93.4%)中能够采样到高质量的对接构象,平均mRMSD为1.0 Å,最大mRMSD为6.8 Å。GPM的性能与Glide SP接近,表明GPM在采样能力上具有竞争力。
3.2 影响采样性能的因素

图4 GPM和FAM的采样影响因素分析
本文对可能影响采样性能的因素进行了研究,比较了如下几种因素:
- 配体质量:采样中的mRMSD与配体质量几乎没有相关性(GPM的R² = 0.001,FAM的R² = 0.009),说明这两种方法不受配体大小的显著影响;
- 量子比特数量:mRMSD与量子比特数量的相关性也很低(GPM的R² = 0.014,FAM的R² = 0.006),表明这两种方法在量子计算资源上的效率较高;
- 离散化误差:mRMSD与离散化误差具有良好的线性关系(GPM的R² = 0.938,FAM的R² = 0.916),且回归系数接近1。这表明对接盒的离散化程度是影响采样性能的主要因素。
3.3 计算成本分析

图5 GPM和FAM所需比特数分析
- 量子比特需求:GPM在CASF数据集上最大的量子比特需求为13,908,而FAM为3,640。这比当前实验CIM的最大量子比特数(约10万个)小1-2个数量级,为未来开发更复杂的对接方法提供了空间;
- 运行时间:基于CIM的计算优势,采样时间估计为毫秒级,比经典计算机快3个数量级;
- 问题规模分析:GPM和FAM适用于小分子和肽的对接,因为它们的量子比特需求与配体原子数量呈二次关系,限制了输入配体原子的数量约为156(GPM)和305(FAM),分别对应于15和30个残基的肽。由于量子比特数量的限制,这两种方法目前不适用于蛋白质-蛋白质对接。
4. 总结
大规模的组合优化问题求解对于传统计算硬件提出了不小的挑战,很多从算法层优化尝试在这类复杂问题上寻求一个兼顾速度和求解质量的方法。计算机辅助药物设计涉及大量的组合优化场景,在上述瓶颈下,很多问题难以在短时间内得到一个高质量的解,这种欠优的策略在药物发现领域往往失之毫厘,差之千里,造成了药物发现中先导化合物筛选假阳性率较高的境地,因此开发又快又好的计算方法是目前该领域的研究热点。
近期,量子计算硬件的发展使得在解决这类复杂问题上提出了新的解决思路,通过借助量子计算强大的并行处理能力,可全局搜所解空间,而得到能量最低的状态组合。该工作通过将分子对接过程的采样问题编码成QUBO model,可以适配光量子计算机进行求解,为分子筛选提供了全新的解决思路。
5. 参考材料
[2] 本项目中的代码目前已经完全开源,可参考:GitHub - JinyinZha/QDock: QDock is a method encoding pose sampling in molecular docking for quantum computers
[3] 目前该开源代码中使用的求解工具为pyqubo,neal 包,可使用玻色量子开发的kaiwu SDK量子开发套件进行替换,请见项目文档。