突破分子设计瓶颈:融合bVAE与GPU伊辛机的智能优化策略

Akkio
2025-07-01 17:00:36
生命科学
算法解析
本帖最后由 Akkio 于 2025-7-1 17:26 编辑


伊辛机是硬件辅助的离散优化器,性能通常优于纯软件优化方法,可通过超导量子比特、ASIC 或 GPU 等实现。本文展示了如何利用伊辛机提升自动分子设计效率:构建基于图的二进制变分自动编码器获取离散隐向量,训练因子分解机作为代理模型,并通过伊辛机优化。与连续隐空间的贝叶斯优化相比,该方法在三个基准问题中表现更优。对比基于量子比特的 D-Wave 量子退火器和基于 GPU 的 Fixstars Amplify 两类伊辛机,发现 GPU 型扩展性更佳,更适合分子生成。结果表明,基于 GPU 的伊辛机有望推动基于深度学习的材料设计。



在化学空间中搜索具有特定性质的分子,是材料科学与药物研发中极具挑战性的任务。由于化学空间的离散性和维度极高,任何穷举式方法在现实中都不具可行性。


为此,文章《 Chemical design with GPU-based Ising machines 》(基于图形处理器(GPU)的伊辛机的化学设计)提出了一种基于 GPU 的伊辛机结合二进制变分自编码器(bVAE)的生成优化系统,称为 bVAE-IM 。其核心思想是在二进制潜在空间中优化代理目标函数,通过伊辛优化器搜索最佳分子编码,再由解码器恢复出候选分子,实现低标签数据下的高效结构发现。



1. 引言


深度学习驱动的分子设计已成为探索化学空间的核心工具。目前,自动分子设计方法已成功应用于开发 DDR1 激酶抑制剂 、荧光分子 、驻极体 和超分子门调控配体 等。在深度学习模型中,基于隐空间的模型(如变分自动编码器 (VAE) 和 Transformer )是主流方向。Gómez-Bombarelli 等人首次提出利用 VAE 构建隐空间,并通过贝叶斯优化生成分子,该方法后续扩展出语法 VAE 、语法导向 VAE 和连接树 VAE (JTVAE) 等模型。


现有方法采用连续值向量作为隐表示,借助梯度信息实现隐空间平滑搜索,但隐空间适应度函数存在大量局部极小值,导致优化不充分。隐空间维度提升虽能增强表达能力,却加剧了优化难度,形成 “维度 - 优化困境”。伊辛机作为专用硬件优化器,为突破这一困境提供了可能。


伊辛机用于求解二次无约束二进制优化 (QUBO) 问题,M 位 QUBO 问题定义为:



其中,hi​ 和 Jij​ 为实参数。D-Wave 量子退火器是典型伊辛机,基于超导量子比特的量子涨落调控。Wilson 等人尝试将其应用于二进制 VAE 的离散隐空间优化热发射体拓扑和衍射超表面光栅,但受限于量子比特稀疏连接,D-Wave Advantage 虽有 5000+ 量子比特,变量数仅 124 位。


相比之下,基于 GPU 的 Fixstars Amplify 退火引擎采用模拟退火和多 GPU 并行处理,基于传统半导体技术,可处理全连接下 13 万位的大规模问题。本文结合 JTVAE 改进版与 Amplify,构建离散隐空间分子生成框架,验证其在分子设计中的有效性。结果表明,所需位数约为 300,这超出了 D-Wave Advantage 量子退火器的限制。我们的方法在三个不同的基准测试问题中进行了验证,发现在这三个问题中,其性能均优于连续 VAE(变分自动编码器)与贝叶斯优化的组合。研究结果表明,离散隐空间与强大离散优化器的结合是解决各类分子设计问题的可行方案


 2. 算法框架 bVAE-IM


算法假设存在一个预言机(oracle),用于返回分子性质。算法需要两类训练样本:nu个未标记样本和nl个标记样本。未标记样本是不附带任何性质的分子,而标记样本是分子及其对应性质的配对。在样本基础上,算法通过反复生成分子并调用预言机获取其性质来运行,固定调用次数内的最佳性质值衡量效率



图1 bVAE-IM工作流程概览


如图1所示,具体的工作流程如下:


(1)训练bVAE模型:使用带标签的数据训练二元变分自编码器(bVAE)模型,以创建一个离散的二进制空间的潜在空间。该模型通过神经网络编码器处理分子数据,并通过Gumbel-softmax重参数化方法生成潜在表示(位向量)。该过程将分子图转换为可供模型优化的二进制位向量。


(2)训练因子分解机(FM):使用带标签的数据(即分子-性质对)训练因子分解机。因子分解机(FM)用于建模二进制潜在空间与分子性质之间的关系。FM能够捕捉每个分子的线性项和交互项,从而能够预测分子的性质。因子分解机的数学表达式为:



其中,b 、hi 和 wki 是实值参数。该模型与上文的QUBO问题方程类似,但二次项的权重矩阵是由 wki 参数化的低秩矩阵。FM模型通过对数据集进行最小二乘拟合,来训练和优化潜在空间中的分子特征(实验中秩 K 设置为 8,参考文献 [25] )。


(3)转换为QUBO问题:训练好的因子分解机被转换为二次无约束二进制优化(QUBO)问题。这个数学模型使得可以使用伊辛机进行优化。


(4)通过伊辛机优化:伊辛机通过最小化能量来解决QUBO问题。伊辛机模拟退火过程,以找到最低能量配置,进而得到最优的位向量(对应的分子结构)。该过程通过伊辛机硬件实现,从而高效地找到问题的全局最优解。


(5)解码与性质评估通过伊辛机优化后,得到的位向量被解码回分子结构。然后,使用预言机来评估该分子的性质。这些评估结果将用于扩展训练数据集,并用于进一步优化和生成更多满足特定性质的分子


3. 实验结果


3.1 潜在空间的表现力


VAE的重构准确性通过输入示例和输出示例之间的准确重构度来衡量。为了确保潜在表示足够具有表现力,需要将潜在空间的维度设置得足够高,以便表达各种各样的分子。文中使用了bJTVAE(二进制结点树VAE)与JTVAE(结点树VAE)进行对比,发现bJTVAE的二进制潜在空间在表现力上与JTVAE(连续空间)相当。通过从ZINC数据库采样了250,000个分子,并将其划分为220,000个训练数据和30,000个验证数据,实验使用了不同的潜在空间维度进行训练(如d = 50, 100, 200, 300, 450, 600)。



图2 bJTVAE与JTVAE的重构准确性对比


如图2,实验表明,bJTVAE模型在不同潜在维度下的重构准确性随着维度增大单调上升,尤其在维度达到300时准确率接近于JTVAE模型。d = 300 时,bJTVAE的准确性与 JTVAE 大致相当,这意味着bJTVAE的二进制潜在空间能够表达分子而不丢失太多信息。同时,这也暗示分子生成模型需要更高维度的潜在空间,而这超出了 D-Wave 退火器的限制。


3.2 优化性能


文中对bVAE-IM进行了三个基准问题中测试,分别是:


(1)Penalized log P2:辛醇 - 水分配系数 (log P) 结合合成可及性 (SA) 和大环数量惩罚;


(2)TPSA:极性原子表面积;


(3)GSK3β+JNK3+QED+SA:整合激酶抑制、类药性和合成难度的评分 。



图3 不同方法生成的分子性质分布


如图3,这些属性是通过RDKit和MolEvol进行计算的。


此外,实验还使用了bVAE-IM与VAE-BO(变分自编码器和贝叶斯优化结合)以及随机采样进行比较。如表1,实验结果表明,bVAE-IM生成的分子在三个基准问题中的表现均优于VAE-BO和初始的带标签数据



表1 由bVAE-IM、bVAE-Random、VAE-BO和VAE-Random生成的最佳分子统计


3.3 分子生成与优化


此外,如图3所示,实验通过bVAE-IM的优化,在多个潜在空间维度(50、100、200、300、450和600维)下测试了分子的性质分布。从结果中可以看出, bVAE-IM 相比于随机采样和贝叶斯优化具有更好的分子生成性能。在 50 维和 100 维时,GPU 基伊辛机(Amplify)的表现超越了 D-Wave 量子退火机,尤其是在优化过程中,GPU 优化的效率更高


3.4 计算时间


在表1中可以看到,对于每次分子生成的时间,bVAE-IM比VAE-BO更高效。尽管D-Wave量子退火器也被用于实验,但在性能上,Amplify(GPU基伊辛机)在50维和100维时表现更好。虽然量子优化的退火时间和哈密顿控制的误差限制了D-Wave的表现,但随着量子技术的发展,情况可能会有所改善。


从实验结果中可以看出,bVAE-IM结合了离散潜在空间和强大的离散优化器,相比于VAE-BO和随机采样方法,在多个分子优化任务中表现得更加优秀。这表明,使用高效的优化器(尤其是在离散潜在空间中),可以构建出竞争力的分子生成器


4. 创新与展望


4.1 创新点与价值



  • 离散隐空间 + 伊辛机框架:突破连续隐空间的局部极小值瓶颈,结合 bJTVAE 的高表达离散隐空间与 Amplify 的大规模优化能力,在分子生成中实现更优性能。

  • GPU 伊辛机的实用性:Amplify 基于成熟半导体技术,可处理 300 维以上问题,克服 D-Wave 的变量数限制,更适合分子设计场景。


4.2 局限性与展望


当前量子伊辛机存在扩展性和噪声问题,但技术进步可能逆转这一局面。未来可将该框架扩展至 Transformer 等新型隐空间模型,进一步提升分子生成效率。

4.3 数据与代码


代码开源于https://github.com/tsudalab/bVAE-IM,复现数据可从https://zenodo.org/badge/latestdoi/608057945获取,Fixstars Amplify 可通过 Python API 免费使用(截至 2023 年 3 月)。

5. 结论


本文提出了离散隐空间与 GPU 伊辛机结合的方法,在分子设计中展现出优于传统连续隐空间贝叶斯优化的性能,验证了高性能离散优化器在突破维度 - 优化困境中的关键作用。基于 GPU 的伊辛机为深度学习驱动的材料设计提供了可扩展、高效的新工具,有望推动该领域的研究进展。


 




论文链接:https://pubs.rsc.org/en/content/articlehtml/2023/dd/d3dd00047h

49
0
0
0
关于作者
相关文章
  • 融合记忆核理论的神经网络:解析生物分子最慢运动模式的新工具 ...
    识别能够准确捕捉蛋白质构象变化最慢时间尺度的集体变量(CV)对理解众多生物过程至关重要。本研 ...
    了解详情 
  • 重磅综述(IF=58.7) | 人工智能在药物研发中的应用 ...
    药物研发是一项复杂且耗时的工作,传统模式主要依赖研发人员的经验积累与反复试错。以大规模语言 ...
    了解详情 
  • QAMA:基于量子计算的深度学习架构的突破与创新 ...
    在由玻色量子协办的第二届APMCM“五岳杯”量子计算挑战赛上,来自中南大学的Ciallo团 ...
    了解详情 
  • 机器学习笔记(1)——回归与分类问题中的损失函数、代价函数与KL ...
    本文系统梳理了机器学习中常用的损失函数及其在回归与分类任务中的应用与特点。在回归场景下,介 ...
    了解详情 
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看