FLOWR流匹配模型与SPINDR数据集：结构基础药物设计的三维配体生成新范式

Jack小新 · 发表于 1782288344

本帖最后由 Jack小新于 2026-6-24 16:11 编辑

2026年5月28日，来自辉瑞、阿斯利康、查尔姆斯理工大学的研究团队在《Nature Computational Science》发表题为“FLOWR: flow matching for structure-aware de novo, interaction- and fragment-based ligand generation”的研究论文，提出基于Flow Matching的新型三维配体生成框架FLOWR及支持多条件生成任务的扩展模型FLOWR.MULTI，同时构建了高质量蛋白–配体复合物数据集SPINDR，用于解决现有结构基础药物设计数据集的结构缺陷与数据泄漏问题。研究结果显示，FLOWR在生成质量、结合构象准确性、相互作用恢复能力及推理效率方面均优于当前主流扩散模型与流模型，最高可实现约70倍的推理加速。

背景

结构基础药物设计是融合结构生物学、计算化学与药物化学的综合研究方法，研究人员通过分析蛋白质结合口袋的空间形状、残基组成与理化性质，定向寻找可形成稳定结合的小分子化合物。过去几十年间，分子对接、虚拟筛选与结构优化等技术已成为药物发现流程的核心工具，推动了多个创新药物的研发进程。

但传统SBDD方法存在显著局限性：蛋白–配体相互作用包含氢键、静电作用、疏水作用、π–π堆积等复杂机制，仅依靠经验打分函数难以准确描述；理论药物化学空间规模极其庞大，远超现有计算方法的可穷举范围；配体结合构象与结合亲和力的精准预测始终是药物设计的核心难题。

近年来深度学习为上述问题提供了新思路，三维分子生成领域的扩散模型可基于蛋白结合口袋信息直接生成新配体结构，迅速成为研究热点，Pocket2Mol、TargetDiff、DiffSBDD以及PILOT等模型均展现出较强生成能力。但扩散模型通常需要数百次迭代去噪，推理速度较慢，且误差在多步采样中持续累积，易导致生成结果出现高张力构象、不合理键角与较差的药物性质。Flow Matching作为近年兴起的新型生成框架，已在图像生成与分子生成领域表现出优于扩散模型的计算效率，FLOWR正是基于这一背景提出，旨在利用Flow Matching构建更高效、更准确的结构感知三维配体生成模型。

FLOWR模型

FLOWR的核心思想是利用连续流场学习代替传统扩散过程，实现从随机噪声到真实配体结构的连续映射。与扩散模型不同，FLOWR直接学习描述配体生成方向的向量场，可显著减少生成过程所需的计算步骤。

模型整体由Pocket Encoder与Ligand Decoder两部分组成。Pocket Encoder负责提取蛋白结合口袋的多维度信息，包括原子坐标、原子类型、残基类别及键连接关系等。区别于传统扩散模型，FLOWR的蛋白编码过程与采样时间步无关，推理阶段仅需计算一次蛋白表示即可在整个生成过程中重复利用，这一设计极大降低了计算成本，是FLOWR实现高效推理的重要原因。

在获得蛋白表示后，带噪声的配体被输入Ligand Decoder。解码器基于SEMLA等变神经网络架构构建，通过交叉注意力机制实现蛋白与配体之间的信息交互。为保证模型满足三维空间的旋转和平移等变性，FLOWR采用E(3)-Equivariant消息传递机制处理空间坐标信息，同时引入门控等变前馈模块与全层键嵌入机制，提升模型对分子内部结构关系的理解能力。

数据表示层面，FLOWR同步建模连续变量与离散变量：配体原子坐标通过连续Flow Matching学习，原子类型与键类型则通过离散Flow Model预测，既保证三维空间构象的合理性，又确保生成化学结构正确的分子图。最终模型通过求解概率流常微分方程完成配体生成过程。训练阶段还引入了等变最优传输技术，通过寻找最优旋转与原子排列方式，减少噪声分布与真实分布之间的传输距离，进一步提升训练稳定性与采样效率。

图1 FLOWR架构图

PINDR数据集

除模型创新外，研究团队指出现有数据集的质量问题同样制约着结构基础药物设计的发展。当前广泛使用的CrossDocked2020与PDBBind等数据集普遍存在原子缺失、结合构象错误及训练测试集信息泄漏等问题，会导致模型学习偏离真实生物体系的分布，影响实际应用效果。为解决这一问题，研究团队基于PLINDER数据集构建了SPINDR（Small Molecule Protein Interaction Dataset Refined）数据集。构建过程首先去除了多配体复合物、共价结合配体、离子与辅因子等不适用于生成任务的样本，随后利用Schrödinger Protein Preparation Wizard对蛋白–配体复合物进行系统修复，包括补全缺失原子、添加氢原子、推断化学键及局部能量最小化等步骤。结构修复完成后，研究团队利用ProLIF工具对蛋白–配体相互作用进行自动标注，识别包括氢键、疏水作用、芳香积与盐桥在内的13类相互作用。经严格筛选与质量控制后，最终得到35666个高质量蛋白–配体复合物样本。与现有数据集相比，SPINDR首次同时具备晶体结构、能量最小化构象、显式氢原子与蛋白–配体相互作用标注四类特征，为SBDD与分子对接任务提供了更可靠的数据支撑。

表1 SPINDR与CrossDocked、PDBBind数据集比较

实验结果

研究团队首先在CrossDocked2020数据集上对FLOWR进行评估，与Pocket2Mol、TargetDiff、DiffSBDD、DrugFlow及PILOT等代表性方法对比。结果显示，FLOWR在PoseBusters有效率、构象张力、AutoDock Vina评分以及键长和键角分布等指标上均取得最优结果。

在SPINDR测试集上的进一步评测验证了FLOWR的稳定优势：其生成分子的RDKit有效率达到94%，明显高于PILOT模型的79%；PoseBusters有效率达到88%，同样显著优于对照模型。这表明FLOWR生成的分子不仅在二维化学结构上更合理，在三维空间构象上也更符合真实分子分布。

图2 FLOWR与PILOT在有效率和推理速度方面比较

推理效率层面，FLOWR展现出突出优势。由于蛋白编码过程仅需执行一次，其推理成本远低于需反复计算蛋白表示的扩散模型。实验显示，在100步采样条件下FLOWR即可获得优于PILOT 500步采样的结果；当采样步数降低至20步时，模型仍保持较高生成质量，同时实现约70倍的推理加速。

结合能力评估显示，FLOWR生成配体的平均Vina评分明显优于PILOT，说明其生成的构象更容易形成稳定结合状态。同时FLOWR的键长和键角分布更接近真实测试集分布，表明模型具备更好的真实分布学习能力。

图3 生成分子张力能与理化性质分布比较

FLOWR.MULTI：多用途条件生成框架

尽管从头生成可探索全新化学空间，但实际药物研发更关注如何在已有先导化合物基础上进行优化。为此研究团队提出FLOWR.MULTI框架，支持更灵活的条件生成任务。

FLOWR.MULTI采用类似“分子修复”的思路：训练过程中固定部分分子结构，其余部分由模型生成，使模型能够学习如何围绕给定片段、骨架或功能团构建新的化学结构。研究团队重点验证了相互作用条件生成任务：该模式下固定参与关键蛋白–配体相互作用的原子，仅生成其余部分结构。实验结果显示，FLOWR.MULTI的平均相互作用恢复率达到76.1%，远高于普通FLOWR模型，同时其生成分子仍保持较高化学多样性，说明模型并未因条件约束失去探索能力。

为验证实际应用价值，研究团队选取Lp-PLA2（PDB：5YEA）和PDK（PDB：4MPE）两个药物靶点开展案例研究。在相互作用约束、骨架约束和功能团约束三种模式下，FLOWR.MULTI均能够生成具有较高PoseBusters有效率和较优Vina评分的新分子，并成功保留参考配体中的关键结合模式。

图4 FLOWR与FLOWR.MULTI在相互作用恢复率方面比较

讨论与展望

FLOWR的核心贡献在于证明了Flow Matching可有效替代扩散模型用于结构感知三维配体生成。相比传统扩散模型，FLOWR在保持高生成质量的同时显著提升了推理效率，为大规模虚拟药物筛选提供了新的可能性。SPINDR数据集的建立则为领域提供了更可靠的训练与评测平台，通过严格控制数据质量与信息泄漏问题，研究人员可更客观地评价模型泛化能力。

当前模型仍存在一定局限：显式氢原子建模难度较高，训练数据覆盖的化学空间有限，蛋白构象柔性尚未纳入建模过程，且生成构象与真实晶体结构相比仍有优化空间。未来研究方向包括扩大训练数据规模、引入蛋白柔性信息、结合分子动力学模拟，以及整合药代动力学和可合成性预测模型，进一步提升生成结果的实际应用价值。

论文原文：https://doi.org/10.1038/s43588-026-00998-8

FLOWR仓库链接：https://github.com/jule-c/flowr