LigUnity：通过层级式亲和力学习统一虚拟筛选与分子优化

宇宙微尘 · 发表于 1762072609

2025年10月，一篇题为《Hierarchical affinity landscape navigation through learning a shared pocket-ligand space》的论文，作为封面文章发表于Cell旗下期刊《Patterns》。该研究提出了一个名为LigUnity的AI基础模型，旨在解决新药研发早期阶段的核心瓶颈，通过一个统一的框架高效地执行虚拟筛选和活性优化两大关键任务。

任务背景与挑战

在人体中，上万种蛋白质维持着复杂的生命活动，其中许多蛋白质的异常与疾病直接相关，是潜在的药物靶点。然而，目前仅有约10%的蛋白质能被已知的药物分子高效结合，绝大多数靶点仍处于“黑暗”之中，等待着被有效的药物“点亮”。

为这些靶点找到合适的药物分子，通常分为两个关键步骤：

虚拟筛选(Virtual Screening)：利用计算方法，从包含数亿甚至数十亿分子的巨大化合物库中，快速筛选出少数可能与目标蛋白质结合的“苗头化合物”。此阶段的核心诉求是速度。

苗头化合物优化(Hit-to-Lead Optimization)：在找到苗头化合物后，需要对其化学结构进行精细的修改和优化以增强其活性（活性优化），最终得到可进入后续试验的“先导化合物”。此阶段的核心诉求是精度。

传统方法往往将这两个任务割裂开来，使用不同的工具和模型。这种分离导致了模型效果限制：专注于筛选的模型可能无法精确区分结构相似但活性差异巨大的分子；而专注于优化的模型则难以泛化到具有全新化学骨架的潜力分子。

模型方法与核心创新

LigUnity的核心创新在于构建了一个统一的亲和力基础模型，让AI学会一种能同时理解蛋白质结合口袋和药物分子的“共同语言”。

为实现这一目标，研究团队首先构建了迄今为止规模最大的、以实验（Assay）组织的亲和力数据库PocketAffDB，其中包含了蛋白质口袋结构信息和近百万活性数据。基于此，LigUnity通过一种创新的“层级式学习”策略进行训练：

化学骨架判别：首先，模型利于对比学习（Contrastive learning）进行粗粒度的区分。它学习识别活性分子和非活性分子的骨架差异，为虚拟筛选任务打下基础。

药效团排序：然后，模型利于列表排序（Listwise ranking）进行细粒度的优化。它学习对一群结构相似的活性分子，根据其活性的高低进行精确排序，以胜任苗头化合物优化任务。

在预训练期间，LigUnity同时优化上述目标；在推理时，LigUnity将蛋白和口袋映射至同一空间，使用余弦相似度计算其活性。在保证了高精度的同时，LigUnity的速度比传统的分子对接方法（如Glide-SP）快了百万倍。

实验结果

LigUnity在横跨6大类应用场景的8个基准测试中，展现了其卓越的性能。

1. 虚拟筛选任务

全面领先：在DUD-E、DEKOIS 2.0和LIT-PCBA这三个主流虚拟筛选基准测试中，LigUnity的表现超越了全部24种竞争方法，包括传统的分子对接软件和各类机器学习模型。

性能巨大提升：与表现最好的基线模型相比，LigUnity在关键指标“富集因子(EF 1%)”上取得了超过50%的性能提升（p<10⁻⁹）。

强大的泛化能力：即便在排除了与训练集中蛋白质相似（序列相似性<30%）的新靶点上进行测试，LigUnity的性能依然显著优于Glide SP，表现出对未知靶点的强大预测能力和实用价值。

2. 苗头化合物优化任务

零样本性能优越：在JACS和Merck这两个行业公认的FEP基准测试中，在不使用任何目标数据（zero-shot）的情况下，LigUnity的预测性能已优于Glide-SP、MM/GBSA等传统计算方法及其他机器学习模型，展现了其强大的预训练知识。

少量数据即可媲美“金标准”：当使用少量（10-20个）已知数据进行微调后，LigUnity的预测精度（在Merck基准上r²=0.472）已接近计算成本极度高昂的物理计算“金标准”方法FEP+（r²=0.528），为昂贵的实验和计算提供了高性价比的替代方案。

良好的可解释性：尽管未使用蛋白-分子结合构象作为输入，LigUnity仍成功识别出了对结合起关键作用的配体原子和口袋残基，与已知的晶体结构相互作用模式高度吻合，为化学家优化分子提供了可靠指导。

3. 多场景应用的通用性

前瞻研究与骨架跃迁：在模拟真实药物发现的测试中，LigUnity表现出众。在时间分割（用历史数据预测未来新分子）和化学骨架分割（泛化至训练集中未见的全新化学骨架）设定下，它均超越了所有基线模型，证明其具备突破现有化学空间、发现新潜力分子的强大泛化能力。

对多源、异构数据的鲁棒性：真实世界的生物活性数据来源多样、测量单位不一（如 nM vs. % 抑制率）。得益于其独特的“列表排序”机制，LigUnity天然的对测量单位不敏感。在OOD测试中，其性能相比传统回归模型提升高达40.2%，展现了其作为基础模型处理复杂、真实世界数据的卓越适应性。

主动学习应用：在模拟真实研发流程的主动学习框架中，研究团队对TYK2靶点进行研究，从10,000个后续分子中找到活性最好的分子。集成LigUnity的框架仅通过4轮迭代（400活性标注数据），就成功找到了活性最高的3个分子，证明其能以极少的实验成本，高效地指导药物发现进程。

结论与展望

LigUnity通过一个统一的、层级式的学习框架，成功地将虚拟筛选与活性优化相结合，在速度、精度和泛化性上均取得了突破。它不仅是一个强大的预测工具，更是一个具备广泛适用性的基础模型，为加速早期药物发现的全流程奠定了坚实的基础。

该工作由粤港澳大湾区数字经济研究院（IDEA）、晶泰科技（XtalPi）及华盛顿大学的研究者们联合完成。

项目网址

https://idea-xl.github.io/LigUnity

开源代码

https://github.com/IDEA-XL/LigUnity

参考资料

Feng, Bin, Zijing Liu, Hao Li, Mingjun Yang, Junjie Zou, He Cao, Yu Li, Lei Zhang, and Sheng Wang. "Hierarchical affinity landscape navigation through learning a shared pocket-ligand space." Patterns 6, no. 10 (2025).

文章改编转载自微信公众号：智药邦

原文链接：https://mp.weixin.qq.com/s/JUz7A8r-Lq3RGYJZ2HUKyg