机器学习赋能靶向蛋白降解药物设计:PROTACs与分子胶的技术综述

宇宙微尘
2025-12-23 00:12:26
本帖最后由 宇宙微尘 于 2025-12-23 00:12 编辑


靶向蛋白降解(TPD)通过利用泛素–蛋白酶体系统(UPS)实现对致病相关蛋白的催化性去除。蛋白水解靶向嵌合体(PROTAC)和分子胶代表了两类互补的TPD技术模式,然而其理性设计仍受到三元复合物形成、配体发现以及药代动力学优化等挑战的限制。近期的机器学习(ML)进展正通过预测建模、虚拟筛选以及降解剂候选物的生成式设计来解决这些障碍。


2025年12月9日,加利福尼亚大学的研究人员在《Drug Discovery Today》上发表综述文章,题为“Machine learning in targeted protein degradation drug design: a technical review of PROTACs and molecular glues”。该综述对ML如何推动TPD药物的设计与优化进行全面技术性概述,重点关注PROTACs和分子胶。具体而言,讨论了ML在三元复合物预测、连接子设计、降解效率预测以及降解剂候选物从头生成中的应用。




应用于TPD的机器学习模型原理


多种机器学习架构已被用于开发现代的TPD计算方法。在这些模型中,图神经网络(GNN)因其能够将分子和蛋白界面表示为图结构而成为核心方法,其中原子或氨基酸残基作为节点,化学键或接触点构成边。通过在消息传递层中传播结构信息,GNN能够学习局部化学环境及远程相互作用模式,使其特别适合捕获POI–E3–连接子体系内的协同性(图1a)。基于Transformer的模型(图1b)利用自注意力机制学习上下文依赖关系,适用于线性表示(如SMILES)中的特定连接子连接点、蛋白序列或分子–蛋白复合的多模态输入。


与上述模型并行,生成式建模框架(图1c),包括强化学习Agent、变分自编码器以及三维扩散模型,能够生成符合几何、理化及药理约束的新型连接子或完整降解剂结构。这些生成方法日益与整合AlphaFold2、Rosetta或分子对接(MD)特征的结构驱动ML管线结合。此类多模态系统(图1d)利用蛋白几何构型、口袋可及性以及预测的相互作用热点来优化模型输出。经典的ML算法,如随机森林(RF)、支持向量机(SVM)和梯度提升方法,仍然在ADMET预测、降解/非降解分类以及大型虚拟库的快速筛选等任务中发挥重要价值,并提供可解释的特征贡献,从而补充更复杂的深度学习模型。



图1 靶向蛋白降解中ML模型


PROTACs特性


PROTACs由三个关键组成部分构成:能够结合目标蛋白(POI)的配体;能够结合E3连接酶的配体;以及连接两者的化学连接子。这种模块化设计使PROTACs能够诱导形成瞬时的三元复合物,从而使POI与E3连接酶相互靠近,促进E2结合酶将泛素基团转移到POI上(图2a)。该空间构型推动目标蛋白的泛素化,并引发蛋白酶体介导的降解。与传统小分子抑制剂相比,一个显著优势在于其催化性的作用机制。PROTACs无需持续占据靶点位点即可发挥作用;单个PROTAC分子即可驱动多轮POI降解,因此即使化合物被清除后,仍能实现对目标蛋白功能的持续抑制。这一特性有助于克服传统抑制剂所面临的部分抑制、高剂量需求以及因靶点过表达或突变导致的获得性耐药问题。


然而,PROTACs的有效开发受到三元复合物形成高度动态且非线性特征的显著挑战。另外,PROTACs的理化性质(通常具有较大分子量和较高极性表面积)对细胞通透性、口服生物利用度以及代谢稳定性构成显著障碍。这些药物相似性方面的限制显著阻碍其向可行的治疗药物转化。



图2 通过PROTACs和分子胶实现靶向蛋白降解的机制


分子胶特性


分子胶是小分子、单价化合物,其作用机制是诱导或稳定E3连接酶与目标蛋白(POI)之间的直接蛋白–蛋白相互作用。分子胶通常结合在E3连接酶与POI的界面处,从而促进泛素转移及后续蛋白酶体介导的降解,而无需通过连接子实现空间跨越(图2b)。由于其尺寸更小、结构复杂性更低,分子胶通常具有更优的药代动力学特征,包括更好的溶解度、膜通透性和口服生物利用度,这些特性使分子胶更容易整合到传统药物化学管线中。沙利度胺及其衍生物是该类分子的典型代表。多数分子胶是通过表型筛选或现有药物的回溯性分析偶然发现的,而非通过靶向设计获得。此外,缺乏普适性的结构规律与明确的构效关系(SAR)进一步加剧了先导化合物优化的复杂性。能够模拟这些非显性相互作用的计算工具仍处于早期阶段,因此开发预测平台对于实现分子胶的理性设计至关重要。


ML在PROTACs设计中的应用


预测三元复合物形成


在PROTACs机制中,首要步骤是目标蛋白(POI)、E3连接酶以及PROTAC分子(特别是其连接子部分)之间形成稳定的三元复合物。早期计算方法主要依赖对接与基于物理的评分策略,此类基于物理的策略证明了从头建模三元复合物的可行性,但仍计算量大,且受限于用于基准验证的实验解析三元结构数量有限。ML通过从已知活性降解剂中学习模式,为此提供了替代方案,代表性方法整理见表1。


表1 用于预测PROTACs三元复合物形成的机器学习模型



片段连接


传统的片段连接方法通常在一维或二维空间生成连接子,并且往往忽略三元复合物的三维结构背景。相比之下,新兴的AI驱动方法能够学习连接POI识别配体与E3连接酶配体所需的精细几何与化学约束。通过将两个片段以SMILES或图结构形式编码,模型可以生成候选连接子,或生成完整的PROTAC分子来实现桥接(图3)。这些模型使用包含数千个已发表PROTAC的数据库(如PROTAC-DB)进行训练,从而学习可同时适配两侧结合口袋的连接子长度与组成模式。该应用的代表性方法如表2所示。


图片


图3 ML应用于PROTACs设计的工作流


表2 用于片段连接与从头连接子生成的机器学习框架



降解效率与选择性预测


另一类研究关注预测PROTACs的定量降解性能,即其诱导目标蛋白敲低的效率与选择性。这包括预测指标,如50%降解浓度(DC_50)、蛋白最大降解比例(D_max)以及对非靶蛋白的脱靶效应。ML方法展示了处理这一预测问题的潜力,通过学习已知PROTACs活性数据库中的模式。值得注意的是,PROTAC-DB、PDB及其他公共数据集现已收录数百个具实验测定细胞降解结果的PROTACs,为训练模型提供基础。代表性机器学习模型整理见表3。


表3 用于预测PROTACs降解活性与选择性的机器学习模型



分子胶发现与设计


分子胶因其紧凑的结构和不依赖连接子的作用机制而具有独特的药理学优势。图4概述了用于分子胶开发的关键ML流程。具体来说,现代方法将ML模型整合到虚拟筛选中,以更有效地优先排序命中化合物。一种策略是使用基于ML的评分函数对对接构象进行重新排序或预测结合稳定性。此外,ML驱动的结构建模也指导虚拟筛选。除了筛选现有化合物,ML还可用于全新分子胶候选分子的设计。生成模型(如深度生成网络或强化学习Agent)能够提出优化后的化学结构,以实现类似分子胶的活性。发现高效分子胶仅是挑战的一部分,所选候选化合物还需具备可接受的ADMET性质,才能成为可行药物。机器学习长期应用于ADMET预测,对分子胶同样适用,可帮助优化其类药属性,通常落在传统定量构效关系(QSPR)模型的适用范围内。以上应用的代表性方法整理见表4。



图4 AI增强的分子胶设计流程


表4 分子胶发现与设计的ML研究



挑战及未来方向


数据偏倚、稀缺性与增强策略


除了数据量限制,当前降解剂数据集还存在固有偏倚和不平衡问题。缺乏非降解剂数据限制了分类器校准,并导致在不平衡数据集上评估时,性能指标被高估。此外,实验检测的异质性和噪声引入了标签不确定性,降低了预测可靠性。


为缓解这些数据问题,出现了若干计算策略。数据增强可通过扰动已知骨架、替换连接子或随机化不满足几何约束的warhead–ligase配对,合成生成非活性或弱活性分子。迁移学习则提供另一途径,先使用大型化学或生物活性数据集对降解剂模型进行预训练,再在有限的PROTACs或分子胶数据上微调。这一策略利用更广泛的化学先验信息,同时降低对特定E3类别的过拟合。与此同时,通过深度生成或扩散模型生成的合成数据,可通过创建伪三元复合物和模拟降解曲线来扩展训练多样性。当结合不确定性量化或噪声感知损失函数时,这些策略可增强模型对实验变异的鲁棒性。


可解释AI与降解剂设计的模型可解释性


虽然注意力机制提供了决策路径的初步洞察,但需要更深入地采用可解释人工智能(XAI)方法,以建立医药化学信任并促进假设生成。在药物发现中,SHAP、显著性图和基于注意力的可视化框架已应用于QSAR、结合亲和力和毒性预测任务,用于突出驱动模型输出的分子特征或子结构。在降解剂背景下,采用XAI可以使化学家追踪高降解评分的预测原因至特定的warhead–linker–E3配体子组件,或识别分子为何被标记为潜在非靶标风险。


迭代机器学习实验工作流程与人机交互系统


近期报告显示主动学习能够降低模型误差并提高命中率。要在TPD背景下实现这一范式,未来研究应重点展示如何在细胞或蛋白质实验中验证PROTAC或分子胶的ML预测,并将新获得的活性或无活性数据整合回训练集,以重新训练或微调模型。这类人机增强闭环能够考虑实验噪声、化学空间变化和实验方法演进。引入领域专家反馈(如药物化学家对失败分子的审查)进一步提升学习效果,捕捉隐性设计决策。将这些迭代的ML–实验反馈循环嵌入工作流程,将加速模型的泛化能力、提高候选命中质量,并使计算设计更贴近实际降解剂发现操作。


降解剂药物开发的转化障碍及解决方案


尽管在PROTACs和分子胶领域取得了进展,但将其转化为临床成功药物仍面临重大障碍。最紧迫的问题包括药代动力学(PK)和类药性、非靶向效应以及理解特定背景下的疗效。机器学习可通过将ADMET预测整合到降解剂设计过程中提供帮助。一些生成模型已经在奖励函数中包括预测的溶解度或渗透性。通过结合化学和生物特性,机器学习可利用数据驱动的洞察增强人工专业知识,从而应对当前PROTACs和分子胶开发中的诸多挑战。


监管、可扩展性与产业整合挑战


在降解剂设计工作流程中,这意味着ML模型不仅需要展示预测性能,还需提供可追溯的文档(数据来源及版本)、在定义使用场景(COU)下的模型验证,以及对模型的持续监控。鉴于PROTACs和分子胶的新颖性,模型开发者应规划算法、训练数据集、输出决策逻辑及部署后再训练在监管提交中的呈现方式。这包括考虑负样本(非降解剂)和多样化的E3/靶标环境如何影响模型的泛化能力,以及如何记录模型可解释性、审计轨迹和人工监督。


总结


ML正逐渐成为PROTAC与分子胶理性设计的核心驱动力,有助于突破TPD领域的多项关键瓶颈。从预测三元复合物稳定性与降解效率,到生成新型骨架和连接子的分子设计,ML为实验流程提供了强有力的数据驱动补充。尽管可解释性不足、数据稀缺以及与结构和功能实验的深度融合仍是重要挑战,但多模态建模与可解释AI的快速发展正在逐步填补这些空白。随着数据集不断扩充、预测框架日益成熟,ML将以更高的精度、可扩展性和情境感知能力,加速降解剂发现进程,推动更加系统化、可转化的TPD治疗策略构建。



参考链接:


https://doi.org/10.1016/j.drudis.2025.104563





文章改编转载自微信公众号:智药邦


原文链接:https://mp.weixin.qq.com/s/oiVj6QAR_K50TSk0F3TTSA

18
0
0
0
关于作者
相关文章
  • 药物研发加速利器:BiVAE-CPI 模型让化合物 - 蛋白互作预测准确 ...
    青岛科技大学团队在 Journal of Chemical Information and Modeling 发表《 BiVAE-CPI: An ...
    了解详情 
  • 高效长序列建模突破:OmniReg-GPT赋能全面基因组调控理解 ...
    2025 年发表于《Nature Communications》的研究,提出面向基因组序列理解的生成式基础模型 OmniR ...
    了解详情 
  • Transformer-LSTM混合模型在时序预测中的应用
    本文探讨了Transformer-LSTM混合模型在时序数据分析中的优势与实现方法。LSTM擅长捕捉短期依赖关 ...
    了解详情 
  • GraphPep:基于相互作用驱动的图学习框架用于蛋白–肽复合物的结 ...
    蛋白–肽相互作用在信号转导、免疫调控和药物设计中具有核心作用。准确预测蛋白–肽复 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行QBM-VAE示例代码,根据系统提供的随机seed值,求出正确的FID值。

通过奖励

10个一年效期的550量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

替换seed值

您的seed值为

第三步

输入您计算的FID值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

550bit*10

配额