破局AI药物设计:清华团队揭示DDI/DTI预测三大核心陷阱与统一范式

admin
2026-06-03 14:58:27
人工智能
生命科学
论文精读与讲座笔记



清华大学王童课题组于2026年发表在《Advanced Science》上的综述,核心观点是打破药物-药物相互作用与药物-靶点相互作用预测之间的“任务孤岛”。文章指出,这两个在生物学上紧密关联的任务,在AI研究领域长期分立发展。通过分析40余项前沿算法,发现二者在技术演进上已高度趋同,均走向了基于多模态知识图谱、图神经网络和Transformer的统一架构,这为构建通用模型奠定了基础。文章指出了当前SOTA模型存在的三大核心瓶颈冷启动难题,评估偏差,捷径学习假象。最后,文章提出了明确的未来发展路径:构建任务协同的统一模型引入因果推断与物理约束以学习真实机制,并利用大语言模型挖掘非结构化文本来补全知识、克服数据局限。






一、 背景与核心问题:被忽视的“统一性”


1. 临床与研发痛点


DDI(药物-药物):预测联合用药时产生的毒副作用或协同疗效,是临床安全的核心。


DTI(药物-靶点):预测药物分子与生物靶点(如蛋白质)的结合,是药物发现的基石。


内在联系:宏观的DDI现象往往源于微观的DTI机制(如共同代谢通路),二者在生物学底层是联通的。


2. 技术发展现状:孤岛困境


尽管图神经网络(GNN)和大语言模型(LLM)已广泛应用,但学术界长期将DDI与DTI视为两个分立的任务,导致:


模型架构重复建设。忽视了知识迁移的可能性(如用DTI的分子表征辅助DDI预测)。


 


二、 现状梳理:AI技术的共性演化路径


文章基于对40余项先进算法的分析,指出DDI与DTI在技术栈上呈现高度趋同的特征:



关键发现:这种趋同性论证了“构建统一底层编码器”在技术上是可行的。


 


三、 深度诊断:繁荣表象下的三大核心瓶颈


尽管模型在基准测试中表现优异,但通过定量实验揭示了严重的潜在问题。


1.泛化能力缺失(冷启动难题)


暖启动(Warm Start):训练集与测试集药物/靶点有重叠。模型表现良好(高AUC),但这只是“记忆”而非“理解”。


冷启动(Cold Start):预测全新药物新型靶点(训练集中未出现)。模型性能显著下降


根本原因:数据稀疏性。现有模型过度依赖训练集中的实体共现信息,无法外推到广阔的未知化学空间。



  图1 冷启动场景示意图以及DDI与DTI预测任务中冷/暖启动场景模型性能对比图。a-b, DDI与DTI冷启动划分策略;c-d,DDI


                                  预测冷/暖启动性能对比;e-f,DTI预测冷/暖启动性能对比。


2.评估标准混乱(数据偏差)


不同研究对同一公共数据集(如DrugBank)的预处理(过滤规则、负样本采样)差异巨大。导致相同数据集的样本规模(药物数量、互作对数量)在不同论文中差异显著,算法性能无法进行公平横向对比,存在隐性评估偏差。



 


3.捷径学习(Shortcut Learning)假象


研究团队设计了“自配对伪负样本实验”。即构造 <药物, 自身><靶点, 自身>这种明显错误的样本。文章发现多种主流模型对这些“伪样本”给出了高互作概率。


作弊机制:模型并未学习真实的物理化学结合规则,而是学会了统计偏见——倾向于给训练集中阳性标签频率高(即“热门”)的药物或靶点直接打高分。这是一种典型的“走捷径”行为。



 


四、 未来路线图:从分立预测到统一因果模型


基于上述问题,文章提出了三个明确的破局方向:


1. 任务协同化


设计统一架构,共享底层的药物编码器和蛋白质编码器。DTI任务学到的精细分子表征,可直接用于提升DDI预测的准确性,实现知识共享。


2. 机制因果化


因果推断机制融入表征学习,并结合机器学习力场(Machine Learning Force Field)迫使模型学习真实的分子间作用力(如氢键、疏水作用),而非表面的统计相关性,从根本上解决“捷径学习”问题。


3. 数据补全化


利用大语言模型(LLM)​ 从非结构化文本(临床报告、科研论文、失败实验记录)中提取隐式的相互作用知识。补全结构化数据库(如DrugBank)的缺失,缓解数据稀疏性,特别是提升对罕见药物和靶点的覆盖。


 



论文全文https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.75819


代码仓库https://github.com/WangGroup-AI/AI4DrugInteraction


课题组主页https://wanggroup.ai



 

61
0
0
0
关于作者
相关文章
  • 直播预告 | 从结构化剪枝到专用量子采样,大模型压缩的思路与启 ...
    在当前的AI应用落地进程中,大模型的高推理成本和资源占用是突出的瓶颈之一。显存、计算量(FLOP ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas