破局AI药物设计：清华团队揭示DDI/DTI预测三大核心陷阱与统一范式

admin · 发表于 1780469907

清华大学王童课题组于2026年发表在《Advanced Science》上的综述，核心观点是打破药物-药物相互作用与药物-靶点相互作用预测之间的“任务孤岛”。文章指出，这两个在生物学上紧密关联的任务，在AI研究领域长期分立发展。通过分析40余项前沿算法，发现二者在技术演进上已高度趋同，均走向了基于多模态知识图谱、图神经网络和Transformer的统一架构，这为构建通用模型奠定了基础。文章指出了当前SOTA模型存在的三大核心瓶颈：冷启动难题，评估偏差，捷径学习假象。最后，文章提出了明确的未来发展路径：构建任务协同的统一模型，引入因果推断与物理约束以学习真实机制，并利用大语言模型挖掘非结构化文本来补全知识、克服数据局限。

一、背景与核心问题：被忽视的“统一性”

1. 临床与研发痛点

DDI（药物-药物）：预测联合用药时产生的毒副作用或协同疗效，是临床安全的核心。

DTI（药物-靶点）：预测药物分子与生物靶点（如蛋白质）的结合，是药物发现的基石。

内在联系：宏观的DDI现象往往源于微观的DTI机制（如共同代谢通路），二者在生物学底层是联通的。

2. 技术发展现状：孤岛困境

尽管图神经网络（GNN）和大语言模型（LLM）已广泛应用，但学术界长期将DDI与DTI视为两个分立的任务，导致：

模型架构重复建设。忽视了知识迁移的可能性（如用DTI的分子表征辅助DDI预测）。

二、现状梳理：AI技术的共性演化路径

文章基于对40余项先进算法的分析，指出DDI与DTI在技术栈上呈现高度趋同的特征：

关键发现：这种趋同性论证了“构建统一底层编码器”在技术上是可行的。

三、深度诊断：繁荣表象下的三大核心瓶颈

尽管模型在基准测试中表现优异，但通过定量实验揭示了严重的潜在问题。

1.泛化能力缺失（冷启动难题）

暖启动（Warm Start）：训练集与测试集药物/靶点有重叠。模型表现良好（高AUC），但这只是“记忆”而非“理解”。

冷启动（Cold Start）：预测全新药物或新型靶点（训练集中未出现）。模型性能显著下降。

根本原因：数据稀疏性。现有模型过度依赖训练集中的实体共现信息，无法外推到广阔的未知化学空间。

图1 冷启动场景示意图以及DDI与DTI预测任务中冷/暖启动场景模型性能对比图。a-b, DDI与DTI冷启动划分策略；c-d，DDI

预测冷/暖启动性能对比；e-f，DTI预测冷/暖启动性能对比。

2.评估标准混乱（数据偏差）

不同研究对同一公共数据集（如DrugBank）的预处理（过滤规则、负样本采样）差异巨大。导致相同数据集的样本规模（药物数量、互作对数量）在不同论文中差异显著，算法性能无法进行公平横向对比，存在隐性评估偏差。

3.捷径学习（Shortcut Learning）假象

研究团队设计了“自配对伪负样本实验”。即构造 <药物, 自身>或 <靶点, 自身>这种明显错误的样本。文章发现多种主流模型对这些“伪样本”给出了高互作概率。

作弊机制：模型并未学习真实的物理化学结合规则，而是学会了统计偏见——倾向于给训练集中阳性标签频率高（即“热门”）的药物或靶点直接打高分。这是一种典型的“走捷径”行为。

四、未来路线图：从分立预测到统一因果模型

基于上述问题，文章提出了三个明确的破局方向：

1. 任务协同化

设计统一架构，共享底层的药物编码器和蛋白质编码器。DTI任务学到的精细分子表征，可直接用于提升DDI预测的准确性，实现知识共享。

2. 机制因果化

将因果推断机制融入表征学习，并结合机器学习力场（Machine Learning Force Field）。迫使模型学习真实的分子间作用力（如氢键、疏水作用），而非表面的统计相关性，从根本上解决“捷径学习”问题。

3. 数据补全化

利用大语言模型（LLM） 从非结构化文本（临床报告、科研论文、失败实验记录）中提取隐式的相互作用知识。补全结构化数据库（如DrugBank）的缺失，缓解数据稀疏性，特别是提升对罕见药物和靶点的覆盖。

论文全文：https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.75819

代码仓库：https://github.com/WangGroup-AI/AI4DrugInteraction

课题组主页：https://wanggroup.ai

破局AI药物设计：清华团队揭示DDI/DTI预测三大核心陷阱与统一范式

一、 背景与核心问题：被忽视的“统一性”

二、 现状梳理：AI技术的共性演化路径

三、 深度诊断：繁荣表象下的三大核心瓶颈