本帖最后由 Jack小新 于 2026-6-23 18:06 编辑
2026年6月11日,中国科学院上海药物研究所郑明月、张素林课题组于Nature Machine Intelligence在线发表论文,题为“Bridging three-dimensional molecular structures and artificial intelligence with a conformation description language”。该研究首创分子构象描述语言ConfSeq,通过将三维分子构象编码为离散标记序列,成功将构象预测、从头三维分子生成、形状条件分子生成及三维分子表征学习等任务统一转化为序列建模问题,并在多项基准测试与药物发现湿实验中系统评估了该框架的性能与应用价值。
研究背景
人工智能(AI)正深刻重塑诸多学科的研究范式。语言模型(LMs)依托自监督学习从大规模标记序列中提取复杂模式,已在通用智能系统(如GPT‑4、Gemini)与领域专用模型(如ESM、GeneFormer、NT、xTrimoPGLM、Evo)中广泛应用,为科学研究与产业落地提供了全新计算工具。
在药物与化学研究领域,化学语言模型(CLMs)已成为重要方向。通过将分子二维拓扑结构编码为SMILES、SELFIES等离散标记序列,CLMs可支持分子翻译、从头生成与表征学习等二维建模任务,并在多项基准中展现竞争力。基于同类思路,团队此前还开发了反应描述语言ReactSeq,将化学反应过程显式编码为标记序列。
分子理化性质、反应活性及与生物靶标的相互作用,不仅由二维拓扑连接决定,更受三维空间构象的显著影响。因此,发展高效的三维分子表示与生成方法,是AI驱动化学与生命科学的关键课题。相较成熟的二维建模,语言模型在三维场景的推广仍受限于表示方式:当前主流多由图扩散等几何生成模型主导,这类方法常需定制空间结构设计,且在生成效率、结果筛选与内置评分上存在瓶颈。如何将化学语言模型从二维自然拓展至三维构象,成为亟待探索的问题。
已有初步尝试包括:Lingo3DMol利用LMs生成片段SMILES,辅以空间模块预测片段位置组装三维分子,虽有一定效果,但依赖非通用空间组件,且片段构建易忽略环系柔性;另有研究直接将原子笛卡尔坐标转为字符串拼接SMILES生成三维分子,虽概念直观,却因坐标易受平移旋转影响而缺乏SE(3)不变性,且无系统标记化策略,加之语言模型不擅处理连续数值,空间关系学习受限,尚需更全面的任务与数据集验证。
将LMs推广至三维建模的核心难点,在于缺少高效、稳定且适配标记化学习的三维构象表示语言。理想方案需将连续无序几何信息转为离散序列标记,兼顾SE(3)不变性、简洁性与可解释性。为此,团队开发ConfSeq,选取二面角、键角、伪手性三类内在几何元素离散化为标记,策略性嵌入SMILES框架:既保留SMILES可读性以支持枚举数据增强,又将几何标记与原子/化学键上下文关联,助力LMs学习几何‑结构关系。
依托ConfSeq,本研究将构象预测、三维生成与三维表征等多类任务重构为序列建模,采用标准Transformer架构在多项基准中优于既有方法;同时利用语言模型的生成效率与自回归概率,为候选构象或分子提供内在置信度评分。通过虚拟筛选与体外实验,ConfSeq实用价值得到验证:团队发现多个新型STING与ALDH1B1抑制剂,IC₅₀介于0.338‑3.51 μM。综上,ConfSeq为语言模型处理三维分子建模提供了可行表示框架。
图1 化学语言模型与ConfSeq语法概述。(a)既往基于CLMs的二维分子建模工作。(b)基于ConfSeq的三维分子建模。(c)二面角和伪手性的示意图。
ConfSeq设计概述
ConfSeq系统编码三维构象,核心是对三类几何参数引入自定义标记嵌入SMILES。二面角由四个连续成键原子i‑j‑k‑l定义,描述平面i‑j‑k与j‑k‑l的夹角。为避免同一中心键多条路径与多角度值导致的编码歧义,团队设计确定性路径选择算法,为每个可旋转键分配唯一二面角路径;角度四舍五入取整,以尖括号封装(如“<70>”),插入SMILES对应键标记位,实现唯一确定性编码。
键角由三个连续成键原子i‑j‑k定义,测量中心原子j处键j‑i与j‑k夹角;角度(0°‑180°)取整后以尖括号加后缀“|”区分(如“<115>|”),紧跟中心原子标记之后,建立直接几何‑原子上下文关联。
伪手性用于弥补仅靠二面角无法描述的非手性原子周围构象歧义:例如二面角1‑2‑5‑6定取向后,原子5上取代基7与8仍有两种排列。伪手性定义为从最低编号取代基俯视时,周围取代基顺时针/逆时针排布,分别以“{”“}”表示,依原子编号置于对应二面角标记后(“<59>{”)或前(“{<59>”);与二面角结合可唯一指定可旋转键周围空间排列。
相比基于绝对坐标的三维分子语言,ConfSeq采用内坐标表示,利于捕获有效构象所在的低维流形并降低建模复杂度。内坐标标记嵌入SMILES后,同步保留化学拓扑与三维几何信息。相较于仅考虑可旋转键二面角的图式内坐标模型,ConfSeq增补环内二面角、键角与伪手性,将平均重构误差从0.65 Å压缩至0.23 Å。
基于ConfSeq的三维构象预测
为验证适用性,团队首先将ConfSeq用于三维构象预测:采用标准Transformer架构,输入分子SMILES翻译为ConfSeq序列,再确定性解码得三维构象。模型在GEOM‑Drugs数据集训练评估,以Coverage(COV)和Matching(MAT)分别度量精确率(P)与召回率(R)。
结果显示,ConfSeq在各指标上表现优异。对比此前最优Tor. Diff.,0.75 Å阈值下COV‑P从47.9%升至58.4%,MAT‑P从0.86 Å降至0.77 Å。借助语言模型采样机制,可通过调整温度调节召回率‑精确率权衡;不同温度下ConfSeq均形成更优的MAT‑P/MAT‑R帕累托前沿,代表性构象显示温度可调控结构多样性。这表明构象预测性能宜用完整召回率‑精确率曲线评价,而非单点指标。
ConfSeq另一特点是利用自回归逐步概率赋予预测构象定量置信度评分。置信度升高时,MAT‑R稳定而MAT‑P明显下降,说明评分可优先筛选高质量候选。进一步在测试集量子化学优化构象上分析,多数分子置信度与能量负相关,平均Pearson相关系数‑0.576;可旋转键少的分子相关性更强,部分低于‑0.9。在更大、更多样化的QMugs数据集上,ConfSeq模型仍优于此前较好方法,体现跨化学空间的稳健性。
图2 ConfSeq在三维分子构象预测上的性能展示。(a-b)ConfSeq与基线模型在COV(阈值为0.75 Å)(a)和MAT分数(b)方面的比较分析。(c)ConfSeq在不同采样温度下的MAT-P和MAT-R分数。(d)按置信度分数百分位数分层统计的生成构象MAT指标,其中较低的百分位数表示模型置信度较高。(e)模型推导的置信度分数与量子化学计算的构象能量之间Pearson相关系数的分布,红线表示平均值。(f)置信度分数与能量之间呈现最强负相关的代表性分子案例,其中ρ表示Pearson相关系数。(g)ConfSeq在不同采样温度下生成的示例构象。
基于ConfSeq的无条件三维分子生成
确认构象预测可靠后,团队拓展至无条件三维分子生成——从头药物设计基础任务,即在无约束下从学习分布生成三维分子探索化学空间。采用仅解码器(decoder‑only)Transformer,与代表性图扩散方法在二维、三维指标基准比较。
二维评价显示,ConfSeq接近100%化学有效性(validity)与较高唯一性(uniqueness),优于基线;部分基线在定量类药性(QED)、合成可及性(SAS)上与训练集偏离,而ConfSeq更好复现分布。ChemNet嵌入表明生成分子与训练集相似度高,说明模型捕获了常见结构基序。
三维评价中,ConfSeq生成结构物理合理且构象分布贴近训练数据:PoseBusters有效性(PB‑validity)达82.3%,较此前SOTA提升6%;最小RMSD降至0.1024(降幅35%)。二面角MMD从0.0304降至0.0070,键角MMD从0.1044降至0.0543。基线角度分布常过平滑呈单峰,ConfSeq准确捕捉训练数据多峰特征;E3FP分析显示生成分子与训练分布总体相似性最高。得益于语言模型推理效率,GPU采样速度约为SOTA扩散模型(GCDM)的285倍。
生成分子与ChEMBL数据库比对发现:1万样本中ConfSeq命中91个已知活性分子,其他模型最多13个(多为小原子数简单结构)。综上,ConfSeq生成分子兼具二维/三维有效性,理化性质与构象特征与训练集高度一致。
图3 ConfSeq在无条件三维分子生成上的性能。(a-b)生成分子的物理化学性质分布,包括QED(a)和 SAS(b)。(c)生成分子的ChemNet嵌入的PCA可视化。(d-e)ConfSeq和基线模型生成分子中C–O–C 键角(d)和C–C–C–C二面角(e)的经验分布。(f)E3FP分子指纹的PCA投影。闭合等高线表示密度分布,突出显示其构象分布与训练集的相似性。(g)ConfSeq生成的与ChEMBL数据库中生物活性化合物完全匹配的代表性分子示例。(h)在不同二维相似性阈值下,生成分子与ChEMBL条目匹配的比例。
基于ConfSeq的形状条件三维分子生成
鉴于无条件生成表现良好,团队进一步攻关形状条件生成:在满足预设三维形状约束下保持结构新颖性,关联骨架跃迁、专利空间探索等药物设计场景。将分子表面表示为点云,用旋转不变表面卷积(RISConv)提取几何不变特征,再由Transformer解码器生成解码为三维分子的ConfSeq序列。
二维/三维评价显示,ConfSeq的PB‑validity达93.1%(DiffSMol 85.1%,SQUID 70.1%),化学有效性近100%。生成分子形状相似性更高、二维相似性更低,利于几何约束下获取骨架新颖候选。在高形状相似性(>0.85或>0.9)与低二维相似性(<0.3或<0.2)组合标准中,ConfSeq成功率分别为5.1%、7.2%、23.1%、29.0%,较SOTA提升24%‑210%。
置信度评分筛选可提升性能:最严标准(形状>0.9,2D<0.2)下,取前10%候选命中率从5.1%增至16.8%。ChEMBL回顾性案例显示ConfSeq能生成形状与生物活性相似但骨架不同的分子。综上,ConfSeq是有效的形状引导生成框架,具备骨架跃迁应用潜力。
图4 ConfSeq在形状引导的三维分子生成上的性能展示。(a)基于ConfSeq的模型示意图,展示从分子表面点云到三维分子生成的工作流程。(b)不同生成方法在有效性(V)、唯一性(U)、PB有效性及其乘积指标方面的定量比较。(c)各模型的骨架跃迁成功率,该指标由形状相似性阈值(>0.85/0.9)和二维相似性阈值(<0.3/0.2)的不同组合定义。(d)按置信度分数百分位数分层统计的ConfSeq生成分子的骨架跃迁成功率,其中彩色水平线表示每种阈值组合下的平均成功率。(e–g)DiffSMol (e)、SQUID (f)和 ConfSeq (g)生成分子的形状相似性与二维相似性热图。黑色实线表示平均值,等高线表示等概率密度区域。(h) ConfSeq生成的形状条件三维分子代表性示例,显示其相对于参考化合物在保持三维形状的同时具有不同的二维结构。
基于ConfSeq的三维分子表征学习
除生成外,团队将ConfSeq延伸至三维表征学习:采用仅编码器(encoder‑only)Transformer从ConfSeq序列提取固定维嵌入,通过度量学习训练使向量距离反映三维相似性。模型在ChEMBL、BindingDB共280万个RDKit生成构象的分子上训练。
用训练好模型推断PDB配体表征并PCA可视化:ConfSeq能将结合同一蛋白口袋的配体聚类,即便二维结构差异大。例如两个线性BACE‑1抑制剂与大环抑制剂在结合构象上三维相似,证明表征编码超越拓扑的构象信息。PDB配体还聚为三类靶向簇:激酶抑制剂、天冬氨酸蛋白酶抑制剂、糖苷酶抑制剂,各簇匹配已知配物特征,表明ConfSeq捕获同蛋白家族配体保守三维模式,仅凭二维表征难以实现。
定量虚拟筛选评估于DUD‑E与PCBA数据集:DUD‑E上AUC 0.76、BEDROC 0.34、EF1% 21.25;PCBA上对应0.60、0.046、3.16,优于三维指纹(E3FP、MORSE)与基于比对的三维相似性工具(LSalign、SHAFTS)。ConfSeq直接在表征空间测相似性,免去昂贵成对叠合,效率显著占优。
为大规模应用,团队预计算ZINC In‑Stock、PubChem三维化合物嵌入;单CPU核约3分钟即可算完一个查询分子与9800万PubChem化合物的三维相似性,支持高效大规模虚拟筛选。ConfSeq是可扩展三维表征框架,捕获生物相关构象相似性,赋能此前难规模化的筛选。
图5 ConfSeq在三维分子表征学习上的性能展示。(a)PDB配体基于ConfSeq表征的PCA可视化,展示结合不同蛋白靶点配体的聚类模式。(b)ConfSeq与其他方法在DUD-E数据集上的虚拟筛选性能比较,评价指标包括AUC、BEDROC(α=80.5)和EF1.0%。(c)ConfSeq与其他方法在PCBA数据集上的虚拟筛选性能比较,采用与b中相同的评价指标。各方法在每项指标中按平均性能排序。带星号(*)的方法表示无需结构对齐的三维相似性方法。
ConfSeq驱动新型STING与ALDH1B1抑制剂发现
在真实药物发现中,团队首先对STING(干扰素基因刺激因子)开展基于配物的虚拟筛选。STING构象柔性大、二聚体界面结合使基于结构筛选困难。以14个结构多样已知STING调节剂为查询,用ConfSeq三维表征筛选ChemDiv库(160万),按三维相似性排序,前2万候选聚类去冗并经可得性筛选后选92个化合物实验验证。
蛋白热迁移(PTS)与表面等离子体共振(SPR)表征确认10个化合物结合STING,总命中率约11%;ΔTm +2.5°C至+8.5°C,KD 0.826‑10.9 μM。最优亲和分子509A2(IC₅₀ 2.03 μM)、510A4(IC₅₀ 0.778 μM)拮抗cGAMP诱导STING激活,剂量依赖性抑制cGAMP/diABZI/SR‑717通路,降低STING/TBK1/IRF3/STAT3磷酸化。细胞毒性给出GI₅₀与安全指数:509A2 SI>25,510A4 SI≈4,证实靶向抑制活性与优化价值。
509A2、510A4与参考化合物三维构象高度相似但二维骨架迥异,实现骨架跃迁,拓展STING调节剂化学多样性。对509A2可得类似物评估,510C2活性提升约6倍(IC₅₀ 0.350 μM)且低毒,优于阳性对照H151,可作临床前先导。
进一步对ALDH1B1开展独立虚拟筛选,发现3个验证抑制剂,IC₅₀ 0.338‑3.51 μM。两案例共同印证ConfSeq在基于配物虚拟筛选中的可迁移性,适用于不同靶点候选发现。
图6 应用ConfSeq于STING靶点的虚拟筛选结果。(a)虚拟筛选工作流程示意图。(b)十个经验证的 STING结合化合物的化学结构。三维结构叠合图(插图)显示两个命中化合物(绿色棒状模型)与已知 STING调节剂(粉色棒状模型)的叠合,说明尽管二维骨架不同,但通过保持三维构象实现了骨架跃迁。(c) PTS实验结果显示,十个候选化合物均可提高人源STING的热稳定性,其中SR-717作为阳性对照。(d) 十个候选化合物的生物物理表征汇总,包括PTS测得的ΔTm值以及SPR测得的其与人源STING相互作用的KD值。(e) SEAP报告基因实验的剂量–反应曲线,显示指定化合物在THP-1巨噬细胞中对STING通路的抑制作用,其中H151作为参考对照。THP-1巨噬细胞先用指定化合物预处理1h,随后用5 μM cGAMP刺激24h。误差线表示四次独立实验的均值±标准误。(f-g) STING通路抑制的western blot分析:在cGAMP刺激的THP-1巨噬细胞中,509A2 (f) 和510A4 (g) 以剂量依赖性方式降低STING、TBK1、IRF3和STAT3的磷酸化水平。THP-1巨噬细胞先用化合物预处理2h,随后用 cGAMP刺激2h。β-Tubulin作为上样对照。DMSO,二甲基亚砜。(h) 509A2及其优化类似物510C2的结构比较。
结论
本研究聚焦CLMs拓展三维分子建模的核心瓶颈——缺少稳健一维三维表示,开发了ConfSeq构象描述语言。ConfSeq融合SMILES与三维关键内坐标(二面角、键角、伪手性),保持SE(3)不变性同时保留SMILES可读简洁。
通过将构象预测、无条件/形状条件生成、三维表征学习重构为序列建模,ConfSeq使标准Transformer在基准上竞争力优于既有方法。相比主流图扩散,ConfSeq借语言模型高效推理与自回归评分,提升生成效率并提供内在候选筛选分。湿实验验证实用价值:发现多个活性STING、ALDH1B1新型抑制剂。
综上,研究为“语言模型处理三维分子任务”提供新技术路径。ConfSeq在语言模型与三维结构间搭建可操作表示框架,有望赋能AI驱动分子建模、药物发现与设计。其离散序列表示与量子计算架构对结构化数据的处理逻辑天然适配,未来可探索与量子机器学习结合,加速复杂构象空间搜索与高精度表征。
共同第一作者:上海药物所博士后熊嘉诚、博士生石宇琪、南昌大学‑上海药物所联培硕士生吴敏;通讯作者:郑明月研究员、张素林研究员。合作单位包括中科院上海药物所、国科大、南昌大学药学院、南京中医药大学、瑞典乌普萨拉大学、苏州质子展开科技、上海科技大学。资助来自国家自然科学基金、重点研发计划、中科院战略先导专项、南京大学医药生物技术国重开放基金、中科院青年促进会、上海超级博士后计划、中国博士后科学基金等。
原文:Xiong, J., Shi, Y., Wu, M. et al. Bridging three-dimensional molecular structures and artificial intelligence with a conformation description language. Nat. Mach. Intell.(2026).
https://doi.org/10.1038/s42256-026-01250-8
|