本文解读Chemical Reviews 2026顶级综述《 Molecular Design with Artificial Intelligence: Progress and Perspectives for Small Molecules 》,系统梳理生成式 AI 在小分子设计中的发展脉络、核心方法、优化策略、评估体系与实验验证。文章阐明 AI 如何破解化学领域 “由性能反推结构” 的世纪逆问题,覆盖从 VAE、GAN、Transformer 到大语言模型、扩散模型的全谱系方法,并整合优化搜索、合成可及性、多目标评估与真实实验验证案例,为药物发现、功能材料开发提供全景式方法论与未来路线图。
化学的发展史,本质是一部逆问题求解史。从古代的染料、化妆品、洗涤剂,到近代的原子论、光谱学、量子化学,人类一直在做同一件事:从观测结果反推物质本质。而今天,生成式人工智能正在带来第四次革命 ——直接从目标性能,创造全新分子。这不是简单的筛选或优化,而是真正的分子创造。
今天解读的这篇发表在Chemical Reviews的顶级综述,用 48 页篇幅,完整讲清了一件事:AI 如何彻底改写分子设计的未来。
一、化学的核心:逆问题与三次革命


图1 化学逆问题与 AI 驱动的闭环分子设计
化学的根本挑战,是看不见、摸不着的原子与分子世界。
我们能测光谱、测性质、测活性,但无法直接看到分子结构,更难直接得到 “拥有指定功能” 的分子。这就是化学的逆问题:由观测反推结构,由性能反推分子。
在历史上,逆问题的突破带来了三次革命。
19 世纪,原子论确立,人类第一次理解物质由原子与分子构成;20 世纪,光谱技术出现,NMR、红外、质谱让我们能 “读” 出分子结构;近几十年,理论化学与模拟普及,让我们能在计算机里预测分子行为。
但这一切都有局限。
实验依赖试错,成本高、周期长;模拟只能做 “正向预测”,必须先有结构才能算性质;而化学空间大到恐怖 ——潜在类药分子高达 10⁶⁰个,人类已知、合成过的只有 10⁸个,连九牛一毛都算不上。
现在,第四次革命到来:生成式 AI,直接解决化学逆问题 —— 从目标,生成分子。它不再是筛选、不再是模拟、不再是推导,而是创造。
二、分子生成 AI 的全貌:表示、生成、优化、评估
现代分子生成 AI 不是单一模型,而是一套完整体系,由四个核心模块组成:
分子表示、生成策略、优化搜索、评估方法。
四者组合,构成了成千上万种分子设计算法。
2.1 分子表示:让计算机看懂分子
计算机不能直接看懂结构式,必须把分子变成数据。目前分为三类:
1D 表示:最常用的是 SMILES 字符串,像文字一样输入模型,简单高效,适合大语言模型。
2D 表示:分子图,原子是节点、键是边,用图神经网络(GNN)处理,更接近化学本质。
3D 表示:原子三维坐标,直接反映空间构象,最适合扩散模型,也是药物设计的最终形态。
表示方式决定了能用什么模型,也决定了生成质量。
2.2 生成策略:从组合化学到扩散模型
综述梳理了全部主流生成范式,构成十年技术演化史:
1.组合生成:把分子拆成碎片再拼接,最经典、最稳定、合成友好。
2.自回归模型:像写文字一样逐片段生成,早期主流方法。
3.变分自编码器(VAE):构建连续隐空间,支持平滑优化与性质操控。
4.生成对抗网络(GAN):对抗训练生成逼真分子,但训练不稳定。
5.流模型:精确对数似然估计,可解释性强。
6.基于能量的模型(EBM):用能量函数定义分子概率,物理意义清晰。
7.Transformer 与大语言模型:当前最火,直接在 SMILES 上做生成,泛化极强。
8.扩散模型:新一代王者,尤其擅长3D 分子生成,直接生成空间构象,精度最高。
没有绝对最好的模型,只有最适合任务的组合。但趋势非常明确:从字符串走向图,从 2D 走向 3D,从概率模型走向扩散与大语言模型。

图2 分子生成 AI 的四大模块:表示、生成、优化、评估
三、优化与搜索:让分子 “长” 成我们想要的样子
生成模型只是 “会造分子”,优化算法才能让分子满足目标性质(活性、毒性、溶解性、发光效率等)。
这是 AI 分子设计的灵魂。
3.1 主流优化方法
随机采样是最简单的策略,直接从生成器采样直到出现好分子。
元启发算法(遗传算法、粒子群优化)模拟进化,不依赖梯度,适用性最广。
贝叶斯优化是小数据、高成本场景的王者,用少量实验最大化信息收益。
强化学习把分子生成当作决策过程,通过 “奖励” 引导模型走向目标性质。
基于梯度的优化在连续隐空间中最快,但要求模型可微。
3.2 高级优化体系
现代优化早已不是单一方法,而是复杂体系:
· 与合成路线规划结合,确保生成分子能做出来。
· 与量子计算结合,探索超大型化学空间。
· 蒙特卡洛树搜索(MCTS) 配合大规模并行,成为探索超大空间的最强工具。
· 虚拟损失与哈希并行,让 MCTS 可在上千核并行,效率爆炸式提升。
优化的目标只有一个:在 10⁶⁰的化学空间里,最快找到满足所有约束的分子。
四、评估策略:判断 AI 分子好不好用
评估是连接 AI 与现实的桥梁,决定生成的是 “有用分子” 还是 “数字垃圾”。
这一章不使用过多列举,以完整段落呈现核心逻辑。
分子评估首先要解决性质预测问题,包括实验测量、分子模拟和机器学习预测三类方法。实验最可靠,但成本高、速度慢;机器学习最快,但外推能力有限;量子化学与分子动力学模拟兼顾精度与泛化性,是发现全新分子的关键支撑。一个完整的评估体系必须兼顾速度、精度与泛化性,单一方法无法满足真实研发需求。
合成可及性是 AI 分子走向实用的核心门槛,再好的分子如果无法合成也毫无价值。传统方法如 SAScore、SCScore 基于片段频率与反应复杂度快速打分,现代模型则通过逆合成 AI、图神经网络、语言模型直接预测能否合成、好不好合成、合成路线是否简单。在实际设计中,合成可及性必须嵌入生成与优化全过程,而不是最后一步过滤。
真实场景下的分子设计几乎都是多目标问题,药物需要兼顾活性、选择性、毒性、代谢性质,材料需要兼顾发光、效率、稳定性、溶解性。多目标优化主要分为帕累托优化与标量化方法,前者不预设权重,寻找一组均衡最优解;后者将多个目标加权合并为单一分数,便于工程化使用。在多目标约束下,AI 必须在相互冲突的性质之间找到最佳平衡点,这也是真实研发的核心难点。
为了公平比较不同模型,学术界建立了一系列基准平台,包括 GuacaMol、MOSES、TDC 等,覆盖分布学习、目标导向优化、3D 生成等任务。基准帮助研究者判断模型的有效性、多样性、唯一性、成药性与优化能力,但必须注意,基准表现不等于实际价值,最终仍要靠实验验证。
五、实验验证:AI 分子真正走向药物与材料
所有算法最终都要接受实验的检验,这一章同样以完整段落呈现,不使用过多列举。

图3 经实验验证的 AI 设计药物分子与功能材料分子
AI 在分子识别领域实现了重大突破,将光谱逆问题推向自动化。质谱、红外、核磁共振光谱过去依赖专家解析结构,现在 AI 可以直接从光谱输出分子,从一维光谱到多模态光谱,精度不断提升,未来有望成为全自动结构解析的核心工具,彻底改变天然产物、未知物质鉴定的方式。
在药物发现领域,AI 设计分子已经进入实验验证与临床阶段。从 RXR、LXRα、JAK1、TNIK、DDR1 等靶点,到新冠病毒抑制剂,大量 AI 设计的分子被成功合成并表现出纳摩尔级活性,部分分子已进入临床试验。AI 不仅能设计高活性分子,还能实现骨架跃迁、双靶点同时抑制、快速先导优化,将传统数年的药物发现周期压缩到数月甚至数周。
在材料发现领域,AI 同样展现出巨大潜力,包括荧光分子、低黏度电解液、有机光伏受体、有机激光材料等。虽然材料分子的多样性与评价难度更高,但已有多项实验证实,AI 可以从头设计出具有目标光学、电学、力学性质的功能分子,并且能够通过自动化合成平台实现闭环研发,推动自驱动实验室成为现实。
实验验证告诉我们一个事实:
AI 不再只停留在论文与数字空间,它正在真正合成、真正起效、真正产业化。
六、展望:自驱动化学实验室与大模型未来
AI 分子设计的未来,清晰而震撼。
第一,3D 生成与物理模拟深度融合。扩散模型与量子化学、分子动力学结合,直接生成满足物理约束的高精度 3D 结构,让分子从诞生就合理、稳定、可模拟。
第二,大语言模型接管全流程。LLM 不仅生成分子,还能解读光谱、规划合成路线、操控实验机器人、管理数据,成为化学研发的 “中央大脑”。
第三,自驱动实验室成为主流。AI 设计、自动化合成、高通量表征、闭环优化,完全脱离人工干预,实现 “提出目标→得到分子” 的全链条自动化。
第四,突破训练数据限制。当前 AI 仍受限于已有数据,未来结合强化学习 + 量子化学模拟,可以真正探索未知化学空间,发现人类想不到的全新分子。
但我们必须保持清醒:
AI 是强大的工具,但不是魔法。它依赖数据、依赖评估、依赖物理规则,更依赖人类的科学洞察。
七、总结
从原子论到光谱学,从模拟计算到生成式 AI,化学逆问题的求解一次次推动人类文明进步。
这篇综述告诉我们:AI 已经成为分子设计的核心引擎,彻底重构药物、材料、分子科学的研发范式。它不再是辅助工具,而是创造工具。它能从 0 到 1 设计分子,从目标到结构,从数字到现实,从实验室到产业。
一个全新的时代已经到来:分子不再靠发现,而靠设计;不再靠经验,而靠 AI;不再靠试错,而靠创造。
论文链接:https://pubs.acs.org/doi/10.1021/acs.chemrev.5c00689 |