Chemical Reviews 综述 | AI 驱动分子设计革命：从化学逆问题到全自动分子创造

宇宙微尘 · 发表于 1776625400

本文解读Chemical Reviews 2026顶级综述《 Molecular Design with Artificial Intelligence: Progress and Perspectives for Small Molecules 》，系统梳理生成式 AI 在小分子设计中的发展脉络、核心方法、优化策略、评估体系与实验验证。文章阐明 AI 如何破解化学领域 “由性能反推结构” 的世纪逆问题，覆盖从 VAE、GAN、Transformer 到大语言模型、扩散模型的全谱系方法，并整合优化搜索、合成可及性、多目标评估与真实实验验证案例，为药物发现、功能材料开发提供全景式方法论与未来路线图。

化学的发展史，本质是一部逆问题求解史。从古代的染料、化妆品、洗涤剂，到近代的原子论、光谱学、量子化学，人类一直在做同一件事：从观测结果反推物质本质。而今天，生成式人工智能正在带来第四次革命 ——直接从目标性能，创造全新分子。这不是简单的筛选或优化，而是真正的分子创造。

今天解读的这篇发表在Chemical Reviews的顶级综述，用 48 页篇幅，完整讲清了一件事：AI 如何彻底改写分子设计的未来。

一、化学的核心：逆问题与三次革命

图1 化学逆问题与 AI 驱动的闭环分子设计

化学的根本挑战，是看不见、摸不着的原子与分子世界。

我们能测光谱、测性质、测活性，但无法直接看到分子结构，更难直接得到 “拥有指定功能” 的分子。这就是化学的逆问题：由观测反推结构，由性能反推分子。

在历史上，逆问题的突破带来了三次革命。

19 世纪，原子论确立，人类第一次理解物质由原子与分子构成；20 世纪，光谱技术出现，NMR、红外、质谱让我们能 “读” 出分子结构；近几十年，理论化学与模拟普及，让我们能在计算机里预测分子行为。

但这一切都有局限。

实验依赖试错，成本高、周期长；模拟只能做 “正向预测”，必须先有结构才能算性质；而化学空间大到恐怖 ——潜在类药分子高达 10⁶⁰个，人类已知、合成过的只有 10⁸个，连九牛一毛都算不上。

现在，第四次革命到来：生成式 AI，直接解决化学逆问题 —— 从目标，生成分子。它不再是筛选、不再是模拟、不再是推导，而是创造。

二、分子生成 AI 的全貌：表示、生成、优化、评估

现代分子生成 AI 不是单一模型，而是一套完整体系，由四个核心模块组成：

分子表示、生成策略、优化搜索、评估方法。

四者组合，构成了成千上万种分子设计算法。

2.1 分子表示：让计算机看懂分子

计算机不能直接看懂结构式，必须把分子变成数据。目前分为三类：

1D 表示：最常用的是 SMILES 字符串，像文字一样输入模型，简单高效，适合大语言模型。

2D 表示：分子图，原子是节点、键是边，用图神经网络（GNN）处理，更接近化学本质。

3D 表示：原子三维坐标，直接反映空间构象，最适合扩散模型，也是药物设计的最终形态。

表示方式决定了能用什么模型，也决定了生成质量。

2.2 生成策略：从组合化学到扩散模型

综述梳理了全部主流生成范式，构成十年技术演化史：

1.组合生成：把分子拆成碎片再拼接，最经典、最稳定、合成友好。

2.自回归模型：像写文字一样逐片段生成，早期主流方法。

3.变分自编码器（VAE）：构建连续隐空间，支持平滑优化与性质操控。

4.生成对抗网络（GAN）：对抗训练生成逼真分子，但训练不稳定。

5.流模型：精确对数似然估计，可解释性强。

6.基于能量的模型（EBM）：用能量函数定义分子概率，物理意义清晰。

7.Transformer 与大语言模型：当前最火，直接在 SMILES 上做生成，泛化极强。

8.扩散模型：新一代王者，尤其擅长3D 分子生成，直接生成空间构象，精度最高。

没有绝对最好的模型，只有最适合任务的组合。但趋势非常明确：从字符串走向图，从 2D 走向 3D，从概率模型走向扩散与大语言模型。

图2 分子生成 AI 的四大模块：表示、生成、优化、评估

三、优化与搜索：让分子 “长” 成我们想要的样子

生成模型只是 “会造分子”，优化算法才能让分子满足目标性质（活性、毒性、溶解性、发光效率等）。

这是 AI 分子设计的灵魂。

3.1 主流优化方法

随机采样是最简单的策略，直接从生成器采样直到出现好分子。

元启发算法（遗传算法、粒子群优化）模拟进化，不依赖梯度，适用性最广。

贝叶斯优化是小数据、高成本场景的王者，用少量实验最大化信息收益。

强化学习把分子生成当作决策过程，通过 “奖励” 引导模型走向目标性质。

基于梯度的优化在连续隐空间中最快，但要求模型可微。

3.2 高级优化体系

现代优化早已不是单一方法，而是复杂体系：

· 与合成路线规划结合，确保生成分子能做出来。

· 与量子计算结合，探索超大型化学空间。

· 蒙特卡洛树搜索（MCTS） 配合大规模并行，成为探索超大空间的最强工具。

· 虚拟损失与哈希并行，让 MCTS 可在上千核并行，效率爆炸式提升。

优化的目标只有一个：在 10⁶⁰的化学空间里，最快找到满足所有约束的分子。

四、评估策略：判断 AI 分子好不好用

评估是连接 AI 与现实的桥梁，决定生成的是 “有用分子” 还是 “数字垃圾”。

这一章不使用过多列举，以完整段落呈现核心逻辑。

分子评估首先要解决性质预测问题，包括实验测量、分子模拟和机器学习预测三类方法。实验最可靠，但成本高、速度慢；机器学习最快，但外推能力有限；量子化学与分子动力学模拟兼顾精度与泛化性，是发现全新分子的关键支撑。一个完整的评估体系必须兼顾速度、精度与泛化性，单一方法无法满足真实研发需求。

合成可及性是 AI 分子走向实用的核心门槛，再好的分子如果无法合成也毫无价值。传统方法如 SAScore、SCScore 基于片段频率与反应复杂度快速打分，现代模型则通过逆合成 AI、图神经网络、语言模型直接预测能否合成、好不好合成、合成路线是否简单。在实际设计中，合成可及性必须嵌入生成与优化全过程，而不是最后一步过滤。

真实场景下的分子设计几乎都是多目标问题，药物需要兼顾活性、选择性、毒性、代谢性质，材料需要兼顾发光、效率、稳定性、溶解性。多目标优化主要分为帕累托优化与标量化方法，前者不预设权重，寻找一组均衡最优解；后者将多个目标加权合并为单一分数，便于工程化使用。在多目标约束下，AI 必须在相互冲突的性质之间找到最佳平衡点，这也是真实研发的核心难点。

为了公平比较不同模型，学术界建立了一系列基准平台，包括 GuacaMol、MOSES、TDC 等，覆盖分布学习、目标导向优化、3D 生成等任务。基准帮助研究者判断模型的有效性、多样性、唯一性、成药性与优化能力，但必须注意，基准表现不等于实际价值，最终仍要靠实验验证。

五、实验验证：AI 分子真正走向药物与材料

所有算法最终都要接受实验的检验，这一章同样以完整段落呈现，不使用过多列举。

图3 经实验验证的 AI 设计药物分子与功能材料分子

AI 在分子识别领域实现了重大突破，将光谱逆问题推向自动化。质谱、红外、核磁共振光谱过去依赖专家解析结构，现在 AI 可以直接从光谱输出分子，从一维光谱到多模态光谱，精度不断提升，未来有望成为全自动结构解析的核心工具，彻底改变天然产物、未知物质鉴定的方式。

在药物发现领域，AI 设计分子已经进入实验验证与临床阶段。从 RXR、LXRα、JAK1、TNIK、DDR1 等靶点，到新冠病毒抑制剂，大量 AI 设计的分子被成功合成并表现出纳摩尔级活性，部分分子已进入临床试验。AI 不仅能设计高活性分子，还能实现骨架跃迁、双靶点同时抑制、快速先导优化，将传统数年的药物发现周期压缩到数月甚至数周。

在材料发现领域，AI 同样展现出巨大潜力，包括荧光分子、低黏度电解液、有机光伏受体、有机激光材料等。虽然材料分子的多样性与评价难度更高，但已有多项实验证实，AI 可以从头设计出具有目标光学、电学、力学性质的功能分子，并且能够通过自动化合成平台实现闭环研发，推动自驱动实验室成为现实。

实验验证告诉我们一个事实：

AI 不再只停留在论文与数字空间，它正在真正合成、真正起效、真正产业化。