药物研发是一项复杂且耗时的工作,传统模式主要依赖研发人员的经验积累与反复试错。以大规模语言模型和生成式人工智能为代表的新一代人工智能技术,正在重塑这一传统范式。当前,人工智能驱动的研究方法融入药物研发流程,已悄然但显著提升了研发效率和成效。四川大学华西医院及温州医科大学眼视光医院等团队合作综述了人工智能技术在药物研发全链条中的最新应用进展,涵盖疾病靶点确定、药物发现、临床前研究、临床试验及上市后监测等关键环节,并对当前面临的主要挑战进行批判性审视,以期为人工智能赋能药物研发的未来发展方向提供参考。
1. 引言
药物开发是一个多方面的过程,旨在研发新的药物来治疗疾病。它涉及多个阶段,包括目标识别、药物发现、临床前研究、临床试验、监管审批和上市后监督。当前,药物开发面临着许多挑战,包括高成本、时间跨度长和成功率低等问题。平均而言,开发一种新药需要大量的投资,大约需要26亿美元,并可能需要12至15年的时间才能完成。但即使在临床试验阶段,新药的成功率也低于10%。这背后有几个原因:从根本上说,疾病通常是复杂和多因素的,这使得确定有效的治疗方法变得困难。药物开发过程本身也很复杂,涉及多个阶段,任何一个阶段的挫折都可能导致整个过程失败。此外,为了寻找潜在的药物候选物,需要探索的庞大化学空间估计在1060–100的数量级,这使得药物发现如同大海捞针。最后,监管要求非常严格,满足安全、有效性和质量标准可能是一项耗时且昂贵的工作。为了克服这些挑战,科学家们一直在积极探索新技术和方法来改进药物开发过程——人工智能正蓄势待发,将彻底改变这一领域。
AI在图像识别、自然语言处理(NLP)和计算机视觉等方面的最新进展,显示出其在解决药物研发关键挑战方面的巨大潜力。特别是像ChatGPT和Gemini这样的大型语言模型(LLMs),以及像Sora这样的生成式AI,在某些情况下已经展现出超越人类智能的能力。AI处理大量数据的能力有望极大地加速和改进药物开发流程。因此,制药公司、生物科技公司和研究机构越来越多地采用AI驱动的方法来克服传统方法固有的障碍。AI在分析复杂的生物系统、识别疾病生物标志物和潜在药物靶点、模拟药物-靶点相互作用、预测候选药物的安全性和有效性以及管理临床试验等方面已证明其价值(图1)。然而,重要的是要认识到,AI驱动的药物开发仍然面临着几个独特的挑战。如果不能有效地解决这些障碍,AI的潜力可能无法充分发挥。

图1 药物开发流程中人工智能应用的概述
药物开发流程包括几个关键阶段,即靶点鉴别、药物发现、临床前研究、临床试验、监管机构审查和市场后监管。人工智能技术几乎在所有这些阶段都有潜在的应用。CMC,化学制造与控制;DMPK,药物代谢与药代动力学。所有结构图均使用UCSF ChimeraX 1.7.1软件绘制。
该综述探讨了自2019年以来人工智能在小分子药物开发中的最新应用;对于2019年之前进行的研究,作者建议读者参阅之前的综合评述;有关天然产物药物发现中AI应用的更详细信息,作者也建议参阅最新综述。在该综述中,作者们首先描述了AI驱动的药物发现过程,从靶点识别到合成规划,以及AI在药物开发临床阶段中的应用,包括生物标志物发现、药物再利用、药代动力学特性和毒性预测,以及临床试验的开展。最后,作者们讨论了AI驱动药物开发所面临的挑战,并概述了该领域的未来发展方向。期望能够阐明药物开发创新、效率和精准的新时代,从而加速向患者提供更新、更好的药物。
2. 人工智能驱动的药物发现
近年来,人工智能已成为药物发现领域的变革力量,彻底改变了传统方法,并提高了该过程多个阶段的效率。本节作者将探讨人工智能对药物发现各个方面的重要影响,包括靶点识别、虚拟筛选、全新设计、ADMET(吸收、分布、代谢、排泄和毒性)预测,以及合成规划和自动化合成与药物发现。通过利用先进的算法和技术,研究人员现在能够加速发现新型治疗剂,提高预测的准确性,并减少与药物开发相关的总体时间和成本。
2.1 靶点鉴定
在药物研发过程中,识别小分子靶标(如蛋白质或核酸)是一个至关重要的环节。虽然亲和力测试和全基因组敲低筛选等传统方法得到了广泛应用,但这些方法往往耗时费力,且失败率较高。
AI技术的进步正在通过复杂生物网络中大型数据集的分析来彻底改变这一领域。AI通过构建多组学数据网络,有助于识别与疾病相关的分子模式和因果关系,从而促进候选药物靶点的发现。例如,最近的研究使用自然语言处理(NLP)技术(如word2vec嵌入)将基因功能映射到高维空间,尽管基因功能重叠较少,但提高了靶点识别的敏感性。然而,有效地整合多组学数据并确保AI模型的可解释性是具有挑战性的任务。图深度学习技术通过将图结构与深度学习相结合来解决这些问题,该技术专注于与关键特征(例如,原子类型、电荷)相关的图节点,以有效识别候选靶点。最近的一项研究成功地开发了一个可解释的框架,该框架使用带有图注意力机制的多组学网络图来有效预测癌症基因。
此外,将多组学数据与科学和医学文献整合到知识图谱中,可以使人工智能辨别基因与疾病途径之间的关系。生物医学大型语言模型与生物网络或知识图谱功能深度融合后,可为连接疾病、基因和生物过程提供高效且精确的方法。例如,PandaOmics平台(https://pharma.ai/pandaomics/)成功利用多组学数据和生物网络分析,识别出TRAF2和NCK相互作用激酶是抗纤维化治疗的潜在靶点,从而开发出一种特异的TRAF2和NCK相互作用激酶抑制剂(INS018_055)。然而,文献中可能存在的发表偏倚表明,需要采用补充方法来确保识别出新颖且相关的靶点。
“真实世界”数据,如医疗记录、自我报告、电子健康记录(EHRs)和保险索赔,为理解复杂疾病和促进靶点发现提供了重要的背景信息。然而,“真实世界”数据往往包含非结构化文本,缺乏标准化,并可能包含偏差,从而限制了其在这一领域的应用。尽管高质量、精心策划的数据集对于训练模型至关重要,但“真实世界”数据本质上具有噪声,并且因多种疾病的汇合而变得复杂。尽管如此,最近的研究表明,即使存在这些问题,“真实世界”中含噪声的数据仍能训练出有效模型,这推动了在医疗记录数据嘈杂和非专业人士进行疾病标注的场景下实现基因发现和候选药物靶点筛选的潜力。提高模型在不同人群中的泛化能力仍然是一个主要挑战,特别是对于标注率或患病率较低的疾病而言。随着“真实世界”数据和多组学数据的日益丰富,利用先进的数据挖掘算法和专家知识将进一步促进其整合,显著提高靶点发现的成功率。
2.2 虚拟筛选
虚拟筛选是高效识别潜在先导化合物或候选药物的关键策略。随着化合物库的迅速扩张,对超大型库进行加速虚拟筛选变得至关重要,这推动了用于配体对接的AI技术的进步。基于AI的受体-配体对接模型能够预测配体的空间变换,利用等变神经网络等算法直接生成复杂的原子坐标,并学习受体-配体距离的概率密度分布以生成结合构象。值得注意的是,最近基于AlphaFold2和RosettaFold的受体-配体共折叠网络在直接从序列信息预测复杂结构方面展现出前景。然而,由于对学习物理约束的不足,它们可能会产生不真实的配体构象,因此需要进行后处理(例如,能量最小化)或几何约束来优化对接构象的有效性。然而,在面向口袋的对接任务中,基于深度学习的结合构象预测模型尚未超越基于物理的方法,且它们往往未充分考虑受体口袋的灵活性。此外,预测精确的受体-配体相互作用仍然是一个挑战。尽管早期机器学习在亲和力预测方面的成功激发了人们对深度学习模型的兴趣,并且这些模型可能通过处理三维结构数据和非结构数据而超越传统的打分函数,但它们的性能在很大程度上取决于配体构象的准确性,并且主要适用于已知的受体结构。
当目标结构缺失或不完整时,直接应用基于对接的虚拟筛选是不切实际的。作为替代方案,可以在基于序列的预测方法中使用人工智能技术。然而,这些方法往往难以捕捉三维蛋白质-配体相互作用的复杂性,使得准确预测结合构象变化如何影响相互作用强度变得复杂。
虽然靶向药物开发对于确定的目标有效,但许多疾病缺乏这样的目标。因此,基于表型的虚拟筛选对于目标不明确的疾病(例如罕见病)和广泛表型的疾病(例如衰老)至关重要。最近的一项研究使用核形态和机器学习来识别诱导癌细胞衰老的化合物;类似的策略在抗生素发现方面也很有前景。然而,这些模型通常依赖于特定案例的表型数据,并且在泛化方面存在困难。此外,仅依赖于配体化学结构的基于人工智能的活性预测面临着数据稀疏性、不平衡性和活性悬崖等挑战。最近的研究表明,整合相关的生物学信息,如细胞形态和转录谱,可以提高模型性能,为更准确的活性预测提供了新的方向。
目前的虚拟筛选模型通常专注于特定任务,如打分、构象优化或筛选,这强调了开发能够处理多任务的通用模型的必要性。结合归纳偏置(指模型固有的优先考虑某些类型解决方案而非其他解决方案的倾向)或数据增强(指用于人为增加训练数据集多样性而无需收集新数据的技术)可能会提高模型的泛化能力。此外,商业化合物集合的指数级增长到数十亿使得全面的筛选在计算上不可行。同时,可用的分子库仅覆盖了一小部分可成药化学空间,而该空间仍在不断扩大,这在指导和筛选生物活性分子时既带来了机遇也带来了挑战。
针对这些挑战,主动学习和贝叶斯优化等技术是解决化学空间搜索问题的有效方法,成为提高虚拟筛选效率的关键。量子力学与人工智能的结合为化学空间探索提供了新的工具,而分子动力学模拟则深化了对蛋白质-配体相互作用的理解,解决了结合亲和力和选择性的问题,从而提高了模型的准确性。同时,通过为特定目标或化合物类型生成自定义的虚拟库,深度生成模型可以大幅缩小搜索空间并提高筛选效率。例如,作者们所在团队的条件递归神经网络生成了一个自定义库,该库在细胞和动物模型中鉴定出一种高效且选择性的RIPK1抑制剂。
2.3 重头设计
从头药物设计涉及自主创造新的化学结构,以最优方式满足所需的分子特征。传统方法,包括基于结构、配体和药效团的设计,都是手动的,并且依赖于专业人员和明确的规则。人工智能,尤其是深度学习,已经能够自动识别满足特定要求的新型结构,绕过了传统的专业知识。这项技术已成功应用于开发小分子抑制剂、PROTACs、肽和功能蛋白,并通过湿实验室实验进行验证,迎来了一个更高效和创新的药物发现时代。
在深度学习驱动的从头设计中(图2),分子生成组件是核心,通常使用化学语言或基于图的模型。化学语言模型将分子生成任务转换为序列生成,如SMILES字符串(“简化分子输入线性进入系统”,一种以线性文本格式表示化学结构的符号系统)。尽管需要大量的预训练,并且可能由于语法错误而产生无效的SMILES,但这些错误可以通过过滤不可能的样本来帮助模型自我纠正。像长短期记忆模型(一种分析序列数据的深度学习模型)这样的模型面临着信息压缩的瓶颈,阻碍了全局序列属性的学习,这表明需要像Transformer这样的架构来更好地捕捉全局属性。最近的研究将结构化状态空间序列集成到化学语言模型中,以揭示高度的化学空间相似性和与关键天然产品设计特征的对齐,证明了该模型在从头设计中的实用性。

图2 药物研发中人工智能驱动的分子生成流程
分子表征—包括一维(1D)、二维(2D)和三维(3D)结构——是从多种化合物、靶点和药物-靶点相互作用数据库中衍生出来的,它们被用于训练人工智能模型,例如生成对抗网络(一种由两个相互竞争的网络—生成器和判别器—组成的神经网络架构,共同工作以创建逼真的数据样本)、循环神经网络(用于处理序列数据)、变分自编码器(学习将输入数据编码到潜在空间,然后将其解码回来以重建原始数据的生成模型)、标准化流(一类通过一系列可逆变换将简单概率分布转换为更复杂概率分布的生成模型)和扩散模型(通过模拟扩散过程来创建数据的生成模型)。这些模型生成新分子,随后评估其化学有效性、合成可及性和类药性质,最终使得能够鉴定出新的类药化合物。所有结构图均使用UCSF ChimeraX 1.7.1软件绘制。
相反,基于图的模型将分子表示为图,使用自回归或非自回归策略生成结构。自回归方法逐个原子地构建分子,这可能导致化学上不合理的中间体和引入偏差。相比之下,非自回归方法一次生成整个分子图,但需要额外的步骤来确保图的有效性,因为这些模型对分子拓扑结构的有限感知可能会诱导出有缺陷的结构。
鉴于类药化学空间的广阔性,从头生成通常使用优化机制(如基于与已知活性分子的相似性和预测的生物活性等指标的评分函数)来指导设计朝向目标特征。将强化学习用于迭代优化是一种有效的方法,但设计适当的评分函数具有挑战性,因为直接量化像合成可行性或药物相似性等目标是很困难的,这往往会导致意想不到的后果。此外,强化学习的大量优化步骤凸显了样本效率方面的挑战,而主动或课程学习策略可能会缓解这一问题。
除了引入评分函数,结合约束条件—如疾病相关的基因表达特征、药效团、蛋白质序列或结构、亲和力和蛋白质-配体相互作用也可以引导模型生成所需的分子。例如,作者们所在团队的PocketFlow模型以蛋白质口袋为条件,有效地生成了经实验验证的对HAT1和YTHDC1靶点具有活性的化合物,展示了其药物设计能力。此外,模型可以通过将输出限制为来自所需候选物的特定支架或片段来优化先导物,但这样做会限制化学多样性。
2.4 ADMET
ADMET在决定药物疗效和安全性方面发挥着至关重要的作用。虽然市场批准需要进行实验室评估,且不能完全由模拟替代,但早期ADMET预测有助于减少因不良特性导致的失败。AI已成为使用预定义特征(如分子指纹或描述符)预测ADMET属性的宝贵工具。例如,拜耳的计算机ADMET平台采用机器学习技术,如随机森林和支持向量机,并使用诸如扩展连通性圆形指纹等描述符来确保准确性和相关性。过去几十年来,研究者已经开发了各种用于ADMET预测的描述符。然而,这些基于特征的方法所涉及的特征工程仍然复杂,且限制了通用性和灵活性。
深度学习如今推动了ADMET预测的发展,它能够从简单输入数据中自动提取有意义的特征。各种神经网络架构,包括转换器(设计用于有效处理序列数据)、卷积神经网络(一种常用于图像和视频识别任务的深度学习模型)以及最近的图神经网络(用于处理图结构数据,如分子结构的深度学习模型),在从SMILES字符串和分子图等格式建模分子属性方面表现出色。其中,SMILES字符串提供了紧凑的分子表示,并能够清晰地表达分支、环和手性等子结构,但缺乏拓扑感知能力,而图神经网络(如GeoGNN模型)则结合了几何信息,在ADMET预测中提供了卓越的性能。事实上,最近的一项研究表明,使用SMILES输入的转换器模型在完整结构识别方面存在困难。对于涉及毒性等属性的预测,这些模型生成的表示性能可能在训练进展之前达到饱和,训练后改善有限。
尽管新型深度学习算法取得了进展,但该领域仍面临挑战。ADMET预测中高昂的成本和大量的时间投入导致标记数据稀缺,从而可能导致过拟合。无监督和自监督学习提供了解决方案,虽然基于大型转换器的模型在其他领域显示出前景,但它们在ADMET预测中的应用仍有待探索。最近的一项研究表明,尽管SMILES语言不直接编码分子拓扑结构,但通过精心设计的自监督训练,配备线性注意力机制的上下文转换器可以有效地学习隐式结构-属性关系,从而增强了将大规模自监督模型应用于ADMET预测的信心。
此外,分子表征对于AI的性能至关重要。与低维表征相比,高维表征通常能提供更为丰富的信息。然而,最近的研究表明,整合多层次的分子表征可以显著增强学习能力,从而实现更全面、可泛化且稳健的ADMET预测。尽管最佳的数据类型组合尚未确定,但这表明使用多种表征的多模态ADMET模型具有广阔前景。
可解释性仍然是一个主要挑战。理解ADMET预测中的模型参数有助于揭示分子子结构与性质之间的关系。注意力机制使模型能够关注输入数据的重要部分,通过识别关键原子或基团来增强可解释性。整合化学知识可以进一步提升可解释性,但扩展模型以实现全面的化学理解仍然具有挑战性。
2.5 合成规划与药物发现的自动化合成
化学合成是小分子药物发现过程中的瓶颈之一,这是一项技术性极强且极其繁琐的任务。计算机辅助合成规划(CASP)和有机化合物的自动合成可以帮助化学家减轻重复性劳动的负担,使他们能够从事更具创新性的工作。随着人工智能的快速发展,制药行业和学术界对实现这一过程的智能化和自动化越来越感兴趣。
CASP已被用作一种工具,通过逆合成分析来协助化学家确定反应路线。逆合成分析是一种问题解决技术,其中目标分子被递归地转化为越来越简单的前体(图3a)。早期的CASP程序是基于规则的(例如,应用于合成分析、化学合成的模拟和评估的逻辑和启发式方法,以及基于逆合成的合成可及性评估程序)。自那时以来,研究者已经开发了一系列机器学习技术,特别是深度学习模型,从而逐步改进了人工小分子和天然产物的合成规划。最近,转换器模型也被应用于逆合成分析、区域选择性和立体选择性的预测(当分子上有多个可能的反应位点时,化学反应在一个特定位置发生的偏好;以及当可能产生多种立体异构产物时,反应产生一种立体异构体而不是另一种的偏好),以及反应指纹提取。对纯粹数据驱动的AI方法是否足以进行复杂合成规划的担忧,推动了混合专家-AI系统的开发,这些系统结合了化学规则。然而,目前的大多数深度学习方法是不可解释的,表现为提供有限洞察力的“黑箱”。为了应对这一挑战,最近引入了一种新的逆合成预测模型RetroExplainer,该模型采用了一种可解释的深度学习框架,将逆合成任务重新定义为分子组装过程。与最先进的逆合成方法相比,RetroExplainer表现出优越的性能。值得注意的是,其分子组装方法增强了可解释性,实现了透明的决策制定和定量归因。
有机化合物的自动合成是化学相关领域的前沿领域(图3b),包括药物化学。一个最佳的自动合成平台将无缝集成并简化化学开发过程的各个组成部分,包括CASP以及自动化的实验设置和优化,以及机器人执行的化学合成、分离和纯化。近年来,深度学习驱动的自动化流动化学和固相合成技术在药物化合物合成方面获得了相当大的关注。尤其是,自动化合成与设计、测试及分析技术相结合,构成了药物研发中一个被称为"设计-制造-测试-分析"(DMTA)循环的自动化核心流程。通过利用深度学习,DMTA循环的效率得到了实质性提高,加速了药物发现中命中化合物和先导化合物的发现。例如,通过使用具有深度学习分子设计和微流体芯片上化学合成的AI驱动的DMTA平台,可以从头开始生成肝X受体激动剂。此外,大型语言模型被认为能够“理解”人类自然语言,使自动化平台能够根据研究人员的简洁输入为特定挑战提供定制解决方案。尽管自动合成和自动化的DMTA循环具有很大的前景,但它们的发展仍处于初级阶段;这里仍然存在许多技术挑战,包括减少固体形成以避免堵塞、预测在非水溶剂和不同温度下的溶解度、估计最佳的纯化方法以及优化多步反应。

图3 药物研发中的人工智能驱动合成规划与自动化
a,合成规划。合成规划过程始于逆合成分析,该分析将目标分子分解为市售或已知的构建模块,然后进行反应预测,以预测合成目标分子所需的化学反应和条件。b,自动化合成。示意图说明了在自动化合成过程中,人工智能驱动的软件与实验执行和结果分析之间的无缝集成。
在规划和合成新的药物化合物之后,AI技术为新药的作用机制(MOA)的体内验证提供了便利。在高通量筛选中,通过监测组学数据的实时变化,AI技术可以概括这些特征,并开发一个能够破译新化合物的分子和细胞MOA及其相关的药代动力学、药效学、毒理学和生物利用度特性的模型(图4)。

图4 利用高通量筛选和多组学数据进行人工智能驱动的MOA预测。
a,在高通量筛选中,细胞在多孔板中培养,并用多种已知MOA或信号通路的药物(上图)进行处理,同时对不同孔应用全基因组基因表达扰动(下图)。CRISPR,成簇规律间隔短回文重复序列;siRNA,小干扰RNA。b,在每个孔内,将多时间点的多组学特征数据、标记染色模式和细胞形态特征与相应的MOA或基因信号通路变化的知识相结合,用于训练人工智能模型,以理解每种药物对细胞网络的影响。c,因此,该人工智能模型将能够根据类似的多组学和细胞形态特征预测新化合物的MOA。b部分和c部分的网络图像改编自STRING,遵循知识共享许可协议CC BY 4.0。
3. 人工智能在临床试验和实际应用中的作用
通过分析患者数据,包括遗传信息、临床病史和生活方式因素等,人工智能正日益指导临床试验的各个方面。将人工智能方法应用于这些数据,有助于识别影响药物反应的生物标志物和患者特征,从而设计出更高效、信息更丰富的试验。通过优化患者选择、治疗方案和结果测量等参数,人工智能有潜力提高试验成功率,并加速候选药物的临床实践转化。真实世界的数据也提供了丰富的信息源,人工智能应用可以从中预测不良事件、药物间的相互作用和其他结果。以下部分将描述人工智能在药物开发临床阶段的关键应用。
3.1 生物标志物的发现
生物标志物是客观衡量和评估正常与病理过程以及对治疗的反应的生物指标,在医学、生物技术和生物制药领域具有巨大应用价值。然而,传统的基于假设的生物标志物发现方法往往效率低下,同时未能全面解决疾病的复杂性。这些方法耗时且需要大量资源来验证假设,而样本量有限的制约因素则阻碍了在不同人群中的广泛验证。
近年来,人工智能的进步极大地推动了生物标志物的发现。AI模型在识别诊断生物标志物方面表现出色,为临床病理学提供了预测性见解和诊断参考。一个值得注意的例子是“nuclei.io”数字病理学框架,它将主动学习与实时人机交互相结合,有助于根据核统计数据为病理学家提供精确的反馈,通过为各种外科病理任务高效构建数据集和AI模型,大幅提高诊断的准确性和效率。
AI还擅长识别对预测疾病进展和患者生存至关重要的预后生物标志物,从而实现针对性和个性化的治疗。例如,深度学习模型可以描绘血液样本中CD8+ T细胞的形态,作为有效的脓毒症预后指标,区分标记细胞衰老的核特征,并识别蛋白质组生物标志物以准确预测肝脏疾病的结果。AI还能预测各种癌症的预后生物标志物,为生存、复发和转移提供精确的风险评分。值得注意的是,使用图神经网络的生存分析模型优于现有模型,能有效区分传统临床分级和分期之外的风险组,这强调了AI在预后改善方面的潜力以及病理学家与AI之间的关键合作。
在药物开发中,识别预测性生物标志物对于通过选择最可能从治疗中受益的患者群体来提高研究成功率至关重要。这些发现需要严格的前瞻性临床验证。尽管基于AI的预测性生物标志物尚未在临床上应用,但概念验证研究表明,AI可以通过预测已知的生物标志物(如微卫星不稳定性)来预测患者对治疗的反应。生物系统的复杂性需要将多种类型的生物学数据(包括蛋白质-蛋白质相互作用)整合到AI模型中,以进行更全面的预测。
面对大型标记数据集的稀缺性,研究人员正在部署多种策略来优化AI在生物标志物发现中的应用。整合来自多个来源的数据集显示出巨大的前景。来自可穿戴传感器的数字生物标志物也通过提供丰富、纵向的数据集扩大了发现范围。通过分子诊断、放射组学和组织病理学成像识别多模态生物标志物为精准医学提供了新的途径。此外,群体学习和自动化数据集处理流程为大规模、安全的数据收集奠定了基础。
然而,AI模型面临着与异质性相关的挑战,这些挑战阻碍了它们向临床试验的转化效率。一些研究使用深度学习来阐明细胞和组织水平的异质性以及肿瘤生态系统的多样性,为疾病亚型分类和患者分层提供了新的途径。可解释性和信任对于AI模型的临床接受度至关重要,可以通过整合先前的医学知识或将生物关系嵌入神经网络来增强。解决人工智能驱动的生物标志物发现中的偏差问题,需要采取多种策略,例如通过地理分布多样化的患者队列验证模型有效性,以及开发公平透明的算法体系。强有力的验证和负责任的数据管理将促进生物标志物的识别和应用,支持未来的药物开发和疾病治疗。
3.2 预测药物计量学特性
应用人工智能和大数据工具可以有效地解决药物计量学问题,并为时效分析提供一个强大的工具,特别是在处理危险函数中的高维数据和非线性关系时。人工智能通过优化剂量-反应关系、提高药物安全性特征和完善治疗窗口,来支持个性化治疗,这些是解决精准医疗中药物计量问题的核心。基于机器学习对442个小分子激酶和2145个不良事件的分析,研究者发现了新型激酶-不良事件对,从而降低了风险,并开发出更安全的小分子激酶抑制剂。多组学变分自编码器(MOVE)框架整合了多组学数据,以揭示药物相互作用,例如二甲双胍与肠道微生物群之间的联系,并比较了各种组学方式下的药物反应。PharmBERT是一种特定领域的语言模型,它通过从处方标签中提取关键的药代动力学信息来增强药物安全性,从而有助于识别不良反应和药物相互作用。人工智能还通过分析遗传和生理数据来优化药物剂量,从而得出个性化的治疗建议,以改善治疗效果。此外,人工智能可以分析患者的遗传信息、生理特征和过去的治疗反应,为医生提供个性化的剂量调整建议,从而优化治疗效果。
3.3 药物再利用(老药新用)
除了新药发现,人工智能还通过使用大规模生物医学数据集来重新利用现有的、已批准的药物,从而为药物库做出贡献,进而加速针对各种疾病的最佳治疗方案的开发。通过发现已批准药物先前未确定的治疗特性,人工智能减少了与药物发现相关的时间和成本。例如,人工智能加速了针对2019冠状病毒病(COVID-19)的药物再利用,凸显了人工智能在为现有药物寻找全新应用方面的价值。人工智能还可以使用真实世界数据(包括电子健康记录和保险索赔)来模拟临床试验,以促进药物再利用。作为这种方法的一个示例,一种深度学习循环神经网络使用因果推断和深度学习来分析医疗索赔数据库,有效地识别出潜在的药物候选者,该方法应用于数百万冠心病患者群体,精确指出了能够改善治疗结果的药物和药物组合。
另一种基于深度学习的药物再利用方法涉及将深度神经网络应用于组学数据,根据药物在体外诱导的转录扰动将其分类为不同的治疗类别一项研究利用了来自LINCS项目(https://lincsproject.org/)的扰动样本和从MeSH衍生的12个治疗类别,实现了高分类精度——尤其是在不同生物系统和条件下的通路级数据中——为药物重新定位提供了潜力。特征归因技术与可解释机器学习模型集成相结合,增强了与协同药物反应相关的基因表达特征的识别。研究者已证明该策略能够提高特征的可解释性,并支持基于分子见解选择最佳抗癌药物组合。
此外,基于人工智能的高内涵筛选也可应用于药物再利用(图4)。研究者开发了一种名为MitoReID的深度学习模型,通过线粒体表型分析来识别药物的作用机制(MOA)。它为药物发现和再利用提供了一种成本效益高、高通量的解决方案,该方案已使用未见药物(即不属于训练集的药物)进行了验证,并在体外得到了验证。通过分析570,096张细胞图像,MitoReID在识别美国食品和药物管理局(FDA)批准药物的作用机制方面达到了76.32%的准确率,并验证了茶叶天然成分“表儿茶素”对环氧化酶-2的抑制作用。然而,人工智能驱动药物开发其他阶段所遇到的许多挑战也适用于药物再利用,包括数据质量、模型可解释性、泛化能力、验证成本、监管障碍、与现有流程的集成以及高计算需求等问题,这些都阻碍了其广泛采用和实际实施。
3.4 提高试验效率和预测结果
临床试验往往费用高昂、耗时且效率低下,其中大多数试验都面临着注册延误或难以找到足够志愿者的问题。人工智能有潜力优化试验设计、简化招募流程并预测患者反应,从而在降低成本和时间线的同时,提高试验效率和成功率。目前研究者已创建了一个先进的流程,该流程集成了多模态数据集,利用AI生成分子线索,根据疗效和安全性对其进行排名,并使用深度强化学习创建可测试的专利类似物。此外,它还可以通过估计副作用和通路激活来预测I/II期临床试验的结果,从而提高预测准确性并识别药物组合中的潜在风险。在实际研究中,AI可以分析来自电子健康记录(EHR)、保险索赔和可穿戴设备的数据,以评估药物的有效性和安全性(图5)。例如,一项研究使用真实世界数据和Trial Pathfinder工具,从61094名晚期肺癌患者的EHR数据中模拟了试验结果,揭示放宽试验标准可能会使符合条件的患者数量翻倍,并改善生存结果。这种方法已在各种癌症中得到验证,支持更具包容性和安全性的试验。

图5 利用人工智能能力增强临床试验过程和实际医疗实践
a,训练过程:训练涉及使用多样的临床和试验数据(电子健康记录、可穿戴设备、基因组学、成像)来通过多模态嵌入和生成式人工智能开发一个人工智能大型语言模型。它评估药物疗效,优化试验方案,并实现智能的临床前和临床研究。b,验证和预测过程:人工智能大型语言模型使用真实世界和临床试验数据进行验证,根据治疗结果和不良事件进行微调。它预测药物疗效,评估方案可行性,优化试验,从而加速药物开发的智能临床前和临床研究。
寻找符合纳入标准的患者这一挑战,可以通过使用数字孪生技术来缓解,正如Unlearn.ai所探索的那样。这项技术创建了参与者的虚拟复制品,使它们能够作为对照组,从而增加实验组中的参与者数量并提高试验效率。2020年4月,Unlearn.ai获得了1200万美元的资助,以推进这一应用的发展(https://medcitynews.com/2020/04/funding-roundup- company-creating-digital-twins- for-clinical-trials-raises-12m/),而其他公司如Novadiscovery和Jinkō也正在对肺癌等疾病进行基于数字孪生的临床试验模拟(https://www.novainsilico.ai/new-demonstration- of-the-predictive-power-of-an-in- silico-clinical-trial-in-oncology/)。所提出的方法使用基于基因表达和临床数据的计算机建模,结合深度学习和生成对抗网络。通过利用多种健康指标,这些数字孪生技术为生命过程提供了定量见解,提供动态健康指导并优化治疗策略。例如,通过生成基于药物输入预测生存概率的患者特定模型,这种方法旨在加深研究者对生物机制的数学理解,彻底改变临床实践,并实现医疗护理的全面个性化。这些模型还可以模拟临床试验并优化试验参数,从而提高成功的可能性。然而,它们也面临着高计算成本、棘手的工作流集成问题、伦理问题以及有限的个性化等挑战。这些问题影响了患者模拟的准确性、试验设计以及监管机构的接受度,从而减缓了创新步伐。
在药物开发的临床试验阶段之外,AI还可以分析上市后监督数据,以支持药物的安全性、有效性和质量。在监管审查过程中,早期识别和解决安全问题所需的替代方法的开发和同时使用,对于推进监管科学和优化药物开发至关重要。
4. 面临的挑战
尽管取得了进展,但尚无人工智能研发的药物通过II期临床试验,这凸显了药物开发过程的复杂性。一个关键挑战是缺乏高质量的训练数据,原因在于高昂的获取成本、隐私法规以及有限的数据共享,特别是对于罕见疾病或新型药物靶点而言,阻碍了人工智能在识别靶点、生物标志物和其他功能方面的有效性。此外,现有数据往往存在信息缺失、错误和偏见,进一步降低了人工智能的可靠性。药物发现实验可能产生不一致的结果,而节约成本的措施可能导致数据不完整。另外,文献中“阴性”数据(例如,失败的实验和阴性试验结果)的代表性不足,阻碍了人们对药物-靶点-疾病相互作用、疗效和其他临床特征的全面理解。
药物设计中的一个关键挑战是如何平衡多个成功目标。目前的研究往往过度关注化学空间,而忽视了其他关键因素(如成药性和可合成性)。尽管多目标设计方法正在改进,但开发有效的评分函数(例如,用于亲和力预测和生物活性)仍然复杂且需要大量的实验。缺乏标准化的评估流程进一步复杂化了模型评估,尤其是当出现冲突目标时,如既要最大限度地提高与已知生物活性分子的相似性,又要实现结构上的新颖性。尽管存在基准测试和预测流程的平台(如MOSES和Guacamol),但尚未就最佳实践达成共识。
在生成模型中,适当的分子表示是关键。传统方法(如SMILES和图形)很常见,并且正在被新兴的数据驱动方法(如分层分子图自监督学习)所补充。然而,捕捉复杂性和确保可合成性仍然具有挑战性。目前评估合成可行性的方法往往不精确,导致研究者发现无法合成的分子。将反应知识整合到分子生成中比较有前景,但仍需改进。模型可解释性、生成新分子的不确定性以及偏见等问题已成为学术关注的焦点。将偏见控制与不确定性估计有效结合对于提高生成分子的质量至关重要。
人工智能在面对所谓“不可成药”的靶点(缺乏合适的结合位点)时面临挑战,包括某些无序蛋白质、转录因子(如MYC和IRF4)以及蛋白质-蛋白质相互作用。新的人工智能方法和高内涵筛选(图4)可用于探索它们的构象空间并识别配体结合位点,从而有助于克服这些障碍。
最后,算法和计算能力方面的技术挑战限制了人工智能在药物开发中的应用。许多用于药物开发的人工智能算法是为其他领域设计的,可能并不完全适用;例如,研究者需要基于自然语言处理的新算法来捕捉三维空间相互作用。此外,人工智能方法所需的高昂计算资源构成了障碍,特别是对于较小的研究团队而言。与云提供商合作以及开发更高效的算法有助于应对这些挑战。此外,由于周期长、成功率低和回报不确定,人工智能药物开发面临人才短缺和投资风险,从而影响投资者信心。
5. 未来的方向
人工智能正在通过从复杂的多组学生物医学数据中提取关键见解、识别新的生物标志物以及检测治疗靶点和异常来促进先导化合物和候选药物的发现,从而彻底改变药物开发过程。此外,AI还加速了药物发现、重新定位和毒性预测,从而降低了时间、成本和安全风险。然而,在这一领域充分实现AI推动的进步的旅程仍在进行中,需要克服许多挑战并实现潜在的可能性。未来解决上述挑战的努力应特别强调几个关键方向。
首先,开发新策略以解决AI辅助药物开发中的数据稀缺问题应是首要任务。增强数据共享、建立数据标准和开发新的AI算法(如能够从非常有限的数据中产生准确预测的“稀疏”AI方法)的可行策略至关重要。集成文本和化学信息的多模态预训练模型有望解决数据稀缺问题,特别是在零样本场景中。通过整合基因组学、转录组学、疾病特异性分子途径、蛋白质相互作用和临床记录等一系列数据,AI还可以识别出具有潜在重新定位机会的现有药物,用于治疗被忽视或罕见的疾病。
目前的方法通常侧重于单一数据类型,从而忽略了各种生物系统之间的复杂相互关系。建立有效的多模态融合方法可以从不同来源和格式中提取有价值的见解,以推动药物开发。随着大数据和GPU计算(基于图形处理单元,而非传统的中央处理单元或CPU)的兴起,AI现在可以应用于各种数据形式,包括文本、图像和视频。使用组学数据的新兴模型,包括基于深度学习的药物分类,在药物疗效预测、机制识别和毒性评估方面显示出前景,突显了多模态AI在药物开发中的未来潜力。
目前许多AI模型纯粹由数据驱动,由于缺乏足够的高质量数据,限制了它们在药物开发中的有效性。由于我们的生命系统都遵循物理学原理(也称为第一原理),因此药物也无一例外地遵循物理定律的约束。将物理定律纳入现有的数据驱动AI算法是未来的一个研究方向,这可能有助于减少数据依赖性并提高这些模型的准确性和通用性。
AI,尤其是大型语言模型(LLM),可以通过分析大量文档并跟上最新要求来确保符合药物法规。这可以提高效率、降低违规风险并防止药物批准延误。开发准确且可解释的AI模型对于确保决策过程的透明度和理解至关重要,从而可以在药物开发者、监管机构、临床医生和患者之间建立信任。这些模型可以尽早纳入,以优化项目资金和指导投资,从而加速药物开发。
在未来几十年里,AI在医学建模和模拟中的作用将是变革性的。先进的AI模型将创建更加详细的虚拟人体模拟,进一步增强我们对疾病机制、药物作用和个体生物学差异的理解。通过模拟,AI可以简化临床试验的设计和执行,测试不同场景以选择最佳标准,从而加速患者招募并提高试验的代表性。AI还将通过分析健康数据和基因组学提供个性化的医疗决策支持,从而实现精确的风险预测、优化的治疗和改进的手术指导。医学教育将从AI驱动的虚拟现实中受益,提供更真实的培训场景并提高医疗服务质量。
总体而言,人工智能技术的不断进步正在实质上提高药物开发的效率和成本效益。然而,我们必须认识到人工智能并非万能。人工智能技术的优势在于分析庞大而复杂的数据,并辅助快速决策,以补充人类功能并增强人类能力,但人工智能并非旨在完全取代人类的创造力或权威性。人工智能设计和预测的药物属性仍需要通过湿实验室实验进行验证,同时仍然需要人类的参与来确定人工智能研究和使用的方向。尽管如此,鉴于人工智能日益增强的能力以及发展步伐,加之大型模型的开源,包括最近的AlphaFold3,我们有理由对人工智能在加速药物开发和造福人类健康方面的前景持审慎乐观态度。
文章转载自微信公众号:AI4ST
原文链接:https://mp.weixin.qq.com/s/EvTg8T4jG3LBHogw-5foFA
论文DOI:https://doi.org/10.1038/s41591-024-03434-4 |