从细胞形态学中学造药:拜耳验证表型驱动的分子生成模型

离子
2025-10-21 18:17:57
生命科学
算法解析
本帖最后由 离子 于 2025-10-21 18:17 编辑


2025年9月17日,拜耳公司的研究人员在bioRxiv上发表文章,题为“Large-scale experimental validation of phenotype-guided generative AI for de novo drug discovery”。




生成式人工智能正被越来越广泛地用于设计具有特定理化性质和生物学特性的药物。作者团队此前使用基于细胞着色(Cell Painting)数据训练的条件生成对抗网络(cGAN)算法,生成了针对10个癌症分子靶点的分子结构。


本研究提供了该cGAN算法在设计具有预期生物活性的化合物方面的实验验证证据。从AI生成的结构中选择了部分化合物进行化学合成,并通过细胞着色和转录组实验对其活性进行了测试。总体而言,88%的化合物显著影响了整体细胞形态,37%的化合物显著影响了与预期靶点相关的转录组通路。在针对典型靶点TP53的细胞活性实验中,9个化合物中有6个表现出调节TP53活性的潜力。


  背景


在药物发现领域中,机器学习方法的一个特定子类是生成式人工智能,即利用机器学习模型基于训练数据学习到的分布,生成具有期望性质的化学结构。目前已有多种生成式AI算法可用于化学结构设计。其中,生成对抗网络(GAN)和变分自编码器(VAE)是两种在条件分子生成任务中应用最广泛的算法。这些模型可仅依赖化学相似性或结合靶点结构信息,甚至直接利用生物实验数据。


在上述模型类别中,仅以化学结构为输入的模型应用范围最窄(例如用于基于片段的结构生成或连接体设计等)。而靶点条件(target-conditioned)设计旨在通过建模化合物与靶点的相互作用来生成能直接结合特定靶点的分子。尽管这种方法已被证明能产生良好的结合分子,但其存在两大局限。首先,它需要每个目标靶点上已测试化合物的实验数据,从而限制了可用的训练集规模;其次,未能考虑其他分子间相互作用及生物系统的复杂性,而这些因素对评估药物整体治疗效应至关重要。相比之下,表型条件(phenotype-conditioned)模型能够利用药物作用后生物结果的多维度表征指标,从筛选数据中提取模式,学习化学结构与生物学响应之间的联系。


随着组学数据获取成本的不断降低,高维度实验(如转录组学、代谢组学与表型组学)在训练生成式AI模型时成为理想的数据来源。这些数据能够在系统层面上捕捉细胞对药物处理的响应,提供更全面的化合物作用信息,包括潜在的脱靶效应。此外,它们不依赖特定靶点,因而能识别通过未知机制发挥作用或协同影响多个靶点的生物活性分子。


本研究重点探讨了使用细胞着色(Cell Painting)实验成像数据进行条件分子生成的方法。该方法通过荧光标记细胞结构组分,能够评估扰动剂处理后细胞形态的变化。与前述方法相比,它对靶点的依赖性最低,同时在样本成本方面具有显著优势,与产生相似数据量的其他组学方法(如转录组学)相比更为经济。


  实验


作者此前利用3万种小分子诱导的细胞形态学特征数据训练了一个条件生成对抗网络(cGAN)。通过训练,cGAN学会了基于细胞形态变化生成相应的化合物结构。随后,使用该模型基于10个靶基因的31种过表达形态特征生成了约30万个化学结构。


在本研究中,将cGAN应用于一般性苗头化合物识别情境,从此前生成的化合物集中合成了76个化合物(表1),并通过细胞着色实验、转录组GoScreen分析,以及针对特定靶点(TP53)的细胞活性实验对其进行表征。作者表示,这代表了迄今为止经实验验证的最大规模AI生成从头设计化合物数据集。


表1 每个靶点上合成的从头设计化合物数目



  结果


生成的化合物表现出生物活性


为验证cGAN在苗头化合物生成中的实用性,从先前研究中生成的约30万个化学结构中筛选出一部分进行化学合成。首先,仅保留化学上合理的结构,随后,依据期望的理化性质及可合成性应用进一步的筛选过滤。最终,基于理化性质综合评分选取了76个化合物进行合成,并在生物学实验中进行了测试(图1A)。从化合物数量与靶点覆盖范围来看,这项研究是迄今为止利用机器学习方法生成小分子并进行实验验证的最大规模研究。


首先在PubChem数据库中检索了已合成的76个化合物的结构,结果显示其中大多数(48/76)为新型化学实体。此外,所有生成的化合物均未出现在cGAN训练所用的数据集中。随后,将这些已合成化合物的结构与PubChem数据库中随机抽取的化合物样本进行比较,以此作为已知化学空间的背景参照(图1B)。即使在应用了化学与合成可行性筛选标准后,这些化合物仍然覆盖了已知化学空间的显著部分。此外,完全新颖的化合物在化学空间中并未集中分布于特定区域(图1B),说明模型能够正确学习化学结构规则,并生成与训练集中不同的新颖化合物。


接下来,评估了这些生成化合物的生物活性。由于模型是基于细胞着色形态特征生成分子的,作者将能引起细胞形态变化的化合物定义为生物活性化合物。在U2OS细胞上以三个不同浓度对生成化合物进行了cell painting实验(图1A)。结果观察到88.16%(67/76)的化合物表现出剂量依赖性反应(图1C)。这种活性并不局限于特定靶点,所有靶点均至少对应两个活性化合物,且针对TP53、STAT3和JUN生成的化合物全部具有生物活性。



图1 化学多样性及生物活性实验验证


生成的化合物影响特定生物通路


作者进一步在U2OS细胞系中表征这些化合物所诱导的生物学效应。将母型特征谱(parent profile)定义为用于指导特定化合物设计的基因扰动所产生的细胞形态学特征谱(图1A),假设相应的de novo化合物会在U2OS细胞中诱导出类似的生物学响应。


作者使用置换检验来比较化合物形态学特征谱与其对应母型特征谱之间的距离,是否显著小于其与数据集中无关母型特征谱之间的距离。结果显示,真实匹配对之间的形态学距离显著小于随机预期(p=0.004),表明生成化合物的形态学特征总体上与其母型特征谱具有相似性。


进一步探究了生成化合物(子型特征谱)与母型特征谱之间的形态学相似性是否可归因于目标基因的扰动。在U2OS细胞上进行了转录组实验(GoScreen),化合物浓度取为产生最大形态学变化或效应达到平台期的最低浓度。在数据通过质量控制后,共有73个化合物纳入后续分析。结果表明,仅有约2.6%(2/73)的生成化合物显著影响了其对应靶基因的mRNA表达水平。作者分析,cGAN是基于基因过表达所引起的细胞形态变化来生成化合物的,因此模型对具体靶基因本身是非依赖性的。换言之,模型可以生成通过下游通路作用、从而再现类似形态学变化的化合物。此外,化合物的作用效应可能通过靶点激活体现,即在不直接改变靶基因表达水平的情况下模拟其功能性过表达。


鉴于这些机制仍会在靶点所参与的信号通路中引发变化,将靶向验证进一步拓展至通路水平。结果发现,37%(27/73)的化合物可扰动至少一个包含目标基因的通路。20.5%(15/73)的化合物未引起任何显著的基因表达水平变化(图1D)。总体来看,在接受两类实验检测的化合物中,93.2%在转录组、形态组,或两者中至少一种数据模态中表现出显著效应。具体而言,13.7%的化合物仅表现出形态学活性,而10.9%仅在转录组数据中显示活性(图1D)。


随后,利用细胞着色数据与转录组数据两种模态,对化合物特征谱进行层次聚类分析(图1E)。聚类结果显示,针对同一靶基因设计的化合物之间仅表现出较弱的余弦相似性。这种差异可能源于部分生成化合物与条件生成目标并不完全匹配。事实上,仅有约35%的生成化合物与条件匹配度达到70%以上。然而,一些由相同靶点(尤其是TP53)过表达特征指导生成的化合物聚集在同一聚类中,并在形态学与转录组特征上均表现出相似性。这种相似性模式在多数化合物的两种数据模态中均可观察到。


生成的化合物显示出靶点富集效应


进一步详细分析了那些被设计用于重现TP53过表达形态学特征谱的生成化合物(以下简称TP53-生成化合物)。采用Brunner–Munzel检验,以确定这些化合物在表型(形态学)与转录组两个层面上,是否在组内表现出更高的相似性,相较于它们与其他化合物之间的相似性。


结果显示,TP53-生成化合物的形态学特征谱之间的相似性显著更高,与其他显示形态活性的生成化合物相比差异显著。TP53-生成化合物之间的转录组特征谱平均距离略高于其形态学平均距离(图2A)。此外,这些TP53靶向化合物取样自化学空间中一个多样但受限的子集(图2B)。将这些化合物两两间的Tanimoto距离分布与来自PubChem的随机化合物样本进行比较,发现生成化合物具有相对更高的距离值及更宽的分布范围。这说明,即使在生物学特征较窄的条件下生成分子,cGAN仍倾向于探索相对宽广的化学空间。


转录组通路分析表明,9个具有转录组活性的TP53-生成化合物中有6个(占67%)显著影响了至少一个与TP53相关的信号通路(图2C)。然而,没有任何一种化合物直接调节TP53本身的mRNA表达水平。仅有46%的非相关化合物扰动了至少一个与TP53相关的通路(图2D)。这些结果表明,cGAN设计的化合物在作用于目标靶点方面表现出富集效应。



图2 来自特定过表达谱(TP53与CREBBP)的化合物评估


  讨论


本研究验证了通过条件生成对抗网络基于药理学靶点过表达的细胞着色形态学特征谱所生成的从头设计化合物的有效性。与以往多数仅针对单一靶点的研究不同,该研究聚焦于多个与癌症相关的靶点,从而拓展了生成模型在多靶点药物发现中的应用范围。


结果表明,经过额外的化学与生物学筛选步骤后,该模型能够生成大部分在化学上新颖且具有生物活性的化合物。尽管多数生成化合物并未直接影响其预期靶点的基因表达水平,但其中约37%的化合物能显著影响与靶点相关的转录组通路。以TP53为代表靶点进行的深入验证表明,这些靶点通路效应具有特异性。


未来应建立标准化的生成模型基准任务,以便客观评估并选择表现最优的模型;其次,在模型训练与评估过程中引入更多指导维度,例如生物利用度与安全性特征,将有助于进一步提升生成化合物的实际药物开发价值。



参考链接:https://doi.org/10.1101/2025.09.13.676062





文章改编转载自微信公众号:智药邦


原文链接:https://mp.weixin.qq.com/s/rnNEQUPPFwgrqg52JRypeA

30
0
0
0
关于作者
相关文章
  • 综述解读|GNN 驱动 AI 辅助药物研发:方法、应用与未来方向 ...
    《Graph Neural Networks in Modern AI-Aided Drug Discovery》发表于《Chemical Reviews》期刊 ...
    了解详情 
  • 量子通信或遭“一束强光”击破:研究揭示新型安全漏洞 ...
    南京邮电大学与北京玻色量子科技有限公司联合完成的研究《 The glare blinding attack strategy ...
    了解详情 
  • VQ-VAE-2:开启高保真多样化图像生成的新范式
    《Generating Diverse High-Fidelity Images with VQ-VAE-2》提出向量量化变分自编码器(VQ-VAE- ...
    了解详情 
  • 当 AI 遇上太阳能:用 VAE - 贝叶斯深度学习精准预测光伏发电量 ...
    本文介绍一种结合变分自编码器(VAE)与贝叶斯双向长短期记忆网络(BiLSTM)的太阳能发电预测技 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行QBM-VAE示例代码,根据系统提供的随机seed值,求出正确的FID值。

通过奖励

10个一年效期的550量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

替换seed值

您的seed值为

第三步

输入您计算的FID值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

550bit*10

配额