|

▍导语|Squidiff 如何预测分化轨迹与复杂扰动反应?
单细胞测序让我们能够以前所未有的分辨率观察细胞状态,但它始终是一种“快照技术”——我们看到的是某一时间点的表达图谱,而不是连续的命运演化。那么,能否借助人工智能模型,从有限时间点数据中,推演出细胞在发育、药物、基因编辑甚至辐射等刺激下的动态转录组变化?
近期发表于 Nature Methods 的研究论文 “Squidiff: predicting cellular development and responses to perturbations using a diffusion model”,由 Columbia University、Stanford University 等机构的 Siyu He、Yuefei Zhu、Daniel Naveed Tavakol、James Zou、Elham Azizi 和 Kam W. Leong 团队完成,提出了一种基于扩散模型的生成式框架——Squidiff,用于预测细胞在不同环境变化下的转录组动态轨迹。
这项工作不仅将扩散模型引入单细胞发育预测,还在血管类器官、辐射损伤与药物干预等复杂体系中进行了系统验证,为“虚拟细胞”(virtual cell)的构建提供了重要范式。
▍新颖性与意义|
Squidiff 的新颖性体现在三个层面。首先,它首次系统性地将条件扩散模型用于单细胞动态预测,将生成式建模引入细胞命运推演。其次,通过构建可操作的语义潜空间,使发育与扰动成为向量运算问题,实现连续插值与非加性叠加。第三,在类器官与辐射损伤模型中验证其跨细胞类型泛化能力,拓展了人工智能在复杂生物系统中的应用边界。
▍科学背景与研究现状|
细胞并非静态存在,而是持续处于状态转变之中。从多能干细胞向特定谱系分化,从药物刺激下的应答重编程,到肿瘤微环境中的压力适应,转录组变化往往呈现高度非线性与细胞类型特异性。
近年来,多个机器学习模型被用于预测单细胞扰动响应,例如:
scGen:基于VAE建模扰动向量;
GEARS:整合基因调控图结构预测多基因扰动;
CellOT:利用最优传输框架学习状态迁移。
然而这些模型往往存在三个局限:
第一,多数方法假设扰动效果可线性叠加,难以刻画复杂非加性效应。 第二,难以预测连续发育过程中的“瞬态状态”(transient states)。 第三,对于未见药物或新组合的泛化能力有限。
与此同时,扩散模型(Diffusion Models)在图像生成与蛋白结构预测中表现出强大的分布学习能力,但其在单细胞动态预测中的应用仍处于探索阶段。
Squidiff 正是在这一背景下提出,尝试构建一个能够“从噪声中还原细胞命运轨迹”的生成式框架。
▍研究现状技术路线|语义潜空间与条件扩散的结合
Squidiff 的核心架构由语义编码器与条件扩散模型两部分构成。模型首先通过一个多层感知机结构的语义编码器,将单细胞表达谱映射到一个低维潜在语义空间 z_sem。在这个空间中,细胞类型、发育阶段以及外界刺激等信息被整合为可操作的向量表示。随后,在扩散过程中,真实表达谱逐步被加入高斯噪声直至接近纯随机分布;在反向去噪过程中,模型在语义变量的条件下逐步恢复表达结构。
关键创新在于,Squidiff 将发育或扰动视为潜空间中的方向向量 Δz。例如,在分化过程中,Day 3 与 Day 0 之间的语义差异可以表示为一个向量,这个向量定义了分化方向。通过在潜空间中进行插值,模型可以生成未观测时间点的表达谱;通过向量叠加,可以模拟双基因或多药物组合的效应。这样的设计使得细胞命运成为可连续操作的数学对象,而不仅仅是离散标签。
▍研究结果解析|
模型原理与合成数据验证
研究首先在模拟单细胞数据上验证模型能力。扩散过程将三种不同细胞类型逐步转化为高斯噪声,而反向过程成功恢复原始表达分布。主成分分析显示,语义潜变量能够清晰区分不同细胞类型,而噪声变量仅反映随机性。这一结果证明模型既能捕捉生物学结构,又能分离随机扰动成分。

iPSC 分化轨迹预测
在真实数据中,作者仅使用 Day 0 与 Day 3 的 iPSC 分化数据训练模型,并预测 Day 1 与 Day 2 的表达状态。结果显示,预测数据与真实数据之间的相关性在 Day 1 和 Day 2 分别达到 0.85 与 0.90,而 Day 3 几乎完全重建。关键分化标志基因呈现符合生物学规律的动态变化:多能性标志 NANOG 逐渐下降,内胚层相关转录因子 GATA6 持续上升,中期标志 TBXT 在过渡阶段达到峰值。伪时间分析显示预测细胞在连续轨迹上的分布与真实时间顺序高度一致,说明模型不仅重建了表达水平,也捕捉到发育动力学结构。与 scGen 相比,Squidiff 在相关性与解释度指标上均表现更优。

双基因与药物扰动预测
在双基因非加性扰动实验中,模型通过在潜空间中叠加两个基因的扰动向量,成功预测联合扰动效果,R² 达到 0.92,相关性高达 0.97。值得注意的是,模型无需显式基因调控网络信息,仍能捕捉非线性协同效应。
在药物预测任务中,作者仅用部分细胞类型暴露于特定药物进行训练,随后预测其他细胞类型对药物的反应。模型准确识别出 panobinostat 在肿瘤细胞中的显著效应,并在完全未见药物场景下,通过整合 rFCFP 分子指纹嵌入,保持良好预测性能。这一能力为新药筛选与精准医学提供了理论支持。

血管类器官发育建模
在血管类器官(BVO)系统中,作者仅以 Day −1 的 iPSC 数据与 Day 11 的类器官数据训练模型,并通过插值预测 Day 1 至 Day 17 的连续轨迹。模型成功重建 endothelial、mural 与 fibroblast 细胞的分化路径,并揭示 mural progenitor 向 endothelial 转化的潜在过程。对照模型未能捕捉这一瞬态过渡状态,显示扩散模型在复杂三维体系中的优势。

中子辐射损伤预测
在 Day 5 给予中子辐射后,模型仅使用 endothelial 细胞数据训练,却成功预测 fibroblast 与 mural 细胞的辐射响应。差异基因包括 CDKN1A、MDM2 与 GDF15 等上调基因,以及 TOP2A 与 HMGB2 等下调基因。富集通路涉及 p53、NF-κB 与炎症信号通路。ELISA 实验显示 IL-1β 与 TNF 显著升高,类器官结构亦发生异常变化,实验验证支持模型预测。

G-CSF 放射保护效应预测
在 G-CSF 干预实验中,模型预测其在不同细胞类型中的差异性作用:在 endothelial 细胞中减少凋亡信号,在 fibroblast 中促进血管生成,在 mural 细胞中增强基因组稳定性。实验结果支持预测趋势,证明模型在治疗响应预测中的潜在应用价值。

▍讨论与局限性|
尽管 Squidiff 展示出强大能力,其仍存在若干限制。扩散模型训练时间较长,对高性能GPU依赖明显;语义潜空间的线性假设在极端复杂系统中可能仅为近似;当前验证主要基于体外类器官模型,尚需体内数据支持;此外,模型尚未整合空间转录组或多组学数据,而这些信息对真实组织结构与细胞间互作至关重要。未来若能在计算效率优化与多模态整合方面取得突破,Squidiff 或有望发展为通用的细胞命运预测基础模型。
参考文献:He S, Zhu Y, Tavakol DN, et al. Squidiff: predicting cellular development and responses to perturbations using a diffusion model. Nature Methods. 2026;23:65–77. https://doi.org/10.1038/s41592-025-02877-y
文章转载自微信公众号:生物科学八卦
原文链接:https://mp.weixin.qq.com/s/cl0QDwX_X92WsF-2ZFG-bA?scene=1&click_id=67 |