Cell: 当 Ising 模型遇见 Perturb-seq：用统计物理反推百万细胞的调控网络

薛定谔了么 · 发表于 1780386476

本文介绍加州理工学院与洛克菲勒大学团队发表于《Cell》的研究——D-SPIN（单细胞扰动整合网络），其创新性融合统计物理Ising模型与Perturb-seq数据，解决了基因调控网络（GRN）推断的经典难题。传统GRN方法仅依赖基因相关性，无法捕捉扰动因果方向；深度学习模型预测精度高却为黑箱，缺乏机制解释性。D-SPIN将细胞抽象为自旋向量，通过Boltzmann分布建模细胞状态，以共享相互作用矩阵J表征全局调控网络，以扰动偏置场h刻画不同处理的能量景观偏移，从“解释全扰动分布”视角反推调控关系。算法上通过伪似然估计与正交非负矩阵分解，实现千级基因、百万细胞的高效推断，25万细胞仅需6小时完成计算。在合成造血干细胞分化网络中，其top10边准确率达0.96，远超传统方法；在全基因组K562敲除数据中，不仅验证了已知红系调控因子，还独家发现NPM1通过蛋白定位介导隐性调控的新机制；在免疫药物扰动数据中可精准分型药物表型，并首次实现组合药剂量插值，将筛选成本从O(剂量²)降至O(剂量)+O(1)。该方法兼具机制可解释性与生成式预测能力，无需额外生物学先验即可达到更高精度，但受限于平衡态假设，暂无法覆盖发育轨迹等动态过程，为单细胞调控图谱构建与药物研发提供了新范式。

1. D-SPIN 模型的理论框架

Caltech 与 Rockefeller 团队近期在 Cell发表的工作提出了 D-SPIN（Single-cell Perturbation Integration Network），首次将统计物理中的 Ising 模型引入单细胞扰动数据分析。

其核心建模思想包括：

将单个细胞抽象为 spin 向量 s ∈ {-1,0, 1}ᴹ，每个分量对应一个基因或基因程序（gene program）的活性状态。

细胞呈群体状分布态服从 Boltzmann 分布：P(s) ∝ exp(-E)

能量函数： E = -Σ Jᵢⱼsᵢsⱼ - Σhᵢ⁽ⁿ⁾sᵢ

其中：

J矩阵：所有扰动条件共享的基因/程序间相互作用矩阵，即全局调控网络；

h⁽ⁿ⁾：第 n个扰动条件下的偏置场，决定能量景观的倾斜方向与细胞状态分布。

该方法不再以“预测下游基因表达”为目标，而是反推能够同时解释所有观测扰动分布的能量景观，从统计物理角度统一刻画扰动–响应关系。

2. 算法实现与计算优化

针对高维单细胞数据的计算挑战，D-SPIN 设计了两种实现策略：

有向 gene-level 网络：采用 pseudolikelihood 方法训练，可扩展至数千基因、数百万细胞规模；

无向 program-level 生成网络：采用精确最大似然估计，节点数控制在 50 以内以保证可采样性。

此外，配套开发了基于正交非负矩阵分解（oNMF）的自动 gene program 发现流程，将上万基因压缩为约 30 个非重叠功能模块。在计算效率上，25.6 万 K562 细胞、2 CPU 核心环境下仅需约 6 小时完成推断，显著优于传统方法。

3. 性能评估与生物学发现

3.1 合成数据与真实数据验证

在含 22 个扰动的合成造血干细胞（HSC）分化网络中，D-SPIN 的 top 10 边平均准确率达 0.96，显著高于 PIDC、GRNBoost2 和 GENIE3（0.77–0.83）。

扩展至 1000 节点模块网络时，D-SPIN 仍保持 0.93 的准确率，而传统方法均跌至 0.5 左右。

在生成能力上，D-SPIN 采样得到的细胞状态分布与真实分布余弦相似度 >0.96。

3.2 K562 全基因组 Perturb-seq 分析

基于 Replogle 等（2022）数据集（9867 个 KO、189 万细胞）：

将 30 个 gene program 聚类为 7 大功能模块（转录、翻译、修饰、降解、DNA 复制、细胞分裂、线粒体）。

成功识别 KLF1、NFE2、GFI1B 等已知红系命运调控因子。

首次发现 NPM1 通过 BCR-ABL1 激酶介导的蛋白定位变化，间接抑制红系/髓系分化，这类“隐性调控”无法被传统 motif-based 方法捕获。

3.3 药物扰动与免疫调控解析

在 502 种免疫调节药物 × 150 万 PBMC 单细胞数据中：

依据扰动偏置场 h将药物划分为 7 类表型反应（强/弱抑制剂、糖皮质激素类等）。

发现糖皮质激素虽整体抑制炎症，但强烈诱导以 CD163 为标志的 M2 巨噬程序，该现象在 program-level 网络上直观可辨。

4. 组合药剂量响应建模

D-SPIN 最具创新性的应用在于组合药剂量插值：

以 dasatinib（Src 抑制剂）和 halcinonide（糖皮质激素）为例，单药均无法诱导特定的“超抑制 M2 巨噬态”，但两药联用可产生。

仅需单药完整剂量曲线 + 1 个组合剂量点，即可通过 J网络生成式重建其余 30 个未观测剂量组合的细胞状态分布（余弦相似度 ≥0.84）。

将组合药筛选的实验复杂度从 O(剂量²) 降至 O(剂量) + O(1)，实现了统计物理可加性在药理学中的高效应用。

5. 总结

D-SPIN 通过将 Ising 模型与单细胞扰动数据深度融合，突破了传统 GRN 推断的相关性局限与深度学习的黑箱瓶颈，在网络重构精度、机制解释性、生成式预测能力三方面实现了同步提升。其成功表明，在扰动信息足够丰富的体系中，统计物理框架能够以极小参数量换取强泛化能力。

未来发展方向可能包括：将平衡态模型扩展至非平衡态动力学网络，以覆盖发育与疾病进程；融合多组学先验，缓解高阶调控模式欠拟合问题；推广至临床样本与复杂表型预测场景，支撑精准医学与药物研发。

文章改编转载自微信公众号：AI Crossfields Insights

原文链接：https://mp.weixin.qq.com/s/yq05sadIopKpgnnWRoCc_A?scene=1