本文介绍加州理工学院与洛克菲勒大学团队发表于《Cell》的研究——D-SPIN(单细胞扰动整合网络),其创新性融合统计物理Ising模型与Perturb-seq数据,解决了基因调控网络(GRN)推断的经典难题。传统GRN方法仅依赖基因相关性,无法捕捉扰动因果方向;深度学习模型预测精度高却为黑箱,缺乏机制解释性。D-SPIN将细胞抽象为自旋向量,通过Boltzmann分布建模细胞状态,以共享相互作用矩阵J表征全局调控网络,以扰动偏置场h刻画不同处理的能量景观偏移,从“解释全扰动分布”视角反推调控关系。算法上通过伪似然估计与正交非负矩阵分解,实现千级基因、百万细胞的高效推断,25万细胞仅需6小时完成计算。在合成造血干细胞分化网络中,其top10边准确率达0.96,远超传统方法;在全基因组K562敲除数据中,不仅验证了已知红系调控因子,还独家发现NPM1通过蛋白定位介导隐性调控的新机制;在免疫药物扰动数据中可精准分型药物表型,并首次实现组合药剂量插值,将筛选成本从O(剂量²)降至O(剂量)+O(1)。该方法兼具机制可解释性与生成式预测能力,无需额外生物学先验即可达到更高精度,但受限于平衡态假设,暂无法覆盖发育轨迹等动态过程,为单细胞调控图谱构建与药物研发提供了新范式。
1. D-SPIN 模型的理论框架
Caltech 与 Rockefeller 团队近期在 Cell发表的工作提出了 D-SPIN(Single-cell Perturbation Integration Network),首次将统计物理中的 Ising 模型引入单细胞扰动数据分析。
其核心建模思想包括:
将单个细胞抽象为 spin 向量 s ∈ {-1,0, 1}ᴹ,每个分量对应一个基因或基因程序(gene program)的活性状态。
细胞呈群体状分布态服从 Boltzmann 分布:P(s) ∝ exp(-E)
能量函数: E = -Σ Jᵢⱼsᵢsⱼ - Σhᵢ⁽ⁿ⁾sᵢ
其中:
J矩阵:所有扰动条件共享的基因/程序间相互作用矩阵,即全局调控网络;
h(n):第 n个扰动条件下的偏置场,决定能量景观的倾斜方向与细胞状态分布。
该方法不再以“预测下游基因表达”为目标,而是反推能够同时解释所有观测扰动分布的能量景观,从统计物理角度统一刻画扰动–响应关系。
2. 算法实现与计算优化
针对高维单细胞数据的计算挑战,D-SPIN 设计了两种实现策略:
有向 gene-level 网络:采用 pseudolikelihood 方法训练,可扩展至数千基因、数百万细胞规模;
无向 program-level 生成网络:采用精确最大似然估计,节点数控制在 50 以内以保证可采样性。
此外,配套开发了基于正交非负矩阵分解(oNMF)的自动 gene program 发现流程,将上万基因压缩为约 30 个非重叠功能模块。在计算效率上,25.6 万 K562 细胞、2 CPU 核心环境下仅需约 6 小时完成推断,显著优于传统方法。
3. 性能评估与生物学发现
3.1 合成数据与真实数据验证
在含 22 个扰动的合成造血干细胞(HSC)分化网络中,D-SPIN 的 top 10 边平均准确率达 0.96,显著高于 PIDC、GRNBoost2 和 GENIE3(0.77–0.83)。
扩展至 1000 节点模块网络时,D-SPIN 仍保持 0.93 的准确率,而传统方法均跌至 0.5 左右。
在生成能力上,D-SPIN 采样得到的细胞状态分布与真实分布余弦相似度 >0.96。
3.2 K562 全基因组 Perturb-seq 分析
基于 Replogle 等(2022)数据集(9867 个 KO、189 万细胞):
将 30 个 gene program 聚类为 7 大功能模块(转录、翻译、修饰、降解、DNA 复制、细胞分裂、线粒体)。
成功识别 KLF1、NFE2、GFI1B 等已知红系命运调控因子。
首次发现 NPM1 通过 BCR-ABL1 激酶介导的蛋白定位变化,间接抑制红系/髓系分化,这类“隐性调控”无法被传统 motif-based 方法捕获。
3.3 药物扰动与免疫调控解析
在 502 种免疫调节药物 × 150 万 PBMC 单细胞数据中:
依据扰动偏置场 h将药物划分为 7 类表型反应(强/弱抑制剂、糖皮质激素类等)。
发现糖皮质激素虽整体抑制炎症,但强烈诱导以 CD163 为标志的 M2 巨噬程序,该现象在 program-level 网络上直观可辨。

4. 组合药剂量响应建模
D-SPIN 最具创新性的应用在于组合药剂量插值:
以 dasatinib(Src 抑制剂)和 halcinonide(糖皮质激素)为例,单药均无法诱导特定的“超抑制 M2 巨噬态”,但两药联用可产生。
仅需单药完整剂量曲线 + 1 个组合剂量点,即可通过 J网络生成式重建其余 30 个未观测剂量组合的细胞状态分布(余弦相似度 ≥0.84)。
将组合药筛选的实验复杂度从 O(剂量²) 降至 O(剂量) + O(1),实现了统计物理可加性在药理学中的高效应用。

5. 总结
D-SPIN 通过将 Ising 模型与单细胞扰动数据深度融合,突破了传统 GRN 推断的相关性局限与深度学习的黑箱瓶颈,在网络重构精度、机制解释性、生成式预测能力三方面实现了同步提升。其成功表明,在扰动信息足够丰富的体系中,统计物理框架能够以极小参数量换取强泛化能力。
未来发展方向可能包括:将平衡态模型扩展至非平衡态动力学网络,以覆盖发育与疾病进程;融合多组学先验,缓解高阶调控模式欠拟合问题;推广至临床样本与复杂表型预测场景,支撑精准医学与药物研发。
文章改编转载自微信公众号:AI Crossfields Insights
原文链接:https://mp.weixin.qq.com/s/yq05sadIopKpgnnWRoCc_A?scene=1