DNA-Diffusion：扩散模型驱动的功能可控合成调控元件从头设计框架

Jack小新 · 发表于 1767023032

合成调控元件（如启动子、增强子和顺式调控序列）是精确控制基因表达的核心组件，但其设计长期依赖经验规则或高通量筛选，成本高且可迁移性有限。本研究提出了一种基于扩散模型的生成式人工智能框架 DNA-Diffusion，用于从头设计具有目标表达特性的合成调控元件。研究人员表明，该模型能够在大规模基因组数据上学习 DNA 序列的统计与功能规律，并在无须显式规则约束的情况下生成具有稳定表达活性、可跨细胞类型泛化的调控序列，为合成生物学提供了一种新的通用设计范式。

基因调控元件决定了基因在时间、空间和强度层面的表达模式，是合成生物学、电路设计和基因治疗中的关键构件。然而，天然调控序列的复杂性使得基于规则的设计方法难以全面刻画其功能空间。

近年来，深度学习在 DNA 序列建模方面取得进展，但大多数方法仍以判别式预测为主，难以直接生成全新、功能可控的序列。生成式模型，尤其是扩散模型，在图像和蛋白序列生成中的成功，为 DNA 调控元件的从头设计提供了新的可能性。

01 方法概述：DNA-Diffusion 框架

DNA-Diffusion 采用条件扩散模型，将 DNA 序列视为离散符号序列，通过逐步加噪与反向去噪过程学习调控序列的生成分布。其核心特点包括：

从头生成：无需模板序列或人工规则约束；

条件控制：可基于目标表达水平、细胞类型或调控类别进行条件生成；

可扩展性：适用于不同长度和类型的调控元件。

模型在训练阶段利用大规模实验注释数据学习“序列–功能”映射关系，在生成阶段则通过条件采样直接输出候选调控序列。

图 1｜DNA-Diffusion 框架概览：用于细胞类型特异性调控序列的生成建模、验证与解释。

02 生成序列的统计与结构特征

分析表明，DNA-Diffusion 生成的序列在碱基组成、局部 motif 分布和长程序列相关性方面，与天然调控元件高度一致。模型并非简单复制训练数据，而是能够组合和重构多种调控特征，探索此前未被系统覆盖的序列空间。

此外，生成序列在信息熵和复杂度层面表现出合理分布，避免了常见的模式坍缩或过度随机化问题。

图 2｜DNA-Diffusion 生成序列与内源性调控元件在序列相似性及转录因子基序组成上的比较。

03 功能评估与实验验证

在多种体外实验体系中，研究人员系统评估了 DNA-Diffusion 生成序列的调控功能。结果显示：

· 生成的启动子和增强子在报告基因实验中展现出稳定且可调控的表达活性；

· 在不同细胞类型中，部分序列表现出良好的功能保持性；

· 与基于规则或其他生成模型的方法相比，DNA-Diffusion 在表达强度与多样性之间取得更优平衡。

图 3｜利用细胞类型特异性 DNA-Diffusion 序列进行 in silico 增强子替换的预测建模。

04 条件设计与功能可控性

通过引入条件信号，DNA-Diffusion 能够定向生成具有特定表达水平或响应特性的调控序列。研究人员展示了模型在以下任务中的能力：

· 按目标表达强度分级生成启动子；

· 设计在特定细胞背景中优先激活的调控元件；

· 在保持整体表达水平的同时优化序列多样性。

这些结果表明，扩散模型能够在高维 DNA 序列空间中实现平滑、连续的功能调控。

图 4｜信号强度与信号特异性的权衡及其对下游序列组成的影响。

图 5｜STARR-seq 实验证实 DNA-Diffusion 序列的细胞类型特异性调控活性。

图 6｜DNA-Diffusion 生成序列可将 AXIN2 表达水平提升至超过保护性变异的程度。

05 与其他模型的对比分析

研究人员将 DNA-Diffusion 与多种主流生成方法（如基于语言模型或变分自编码器的策略）进行了系统比较。结果显示，扩散模型在以下方面具有明显优势：

· 更稳定的生成过程；

· 更高的功能成功率；

· 更强的泛化能力。

这表明扩散框架特别适合刻画调控序列中复杂、分布式的功能信号。

图 7｜当前最先进的合成调控元件深度学习方法的基准性能比较。

06 讨论与展望

DNA-Diffusion 提供了一种无需人工规则、可扩展且功能可控的合成调控元件设计方法，其意义不仅在于性能提升，更在于设计范式的转变：从“预测已有序列是否有效”，转向“直接生成满足需求的新序列”。

研究人员指出，未来工作可进一步拓展至多调控元件协同设计、与染色质可及性等多模态信息融合，以及在体内模型中的系统验证。这一框架也有望与自动化实验平台结合，形成闭环的“生成–测试–优化”合成生物学流程。

参考资料

DaSilva, L.F., Senan, S., Kribelbauer-Swietek, J.F. et al. Designing synthetic regulatory elements using the generative AI framework DNA-Diffusion. Nat Genet (2025).

https://doi.org/10.1038/s41588-025-02441-6

文章改编转载自微信公众号：DrugOne

原文链接：https://mp.weixin.qq.com/s/IXRTBGTA6Lyo-QDFRq6OWQ