DNA-Diffusion:扩散模型驱动的功能可控合成调控元件从头设计框架

Jack小新
2025-12-29 23:43:52
生命科学
算法解析

合成调控元件(如启动子、增强子和顺式调控序列)是精确控制基因表达的核心组件,但其设计长期依赖经验规则或高通量筛选,成本高且可迁移性有限。本研究提出了一种基于扩散模型的生成式人工智能框架 DNA-Diffusion,用于从头设计具有目标表达特性的合成调控元件。研究人员表明,该模型能够在大规模基因组数据上学习 DNA 序列的统计与功能规律,并在无须显式规则约束的情况下生成具有稳定表达活性、可跨细胞类型泛化的调控序列,为合成生物学提供了一种新的通用设计范式。



基因调控元件决定了基因在时间、空间和强度层面的表达模式,是合成生物学、电路设计和基因治疗中的关键构件。然而,天然调控序列的复杂性使得基于规则的设计方法难以全面刻画其功能空间。


近年来,深度学习在 DNA 序列建模方面取得进展,但大多数方法仍以判别式预测为主,难以直接生成全新、功能可控的序列。生成式模型,尤其是扩散模型,在图像和蛋白序列生成中的成功,为 DNA 调控元件的从头设计提供了新的可能性。


01 方法概述:DNA-Diffusion 框架


DNA-Diffusion 采用条件扩散模型,将 DNA 序列视为离散符号序列,通过逐步加噪与反向去噪过程学习调控序列的生成分布。其核心特点包括:


从头生成:无需模板序列或人工规则约束;


条件控制:可基于目标表达水平、细胞类型或调控类别进行条件生成;


可扩展性:适用于不同长度和类型的调控元件。


模型在训练阶段利用大规模实验注释数据学习“序列–功能”映射关系,在生成阶段则通过条件采样直接输出候选调控序列。



图 1|DNA-Diffusion 框架概览:用于细胞类型特异性调控序列的生成建模、验证与解释。


02 生成序列的统计与结构特征


分析表明,DNA-Diffusion 生成的序列在碱基组成、局部 motif 分布和长程序列相关性方面,与天然调控元件高度一致。模型并非简单复制训练数据,而是能够组合和重构多种调控特征,探索此前未被系统覆盖的序列空间。


此外,生成序列在信息熵和复杂度层面表现出合理分布,避免了常见的模式坍缩或过度随机化问题。



图 2|DNA-Diffusion 生成序列与内源性调控元件在序列相似性及转录因子基序组成上的比较。


03 功能评估与实验验证


在多种体外实验体系中,研究人员系统评估了 DNA-Diffusion 生成序列的调控功能。结果显示:


· 生成的启动子和增强子在报告基因实验中展现出稳定且可调控的表达活性;


· 在不同细胞类型中,部分序列表现出良好的功能保持性;


· 与基于规则或其他生成模型的方法相比,DNA-Diffusion 在表达强度与多样性之间取得更优平衡。



图 3|利用细胞类型特异性 DNA-Diffusion 序列进行 in silico 增强子替换的预测建模。


04 条件设计与功能可控性


通过引入条件信号,DNA-Diffusion 能够定向生成具有特定表达水平或响应特性的调控序列。研究人员展示了模型在以下任务中的能力:


· 按目标表达强度分级生成启动子;


· 设计在特定细胞背景中优先激活的调控元件;


· 在保持整体表达水平的同时优化序列多样性。


这些结果表明,扩散模型能够在高维 DNA 序列空间中实现平滑、连续的功能调控。



图 4|信号强度与信号特异性的权衡及其对下游序列组成的影响。



图 5|STARR-seq 实验证实 DNA-Diffusion 序列的细胞类型特异性调控活性。



图 6|DNA-Diffusion 生成序列可将 AXIN2 表达水平提升至超过保护性变异的程度。


05 与其他模型的对比分析


研究人员将 DNA-Diffusion 与多种主流生成方法(如基于语言模型或变分自编码器的策略)进行了系统比较。结果显示,扩散模型在以下方面具有明显优势:


· 更稳定的生成过程;


· 更高的功能成功率;


· 更强的泛化能力。


这表明扩散框架特别适合刻画调控序列中复杂、分布式的功能信号。



图 7|当前最先进的合成调控元件深度学习方法的基准性能比较。


06 讨论与展望


DNA-Diffusion 提供了一种无需人工规则、可扩展且功能可控的合成调控元件设计方法,其意义不仅在于性能提升,更在于设计范式的转变:从“预测已有序列是否有效”,转向“直接生成满足需求的新序列”。


研究人员指出,未来工作可进一步拓展至多调控元件协同设计、与染色质可及性等多模态信息融合,以及在体内模型中的系统验证。这一框架也有望与自动化实验平台结合,形成闭环的“生成–测试–优化”合成生物学流程。



参考资料


DaSilva, L.F., Senan, S., Kribelbauer-Swietek, J.F. et al. Designing synthetic regulatory elements using the generative AI framework DNA-Diffusion. Nat Genet (2025).


https://doi.org/10.1038/s41588-025-02441-6





文章改编转载自微信公众号:DrugOne


原文链接:https://mp.weixin.qq.com/s/IXRTBGTA6Lyo-QDFRq6OWQ

25
0
0
0
关于作者
相关文章
  • 生物与化学领域大模型全景综述:表征、架构与应用进展 ...
    人工智能(AI)正通过提供可扩展的计算框架,重塑生物医学研究范式,使其能够更有效地应对生物系统 ...
    了解详情 
  • 诺奖得主 John Martinis:量子计算五至十年有望实用 ...
    2025 年诺贝尔物理学奖得主、量子计算奠基人 John Martinis 在采访中分享科研历程与行业洞见。他 ...
    了解详情 
  • 面向可再生能源场景生成的双深度神经网络GAN方法 ...
    1 概述情景发电是可再生能源渗透率高的电力系统运行和规划的重要步骤。在本文中,提出了一种使用 ...
    了解详情 
  • 深度学习驱动的蛋白-配体相互作用建模与药物发现 ...
    药物发现是一项复杂且资源密集的过程,而传统方法在面对庞大的化学空间时效率低下。近期,北京大 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas