AI 赋能核酸设计革命:InstructNA 让功能核酸 “按需生成”

宇宙微尘
2026-03-24 00:30:43
生命科学
论文精读与讲座笔记

本文解读 Nature Computational Science 2026 年论文《De novo design of functional nucleic acids of aptamers》,该研究提出融合核酸大语言模型(NA-LLMs)与高通量 SELEX 的 InstructNA 框架,无需依赖三维结构即可从头设计功能核酸(FNA)。针对 LOX1 和 CXCL5 蛋白靶点,其生成的强结合适配体数量较传统 HT-SELEX 分别提升 100% 和 200%,部分适配体与原始序列相似度低至 38%,同时保持高结合亲和力(最低 KD 达 6.6 nM),为分子识别、基因调控等领域提供高效设计工具。




在分子生物学的工具箱里,功能核酸(FNA)是一类 “多才多艺” 的明星分子 —— 它们不仅能存储遗传信息,还能像抗体一样特异性识别目标分子(适配体)、像酶一样催化化学反应(核酶),甚至能调控基因表达,在临床诊断、药物递送、生物传感等领域具有不可替代的价值。但长期以来,功能核酸的从头设计一直是科研界的 “硬骨头”:核苷酸序列空间极其庞大,传统实验筛选方法成本高、效率低,而计算设计又受限于核酸结构的高灵活性,难以建立稳定的序列 - 功能关系。


直到这篇发表在Nature Computational Science的研究问世,科学家们用 “核酸大语言模型 + 高通量筛选” 的组合拳,打造出名为InstructNA的功能核酸设计框架,彻底改变了功能核酸的设计范式。它无需依赖三维结构信息,就能快速生成高活性、高多样性的功能核酸,让 “按需设计” 成为现实。


  一、功能核酸设计:长期困扰科研界的 “双重难题”


功能核酸(FNA)是一类具有特殊生物功能的 DNA 或 RNA 分子,涵盖适配体、核酶 / 脱氧核酶、基因调控元件等多种类型,凭借其独特的分子识别、催化和调控能力,在多个领域展现出广阔应用前景。然而,功能核酸的设计始终面临两大核心挑战:一方面,核苷酸序列空间极为庞大,一个仅 30 个核苷酸组成的核酸分子,可能的序列组合就高达 4³⁰种,传统实验筛选方法根本无法全面覆盖;另一方面,核酸结构具有极高的灵活性,序列与功能之间的映射关系复杂且难以捉摸,缺乏像蛋白质那样成熟的序列 - 结构 - 功能设计规则。


传统的 SELEX 筛选方法虽然是功能核酸发现的主流手段,但存在诸多固有缺陷:不仅成本高昂、周期漫长,还容易受到 PCR 偏差的影响,导致筛选结果偏向扩增效率高的序列,而非功能最优的序列。而现有计算设计方法也存在明显短板,多数方法依赖精准的核酸三维结构,而实验测定的核酸结构数量远少于蛋白质;同时,现有生成模型多依赖目标特异性的小规模 SELEX 数据,难以学习全面的序列 - 功能关系,泛化能力有限,难以适配多种类型的功能核酸设计需求。


  二、AI 破局:InstructNA 的全能设计框架


2.1 框架核心逻辑:大语言模型 + 高通量筛选的双向赋能


InstructNA 的核心创新在于将核酸大语言模型(NA-LLMs)的语义理解能力与高通量 SELEX(HT-SELEX)的实验数据优势相结合,构建闭环设计流程,具体分为五步:


数据准备:收集目标功能核酸的 HT-SELEX 实验序列,构建高质量训练集;


模型适配:用 SELEX 数据对预训练核酸大语言模型持续预训练,打造领域适配的 FNA-LLM;


解码器训练:在 FNA-LLM 基础上训练轻量级解码器,实现从 latent 空间到核酸序列的精准解码;


迭代优化:通过自研 HC-HEBO 算法,在 latent 空间进行功能导向的定向进化;


实验验证:验证生成序列功能,将结果反馈模型完成迭代。



图一 InstructNA功能核酸从头设计框架


这套框架无需三维结构,仅通过序列数据即可学习功能核酸的语义特征与序列 - 功能关系,适配多种类型功能核酸设计。


2.2 关键技术:让 AI “看懂” 核酸的功能密码


语义增强的序列表示:持续预训练让模型捕捉核酸深层语义,latent 空间与真实序列空间的相关性显著优于传统模型;


HC-HEBO 优化算法:融合爬山法(HC)与异方差进化贝叶斯优化(HEBO),限制搜索空间的同时实现高效优化,平衡序列功能与多样性;


多源种子序列策略:融合高频率序列、聚类中心序列和高特异性序列作为初始种子,提升生成序列质量与多样性。


2.3 量化功能与序列特性


InstructNA 通过关键公式量化核酸功能与序列特征,为设计优化提供依据:


结合特异性评分(评估转录因子结合 DNA 特异性):



为第 i 个 8-mer 基序的蛋白质结合微阵列荧光强度,n 为序列中 8-mer 基序总数。


归一化相对结合特异性(便于不同序列比较):



其中Smin和Smax分别为数据集中最小和最大结合特异性评分。


  三、关键结果:功能与多样性的双重突破


3.1 转录因子结合 DNA:特异性与多样性双优


语义捕捉更精准:latent 空间与真实序列空间的皮尔逊相关系数显著高于 DNABERT、RaptGen 等基线模型;


分类性能更优异:在 AUROC、F1 值、准确率等多项指标上优于现有模型,序列 - 功能关系学习能力更强;


生成质量更高:针对 Ar、Dbp、Srebf1 靶点,分别有 87%、13%、13% 的生成序列结合特异性高于原始 HT-SELEX 高频序列,部分序列相似度低于 80%,多样性突出。


3.2 蛋白结合适配体:活性提升,突破筛选瓶颈


强结合适配体数量翻倍:LOX1 靶点从 2 个增至 4 个,CXCL5 靶点从 1 个增至 3 个,数量分别提升 100% 和 200%;


结合亲和力更优:LOX1 靶点 G1L(KD=12.9 nM)、CXCL5 靶点 G1C(KD=6.6 nM),均优于原始 HT-SELEX 最优序列;


序列多样性极高:LOX1 靶点 G1L 与原始最优序列 T1L 相似度仅 38%,三维结构更复杂,通过更多氢键结合靶蛋白。



图二 InstructNA生成适配体的结合活性验证


3.3 模型鲁棒性与泛化性:适配多场景设计



图三 生成适配体的序列多样性与三维结构特征


鲁棒性强:面对 latent 空间扰动,生成序列的 k-mer 频率和 GC 含量仍与真实序列高度一致;


兼容性好:可集成 DNABERT、Evo1、Nucleotide Transformer 等多种核酸大语言模型,均保持优异性能;


泛化性广:成功设计蛋白酪氨酸激酶 7(PTK7)结合适配体,适配多种功能核酸设计场景。


  四、功能核酸设计进入 AI 驱动时代


InstructNA 的出现,不仅解决了功能核酸设计中 “序列空间大、结构依赖强、效率低下” 的核心痛点,更建立了一套 “数据驱动 - 模型生成 - 实验验证” 的全新设计范式。其科学意义深远,首先在技术层面突破了传统方法的瓶颈,无需三维结构即可从头设计功能核酸,大幅降低了设计门槛,显著缩短了研发周期,让功能核酸的高效设计成为可能;其次在序列探索层面,生成的序列与传统筛选序列相似度低,成功探索了全新的功能核酸序列空间,为发现具有新颖结构和功能的分子提供了重要途径;最后在应用层面,该框架可广泛应用于适配体、核酶、基因调控元件等多种功能核酸的设计,将有力推动临床诊断、药物开发、生物传感等领域的技术革新,为相关领域的研究提供强大工具。未来,随着核酸大语言模型的持续发展和更多类型功能核酸数据的积累,InstructNA 有望进一步整合三维结构预测和分子动力学模拟,实现更高精度的功能核酸设计,让 “按需定制” 功能核酸成为常态。


  五、总结


功能核酸的设计曾长期受制于序列空间庞大和结构 - 功能关系复杂的双重挑战,传统方法难以兼顾效率、活性和多样性。InstructNA 框架通过核酸大语言模型与高通量 SELEX 的创新融合,打破了这一僵局 —— 它以毫秒级速度生成高活性、高多样性的功能核酸,在转录因子结合 DNA 和蛋白适配体设计中展现出远超传统方法的性能,部分适配体的结合亲和力达到纳摩尔级别,且序列相似度低至 38%。这项研究不仅为功能核酸设计提供了高效、通用的全新工具,更标志着功能核酸设计正式进入 AI 驱动的新时代。随着技术的不断迭代和拓展,InstructNA 必将在生物医学、生物技术等多个领域发挥更大作用,推动更多功能核酸类产品的研发与应用,为人类健康和科技进步做出重要贡献。



论文链接:https://www.nature.com/articles/s43588-026-00965-3


76
0
0
0
关于作者
相关文章
  • AI+蒙特卡洛破解原子无序难题:MXene光电性能被精准“算透” ...
    本文解读 ACS Nano 2025 年论文《A Machine Learning Framework for Modeling Ensemble Properti ...
    了解详情 
  • 杨振宁的统计物理遗产:相变与临界现象
    导语一滴水,在沸腾前的那一刻,内部正酝酿着剧烈而无声的变革。一根树枝,在被压断前的瞬间,承 ...
    了解详情 
  • 量子计算赋能能源材料革命:从分子模拟到材料设计,开启高效研发 ...
    国际团队在《ACS Energy Letters》发表《Harnessing Quantum Computing for Energy Materials: O ...
    了解详情 
  • 量子力学百年之际的 MLIP:化学精度、效率与通用泛化的演进与展 ...
    随着量子力学在2025年迎来其百年纪念,机器学习原子间势(MLIP)已逐渐发展为分子建模领域的变革性 ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas