AI 赋能核酸设计革命：InstructNA 让功能核酸 “按需生成”

宇宙微尘 · 发表于 1774283443

本文解读 Nature Computational Science 2026 年论文《De novo design of functional nucleic acids of aptamers》，该研究提出融合核酸大语言模型（NA-LLMs）与高通量 SELEX 的 InstructNA 框架，无需依赖三维结构即可从头设计功能核酸（FNA）。针对 LOX1 和 CXCL5 蛋白靶点，其生成的强结合适配体数量较传统 HT-SELEX 分别提升 100% 和 200%，部分适配体与原始序列相似度低至 38%，同时保持高结合亲和力（最低 KD 达 6.6 nM），为分子识别、基因调控等领域提供高效设计工具。

在分子生物学的工具箱里，功能核酸（FNA）是一类 “多才多艺” 的明星分子 —— 它们不仅能存储遗传信息，还能像抗体一样特异性识别目标分子（适配体）、像酶一样催化化学反应（核酶），甚至能调控基因表达，在临床诊断、药物递送、生物传感等领域具有不可替代的价值。但长期以来，功能核酸的从头设计一直是科研界的 “硬骨头”：核苷酸序列空间极其庞大，传统实验筛选方法成本高、效率低，而计算设计又受限于核酸结构的高灵活性，难以建立稳定的序列 - 功能关系。

直到这篇发表在Nature Computational Science的研究问世，科学家们用 “核酸大语言模型 + 高通量筛选” 的组合拳，打造出名为InstructNA的功能核酸设计框架，彻底改变了功能核酸的设计范式。它无需依赖三维结构信息，就能快速生成高活性、高多样性的功能核酸，让 “按需设计” 成为现实。

一、功能核酸设计：长期困扰科研界的 “双重难题”

功能核酸（FNA）是一类具有特殊生物功能的 DNA 或 RNA 分子，涵盖适配体、核酶 / 脱氧核酶、基因调控元件等多种类型，凭借其独特的分子识别、催化和调控能力，在多个领域展现出广阔应用前景。然而，功能核酸的设计始终面临两大核心挑战：一方面，核苷酸序列空间极为庞大，一个仅 30 个核苷酸组成的核酸分子，可能的序列组合就高达 4³⁰种，传统实验筛选方法根本无法全面覆盖；另一方面，核酸结构具有极高的灵活性，序列与功能之间的映射关系复杂且难以捉摸，缺乏像蛋白质那样成熟的序列 - 结构 - 功能设计规则。

传统的 SELEX 筛选方法虽然是功能核酸发现的主流手段，但存在诸多固有缺陷：不仅成本高昂、周期漫长，还容易受到 PCR 偏差的影响，导致筛选结果偏向扩增效率高的序列，而非功能最优的序列。而现有计算设计方法也存在明显短板，多数方法依赖精准的核酸三维结构，而实验测定的核酸结构数量远少于蛋白质；同时，现有生成模型多依赖目标特异性的小规模 SELEX 数据，难以学习全面的序列 - 功能关系，泛化能力有限，难以适配多种类型的功能核酸设计需求。

二、AI 破局：InstructNA 的全能设计框架

2.1 框架核心逻辑：大语言模型 + 高通量筛选的双向赋能

InstructNA 的核心创新在于将核酸大语言模型（NA-LLMs）的语义理解能力与高通量 SELEX（HT-SELEX）的实验数据优势相结合，构建闭环设计流程，具体分为五步：

数据准备：收集目标功能核酸的 HT-SELEX 实验序列，构建高质量训练集；

模型适配：用 SELEX 数据对预训练核酸大语言模型持续预训练，打造领域适配的 FNA-LLM；

解码器训练：在 FNA-LLM 基础上训练轻量级解码器，实现从 latent 空间到核酸序列的精准解码；

迭代优化：通过自研 HC-HEBO 算法，在 latent 空间进行功能导向的定向进化；

实验验证：验证生成序列功能，将结果反馈模型完成迭代。

图一 InstructNA功能核酸从头设计框架

这套框架无需三维结构，仅通过序列数据即可学习功能核酸的语义特征与序列 - 功能关系，适配多种类型功能核酸设计。

2.2 关键技术：让 AI “看懂” 核酸的功能密码

语义增强的序列表示：持续预训练让模型捕捉核酸深层语义，latent 空间与真实序列空间的相关性显著优于传统模型；

HC-HEBO 优化算法：融合爬山法（HC）与异方差进化贝叶斯优化（HEBO），限制搜索空间的同时实现高效优化，平衡序列功能与多样性；

多源种子序列策略：融合高频率序列、聚类中心序列和高特异性序列作为初始种子，提升生成序列质量与多样性。

2.3 量化功能与序列特性

InstructNA 通过关键公式量化核酸功能与序列特征，为设计优化提供依据：

结合特异性评分（评估转录因子结合 DNA 特异性）：

为第 i 个 8-mer 基序的蛋白质结合微阵列荧光强度，n 为序列中 8-mer 基序总数。

归一化相对结合特异性（便于不同序列比较）：

其中S_min和S_max分别为数据集中最小和最大结合特异性评分。

三、关键结果：功能与多样性的双重突破

3.1 转录因子结合 DNA：特异性与多样性双优

语义捕捉更精准：latent 空间与真实序列空间的皮尔逊相关系数显著高于 DNABERT、RaptGen 等基线模型；

分类性能更优异：在 AUROC、F1 值、准确率等多项指标上优于现有模型，序列 - 功能关系学习能力更强；

生成质量更高：针对 Ar、Dbp、Srebf1 靶点，分别有 87%、13%、13% 的生成序列结合特异性高于原始 HT-SELEX 高频序列，部分序列相似度低于 80%，多样性突出。

3.2 蛋白结合适配体：活性提升，突破筛选瓶颈

强结合适配体数量翻倍：LOX1 靶点从 2 个增至 4 个，CXCL5 靶点从 1 个增至 3 个，数量分别提升 100% 和 200%；

结合亲和力更优：LOX1 靶点 G1L（KD=12.9 nM）、CXCL5 靶点 G1C（KD=6.6 nM），均优于原始 HT-SELEX 最优序列；

序列多样性极高：LOX1 靶点 G1L 与原始最优序列 T1L 相似度仅 38%，三维结构更复杂，通过更多氢键结合靶蛋白。

图二 InstructNA生成适配体的结合活性验证

3.3 模型鲁棒性与泛化性：适配多场景设计

图三生成适配体的序列多样性与三维结构特征

鲁棒性强：面对 latent 空间扰动，生成序列的 k-mer 频率和 GC 含量仍与真实序列高度一致；

兼容性好：可集成 DNABERT、Evo1、Nucleotide Transformer 等多种核酸大语言模型，均保持优异性能；

泛化性广：成功设计蛋白酪氨酸激酶 7（PTK7）结合适配体，适配多种功能核酸设计场景。

四、功能核酸设计进入 AI 驱动时代

InstructNA 的出现，不仅解决了功能核酸设计中 “序列空间大、结构依赖强、效率低下” 的核心痛点，更建立了一套 “数据驱动 - 模型生成 - 实验验证” 的全新设计范式。其科学意义深远，首先在技术层面突破了传统方法的瓶颈，无需三维结构即可从头设计功能核酸，大幅降低了设计门槛，显著缩短了研发周期，让功能核酸的高效设计成为可能；其次在序列探索层面，生成的序列与传统筛选序列相似度低，成功探索了全新的功能核酸序列空间，为发现具有新颖结构和功能的分子提供了重要途径；最后在应用层面，该框架可广泛应用于适配体、核酶、基因调控元件等多种功能核酸的设计，将有力推动临床诊断、药物开发、生物传感等领域的技术革新，为相关领域的研究提供强大工具。未来，随着核酸大语言模型的持续发展和更多类型功能核酸数据的积累，InstructNA 有望进一步整合三维结构预测和分子动力学模拟，实现更高精度的功能核酸设计，让 “按需定制” 功能核酸成为常态。

五、总结

功能核酸的设计曾长期受制于序列空间庞大和结构 - 功能关系复杂的双重挑战，传统方法难以兼顾效率、活性和多样性。InstructNA 框架通过核酸大语言模型与高通量 SELEX 的创新融合，打破了这一僵局 —— 它以毫秒级速度生成高活性、高多样性的功能核酸，在转录因子结合 DNA 和蛋白适配体设计中展现出远超传统方法的性能，部分适配体的结合亲和力达到纳摩尔级别，且序列相似度低至 38%。这项研究不仅为功能核酸设计提供了高效、通用的全新工具，更标志着功能核酸设计正式进入 AI 驱动的新时代。随着技术的不断迭代和拓展，InstructNA 必将在生物医学、生物技术等多个领域发挥更大作用，推动更多功能核酸类产品的研发与应用，为人类健康和科技进步做出重要贡献。

论文链接：https://www.nature.com/articles/s43588-026-00965-3