大语言模型从头造适配体:InstructNA 让功能核酸设计告别盲目筛选

薛定谔了么
2026-04-13 01:46:31
人工智能
生命科学
论文精读与讲座笔记

本文解读Nature Computational Science 2026的研究《 De novo design of functional nucleic acids of aptamers 》,提出InstructNA 框架,将核酸大语言模型(NA-LLMs)与高通量 SELEX 实验结合,在不依赖三维结构的情况下,直接从头设计高活性、高多样性的功能核酸(适配体、转录因子结合 DNA)。相比传统筛选,强结合适配体产出最多提升200%,最低序列相似度仅38%,为分子诊断、靶向治疗提供全新设计范式。




功能核酸(FNA)是生命科学的 “万能分子工具”—— 既能像抗体一样精准抓蛋白(适配体),又能调控基因、催化反应,在诊断、靶向药、分子器件里无处不在。


但想 “设计” 一个好用的功能核酸,一直是世界级难题:


序列空间大到爆炸、实验筛选又贵又慢、传统 AI 只会抄现有序列、还必须依赖蛋白结构…… 很多靶点根本做不了。


现在,一项发表在Nature Computational Science的研究彻底破局:


InstructNA—— 用核酸大语言模型,直接从零设计高活性功能核酸。


不需要蛋白结构、不需要已知配体、不需要手动优化,给它测序数据,它就能批量造出比实验筛选更好的适配体。


这一次,功能核酸终于从 “大海捞针” 变成 “精准制造”。


一、功能核酸设计:卡了十几年的三大死结


功能核酸虽好用,但传统研发路线处处是坑。


序列空间过于庞大,短短几十 bp 的核酸序列组合数就远超天文数字,靠实验筛遍所有可能完全不可能。传统实验筛选 HT-SELEX 周期长、成本高,还会被 PCR 偏差带偏,容易漏掉真正高活性的序列。


现有的计算方法要么严重依赖蛋白质三维结构,要么只能在小数据集上训练,学不到通用规律,生成的分子活性低、长得像、难突破。


在适配体这种需要高亲和力的分子上,传统方法更是经常 “筛不出、用不了、做不出”。


二、AI 破局:InstructNA 大语言模型驱动的从头设计


InstructNA 的核心思路,是把大语言模型高通量筛选数据结合,让 AI 先学会功能核酸的 “语法”,再按功能直接生成。


2.1 整体框架:五步法全自动设计


整个流程干净利落,完全自动化:


1.收集 HT-SELEX 筛选序列,构建高质量训练数据;


2.用功能核酸数据继续预训练核酸大语言模型,让它更懂适配体;


3.训练轻量解码器,把向量稳定还原成真实核酸序列;


4.在隐空间用 HC-HEBO 算法做定向进化,越优化活性越高;


5.实验验证,再把结果喂回 AI,形成闭环迭代。


它不依赖任何蛋白结构信息,只看序列就能设计高活性分子。


2.2 核心创新:HC-HEBO 定向进化算法


普通贝叶斯优化容易乱跑,InstructNA 专门提出HC-HEBO


把爬山法(HC)和进化贝叶斯优化(HEBO)合体,既保证多样性,又能在有效区域内精细搜索,让序列朝着 “高亲和力” 快速进化。


2.3 关键公式:结合特异性打分


研究用两个核心公式量化功能,保证生成质量:


总结合特异性打分:



归一化相对特异性:



分数越高,代表 DNA / 适配体结合越强、越精准。



图1 InstructNA 功能核酸从头设计框架


三、关键结果:AI 造的适配体,完胜实验筛选


3.1 转录因子结合 DNA:更高特异性、更多新序列


在 10 种转录因子上测试,InstructNA 表现全面领先:


序列语义表示更准确,与真实序列相关性更高;


结合特异性分类 AUROC、F1 等指标全面超越基线模型;


在 Ar、Dbp、Srebf1 上,高特异性序列比例远超传统方法。



图2 InstructNA 生成高特异性 DNA 序列


3.2 蛋白适配体:强结合体数量暴涨 200%


研究在LOX1、CXCL5两个重要蛋白靶点做实验验证:


传统 HT-SELEX 只筛出 2 个和 1 个强结合适配体;


InstructNA 直接造出4 个和 3 个,数量分别提升100%、200%


最优亲和力达到6.6 nM,比实验筛出来的还要强;


最优序列与原始序列相似度低至 38%,是全新骨架。


3.3 结构与机理:全新折叠、更强相互作用


AI 设计的 G1ᴸ适配体,结构比实验筛选的更复杂、结合更牢:


形成更精巧的环区折叠;


与蛋白界面形成更多氢键;


结合自由能更优;


结合区域完全不一样,开辟全新结合模式。




图3 AI 生成适配体的超高亲和力与全新结构


四、科学意义:功能核酸设计进入大模型时代


InstructNA 的突破,是整个功能核酸领域的范式转变。


它第一次证明:核酸大语言模型可以不依赖结构,直接从头设计高活性功能核酸


它第一次实现:从序列数据到高活性适配体的全自动闭环设计


它第一次做到:AI 生成分子比实验筛选的更好、更多、更新颖


未来,适配体、核酶、DNAzyme、调控元件都可以用这种方式快速设计,诊断与靶向药的研发速度会被重新定义。


五、总结


InstructNA 用大语言模型重新定义了功能核酸的研发方式。它不需要蛋白结构、不需要先验配体,只靠 HT-SELEX 数据,就能批量生成高活性、高多样性的适配体与功能 DNA。在 LOX1 与 CXCL5 上,它把强结合适配体产量提升数倍,亲和力达到纳摩尔级,序列相似度低至 38%,实验与计算完全互相验证。


这标志着功能核酸不再靠筛,而是靠 AI 设计一个更高效、更低成本、更快落地的核酸分子工具时代,已经到来。




论文链接:https://www.nature.com/articles/s43588-026-00965-3

95
0
0
0
关于作者
相关文章
  • ICLR 2025|DrugFlow:多域分布学习引领SBDD生成模型新范式 ...
    说实话,现在的3D分子生成领域简直卷出天际。Diffusion已经被大家玩烂了,Flow Matching也渐渐让 ...
    了解详情 
  • 从小分子拼出大结构:StoL 让分子 3D 构象生成告别算力焦虑 ...
    本文解读 arXiv 预印本论文《Chemistry-Enhanced Diffusion-Based Framework for Small-to-Large ...
    了解详情 
  • 基于多任务变分自编码器的晶格超材料力学性能逆向设计方法 ...
    本文解读 International Journal of Mechanical Sciences 2025 年论文《Generative inverse desi ...
    了解详情 
  • AI 扩散模型重塑非晶材料研究——千倍提速,精准重构无序原子世 ...
    本文解读 npj Computational Materials 期刊论文《A generative diffusion model for amorphous ...
    了解详情 
领取成功
本月5个550bit真机配额已发放给您,配额将在2个月后到期,请及时使用哦~
活动中心
联系我们
二维码
返回顶部
返回
活动中心

完成任务,轻松获取真机配额

×
每日必做
新手任务
长期任务
其他任务
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您1个1000bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas