蛋白质设计新革命:ProT-VAE 模型让酶活性翻倍、耐热性飙升 61℃

哈奇一
2025-11-07 18:59:56
生命科学
论文精读与讲座笔记
本帖最后由 哈奇一 于 2025-11-7 19:01 编辑


Evozyne 与英伟达团队在《PNAS》提出 ProT-VAE 模型,融合变换器与 VAE,以三层嵌套架构突破蛋白质设计难题。其无需多序列比对,外层预训练变换器处理未对齐序列,内层 VAE 构建可解释 latent 空间。实验中,设计的苯丙氨酸羟化酶活性达野生型 2.5 倍,γ- 碳酸酐酶熔点飙升 61℃至 116℃,且能在工业碳捕捉极端条件下保持活性。该模型为药物研发、工业催化提供高效工具,推动蛋白质工程进入精准设计时代。




在合成生物学领域,设计具备特定功能的蛋白质是长期目标 —— 它能推动药物研发、工业催化、碳捕捉等多个领域的突破。但蛋白质序列空间极其庞大(仅 300 个氨基酸的蛋白质就有 20³⁰⁰种可能),传统方法效率低下。2025 年,Evozyne 公司与英伟达团队在《PNAS》发表研究,提出蛋白质变换器变分自编码器(ProT-VAE),融合变换器与变分自编码器的优势,成功设计出催化活性提升 2.5 倍的苯丙氨酸羟化酶,以及熔点飙升 61℃的 γ- 碳酸酐酶,为数据驱动的蛋白质工程开辟了高效路径。


一、蛋白质设计的 “三大痛点”:传统方法为何举步维艰?


蛋白质的功能由氨基酸序列决定,但设计新序列面临三大核心难题:


1.1 序列空间庞大,筛选难度堪比 “大海捞针”


即使是短链蛋白质,可能的序列组合也呈指数级增长。例如工业常用的碳酸酐酶(约 300 个氨基酸),潜在序列数超 20³⁰⁰,远超宇宙中原子总数,传统实验筛选方法(如定向进化)需耗费数年,且成功率极低。


1.2 需兼顾多重功能,平衡难度大


优质蛋白质需同时满足 “高活性、高稳定性、耐极端环境” 等需求。例如碳捕捉用酶,既要在 90℃、强碱性条件下保持活性,又要具备长期稳定性,传统设计方法往往 “顾此失彼”—— 提升活性可能导致稳定性下降。


1.3 依赖多序列比对(MSA),适用范围受限


此前主流的生成模型(如 VAE)需构建多序列比对(MSA),即收集大量同源蛋白质序列进行对齐分析。但 MSA 构建耗时耗力,且许多蛋白质家族缺乏足够同源序列,限制了模型的应用场景。


二、ProT-VAE 的核心创新:变换器 + VAE 的 “双剑合璧”


ProT-VAE 的突破在于融合变换器(Transformer)的强特征提取能力变分自编码器(VAE)的可解释 latent 空间,构建三层嵌套架构,从根本上解决传统方法的痛点:


2.1 三层架构:兼顾通用性与特异性



图1 ProT-VAE 模型架构示意图


ProT-VAE 的架构由外到内分为三层,各司其职且可灵活迁移:


外层:预训练变换器(ProtT5nv)基于英伟达 BioNeMo 框架,用 4600 万条蛋白质序列预训练,能提取蛋白质的高维特征(约 30 万个维度),无需 MSA 即可处理任意长度的未对齐序列,解决了传统模型依赖同源序列的局限。


中层:压缩 / 解压缩模块通过 1×1 卷积和 LayerNorm,将变换器的高维特征压缩至 32768 维,既保留关键信息,又降低后续计算成本;解压缩模块则能将低维特征还原为符合蛋白质序列规律的高维表示。


内层:家族特异性 VAE针对特定蛋白质家族(如碳酸酐酶、苯丙氨酸羟化酶)训练的轻量级 VAE,将中层特征进一步压缩至 4-6 维的低维 latent 空间。这个空间具备平滑性和可解释性,不同维度对应蛋白质的关键功能(如活性、耐热性),为定向设计提供可能。


2.2 关键优势:无需 MSA、可解释、快迁移


无需多序列比对(MSA)变换器模块直接处理未对齐序列,大幅降低数据准备成本,即使小众蛋白质家族也能适用;


latent 空间可解释低维 latent 空间中,相近点对应功能相似的蛋白质,通过插值可生成渐变序列,实现 “活性渐变”“耐热性调节” 等定向设计;


迁移性强外层变换器和中层压缩模块只需预训练一次,更换蛋白质家族时仅需重新训练内层 VAE,训练时间从数月缩短至数天。


2.3 训练逻辑:无监督 + 半监督结合


ProT-VAE 采用无监督训练为主、半监督训练为辅的模式:


无监督训练:用海量未标注序列学习蛋白质的 “序列语法”;


半监督微调:用少量带功能标签的序列微调 VAE,让 latent 空间与功能强关联,确保设计的序列符合目标需求。


三、实验验证:ProT-VAE 的 “超能力” 有多强?


团队在三种蛋白质上验证 ProT-VAE 的性能,实验结果远超预期:


3.1 苯丙氨酸羟化酶(PAH):催化活性提升 2.5 倍



图2 ProT-VAE 设计 PAH 序列的 latent 空间分布


PAH 是人体代谢苯丙氨酸的关键酶,其变体可用于罕见病治疗。ProT-VAE 设计了 190 条合成序列,实验测试显示:


36% 的序列具备活性,10% 的序列活性超过野生型;


最优设计仅含 19 个突变(共 333 个氨基酸),催化活性达到野生型的 2.5 倍,AlphaFold 预测显示其结构与野生型高度契合,确保了功能稳定性


3.2 γ- 碳酸酐酶:熔点飙升 61℃,适配工业碳捕捉



图3 ProT-VAE 设计的 β/γ- 碳酸酐酶熔点与突变距离关系图


碳酸酐酶能催化二氧化碳与水反应,是碳捕捉技术的核心酶。ProT-VAE 设计的 γ- 碳酸酐酶表现惊艳:


熔点(Tm)达 116℃,比已知最耐热的天然 γ- 碳酸酐酶(55℃)提升 61℃,创造新纪录;


在 93℃、23% 甲基二乙醇胺(工业碳捕捉常用溶剂)、pH=11.25 的极端条件下仍保持活性,且催化效率达到牛碳酸酐酶的 0.8 倍,完全满足工业应用需求。


3.3 β- 碳酸酐酶:稳定性显著提升


设计的 β- 碳酸酐酶最优变体熔点达 101℃,比已知最耐热的天然变体(89℃)提升 12℃,且 23% 的合成序列具备可测量的催化活性,证明 ProT-VAE 的设计成功率远超传统方法。


3.4 SH3 结构域:无需 MSA 也能精准预测功能


在 SH3 结构域(参与细胞信号传导的蛋白质家族)的测试中,ProT-VAE 无需构建 MSA,仅通过未对齐序列训练,就能准确预测蛋白质的结合活性,AUC 值达 0.98,超过依赖 MSA 的传统 VAE 模型(AUC=0.95)。


四、落地价值:从药物研发到工业催化的全方位突破


ProT-VAE 的成功不仅是技术进步,更能推动多个领域的实际应用:


4.1 药物研发:加速酶替代疗法开发


对于苯丙酮尿症等罕见病,PAH 酶替代疗法是重要治疗方向。ProT-VAE 设计的高活性 PAH 变体,能降低药物剂量、提升治疗效果,缩短研发周期从 5-10 年至 1-2 年


4.2 工业催化:降低碳捕捉成本


碳捕捉是应对气候变化的关键技术,而耐热、耐溶剂的碳酸酐酶是核心耗材。ProT-VAE 设计的 γ- 碳酸酐酶能适应工业极端条件,大幅降低酶的更换频率,预计可使碳捕捉成本降低 30% 以上


4.3 合成生物学:定制化蛋白质设计


无论是降解塑料的酶、生产生物燃料的催化剂,还是新型抗体,ProT-VAE 都能快速设计出符合需求的序列,推动合成生物学从 “试错驱动” 向 “设计驱动” 转型


五、未来展望:ProT-VAE 的进化方向


团队表示,ProT-VAE 仍有巨大优化空间:


条件生成未来可通过自然语言提示(如 “设计耐 150℃的脂肪酶”)或功能参数(如 “活性提升 3 倍、熔点 120℃”),实现更精准的定向设计;


跨家族迁移探索单一 VAE latent 空间适配多个相关蛋白质家族,进一步降低训练成本;


融合物理先验将蛋白质结构、动力学等物理信息融入模型,提升低数据场景下的设计成功率。


六、总结:蛋白质设计进入 “精准高效” 新时代


ProT-VAE 的核心价值,在于打破了 “序列 - 功能” 黑箱,通过 “变换器提取特征 + VAE 构建可解释 latent 空间”,让蛋白质设计从 “盲目筛选” 变为 “精准调控”。其设计的酶既实现了活性翻倍,又能耐受极端工业环境,证明了数据驱动模型在蛋白质工程中的巨大潜力。随着技术的迭代,未来我们或许能按需设计出任意功能的蛋白质,为医药、能源、环保等领域带来颠覆性变革。


 




论文链接:https://www.pnas.org/doi/abs/10.1073/pnas.2408737122

33
0
0
0
关于作者
相关文章
  • Saprot——无需编程背景的开源蛋白质语言模型技术 ...
    发表于国际顶尖期刊 Nature Biotechnology 的文章《 Democratizing Protein Language Model Trai ...
    了解详情 
  • ECloudGen —— 以电子云为桥梁的结构感知分子生成新范式 ...
    基于结构的分子生成(Structure-Based Molecular Generation, SBMG)代表了人工智能驱动药物设计 ...
    了解详情 
  • 伊辛模型:相变是自然界最迷人的现象之一
    伊辛模型作为统计物理学中的经典框架,不仅成功解释了铁磁材料的相变现象,更在量子计算、优化算 ...
    了解详情 
  • Nature Rev. Mater里程碑研究:机器学习驱动合金研究进入“智能 ...
    计算数据库的兴起使分析、预测与发现的融合成为加速合金研究的核心主题。将机器学习与合金研究相 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行QBM-VAE示例代码,根据系统提供的随机seed值,求出正确的FID值。

通过奖励

10个一年效期的550量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

替换seed值

您的seed值为

第三步

输入您计算的FID值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

550bit*10

配额