VAE 赋能线粒体靶向序列设计:从生成到功能验证的突破

Jack小新
2025-07-24 17:43:47
生命科学
技术教程
本帖最后由 Jack小新 于 2025-7-24 17:43 编辑


本研究利用变分自编码器(VAE)设计人工线粒体靶向序列(AMTS)。经训练生成的序列中 90.14% 具线粒体靶向功能,70.4% 含 TOM20 识别基序。在四种真核生物中验证 41 条新肽段,成功率 50%-100%,HEK293 细胞中肽段可被剪切。Dual-VAE 生成 62 条双靶向序列,提示其可能源于 MTS 进化。应用中,线粒体定位 β- 丙氨酸途径酶使 3 - 羟基丙酸产量提升 1.62 倍,嵌合 MTS 使 HEM1 靶向效率提升 4.76 倍




正如人体每个器官各司其职,细胞内部的「细胞器」也是协同维持细胞的整体运作。这些膜包被的细胞器为大量核编码蛋白提供了最适理化环境,使其能够执行关键生物学功能。


为维持细胞组织与进程,细胞内部存在确保蛋白质准确送达的复杂机制 —— 蛋白质通过独特的氨基酸靶向序列被标记并运往特定细胞器。


线粒体作为细胞的 “能量工厂”,在能量代谢、物质合成及细胞凋亡中扮演核心角色,其功能异常与代谢疾病、线粒体遗传病等密切相关。精准靶向线粒体递送蛋白质或药物,是代谢工程优化和疾病治疗的关键手段。然而,天然线粒体靶向序列(MTS)的稀缺性和局限性(如靶向效率依赖载体蛋白、易饱和导入机制等),严重制约了相关研究与应用


近期,伊利诺伊大学厄巴纳 - 香槟分校的研究团队在《Nature Communications》发表的成果,通过生成式人工智能技术突破了这一瓶颈,为线粒体靶向序列的设计与应用开辟了新路径



一、MTS 的固有挑战与生成式 AI 的解决方案


天然 MTS 是核编码线粒体蛋白 N 端的短肽段,通过 TOM/TIM 复合体介导的识别与转运,引导蛋白进入线粒体基质,随后被线粒体加工肽酶(MPP)切割,使蛋白正确折叠。其功能依赖三大关键特征:正电荷特性、两亲性(兼具亲水与疏水区域)及易形成 α 螺旋结构。但目前已鉴定的 MTS 数量极少,重复使用会导致导入机制饱和、与内源蛋白竞争,甚至引发遗传不稳定性(如同源重组)。


为解决这一问题,研究团队采用变分自编码器(VAE)—— 一种能从数据中学习潜在模式的深度生成模型。VAE 通过编码器将输入的 MTS 序列转化为潜在空间向量,再通过解码器重构序列,最终可从潜在空间采样生成全新序列。训练数据涵盖 56,660 条 MTS(来自 Swiss-Prot 数据库及 TargetP 2.0 预测结果),经筛选去重后,确保序列长度在 11-69 个氨基酸,覆盖真核生物多样性。



图示:用于生成线粒体靶向序列 (MTS) 的变分自编码器。


二、VAE 生成 MTS 的功能验证


VAE 生成的人工线粒体靶向序列(AMTS)经严格验证,展现出优异的功能性与多样性:


计算验证:通过 DeepLoc 2.0 预测,90.14% 的 VAE 生成序列可有效靶向线粒体,远高于传统方法(如 profile Hidden Markov Model 的 12.2%、modlAMP 的 1.37%)。序列分析显示,70.4% 的 AMTS 含 TOM20 识别基序(φχβφφ,φ 为疏水残基,β 为碱性残基),提示其通过经典 TOM/TIM 途径导入。


序列多样性:生成序列与天然 MTS 的编辑距离(氨基酸突变数)达 10-15,避免了同源重组风险,且 UMAP 分析显示其覆盖天然 MTS 的全部序列空间,填补了未探索的功能区域。


体内验证:研究设计了基于 UniRep 嵌入和 k 近邻的采样策略,优先筛选适配特定生物的 AMTS。在酿酒酵母(S. cerevisiae)、人 HEK293 细胞、本氏烟草(N. benthamiana)和红冬孢酵母(R. toruloides)中,41 条新肽段的靶向成功率达 50%-100%。例如,HEK293 细胞中 8 条 AMTS 均能与线粒体染料共定位,且 Western blot 证实其在体内被成功切割。



图示:四种真核生物中人工线粒体靶向序列(AMTS)的特征分析。


三、双靶向序列的设计与进化启示


部分生成序列显示出同时靶向线粒体和叶绿体的潜力。研究团队基于植物界的 MTS 和叶绿体靶向序列(CTS),训练了 Dual-VAE 模型,通过潜在空间线性插值生成 62 条双靶向序列。特征分析揭示了从 MTS 到 CTS 的平滑过渡:


氨基酸组成:丝氨酸(S)和亮氨酸(L)增加,精氨酸(R)减少(精氨酸是叶绿体靶向特异性的关键抑制因子);


结构变化:α 螺旋占比下降,线圈结构(无规则卷曲)增加;


长度差异:CTS 更长,提示可能通过插入片段扩展功能。


基于这些变化,研究提出假说:双靶向序列更可能从 MTS 进化而来 —— 通过积累突变调整电荷与结构,而从 CTS 进化则需额外插入片段以适配线粒体加工机制。这为理解植物细胞器靶向的进化提供了新视角。



图示:利用 Dual-VAE 设计双靶向肽。


四、应用场景:代谢工程与蛋白递送的突破


研究通过两个案例验证了 AMTS 的实用价值:


3 - 羟基丙酸(3-HP)产量提升:将 β- 丙氨酸途径的 3 个关键酶PAND、BAPAT和YDFG,通过 AMTS 定位到线粒体,利用线粒体中丰富的前体物质(天冬氨酸),使 3-HP 产量达 2.76 g/L,较胞质途径(1.70 g/L)提升 1.62 倍


HEM1 靶向效率优化:5 - 氨基乙酰丙酸合酶(HEM1)是血红素合成的限速酶,其靶向缺陷与人类血液病相关。通过嵌合 AMTS(如 AMTS3、AMTS131 与 COX4 组合),靶向效率最高提升 4.76 倍,且序列顺序和数量显著影响效果


五、总结与展望


该研究证明,VAE 等生成式 AI 模型能高效设计多样化、功能性的 MTS 及双靶向序列,不仅为线粒体生物学基础研究提供了工具,更推动了代谢工程和疾病治疗的应用。未来,结合条件 VAE、蛋白质语言模型及高通量验证技术,有望进一步提升序列设计的精准性与应用范围,为细胞器靶向研究注入新动能。


 




文章改编转载自微信公众号:ScienceAI


原文链接:https://mp.weixin.qq.com/s/w4itwZFtVhVuvQKLIWuM3Q


相关报道:https://phys.org/news/2025-05-harnessing-generative-ai-mitochondrial-toolkit.html

28
0
0
0
关于作者
相关文章
  • 抛开数学,轻松学懂变分自编码器(VAE)!
    变分自编码器(VAE)是一类常见的生成模型。纯VAE的生成效果不见得是最好的,但VAE还是经常会被 ...
    了解详情 
  • 量子机器学习新手指南:颠覆 AI 的未来力量
    本文介绍量子机器学习(QML)这一新兴领域,它融合量子计算与机器学习,旨在解决经典算法的计算 ...
    了解详情 
  • 速度与精度的量子飞跃:医学影像的下一代技术 ...
    量子计算有望通过提升速度、准确性和复杂度管理能力,改变医学影像领域的格局。传统影像技术在处 ...
    了解详情 
  • 基于AHP-EWM-模糊综合评价的智能油库成熟度评价 ...
    近年来,随着智能化技术的发展,中国石化行业正在加速向智能油库方向迈进。 本文基于成熟度理论 ...
    了解详情 
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看