高通量CRISPR活性评估与稀有变体富集的深度学习优化方法

Akkio
2025-11-04 23:27:16
生命科学
技术教程
本帖最后由 Akkio 于 2025-11-4 23:31 编辑


表于 Nature Biomedical Engineering 的《 High‑throughput evaluation of in vitro CRISPR activities enables optimized large‑scale multiplex enrichment of rare variants 》开发了两种体外高通量测定方法 Cut‑seq1 和 Cut‑seq2 ,用于评估成千上万对 sgRNA–靶序列配对的 Cas9 切割效率。结果显示,体外切割指数与细胞内 indel 频率相关性仅约 r≈0.27,但 PAM 兼容性的相关性接近 r≈0.99。基于约 18 万组数据构建的深度学习模型预测切割比值的相关性达 r≈0.90。利用该模型选择优化 sgRNA,并通过 CLOVE‑seq 实现平均约 900 倍的稀有变体等位基因频率富集,超过 80% 的突变被检测到。



以往针对大量靶序列与导向RNA(guide RNA, gRNA)的高通量CRISPR活性评估,多依赖插入–缺失突变(indel)频率而非切割效率。研究人员开发了两种高通量体外测定方法——Cut-seq1 与 Cut-seq2,可评估成千上万甚至上十万种Cas9-gRNA–靶序列配对的切割效率。结果显示,体外切割效率与细胞中indel频率相关性较低,但与PAM序列兼容性高度一致。


基于这些大规模体外切割效率数据,研究人员构建了DeepCut深度学习模型,用于识别最优单导向RNA(sgRNA),可在噪声序列存在时仍特异切割目标序列。进一步,研究人员开发了CLOVE-seq(Cleavage for Large-scale Optimized Variant Enrichment Sequencing)方法,通过Cas9介导的特异性切割实现稀有变体的多重富集。该体系不仅提升了对CRISPR核酸酶活性的理解,也为多种生物医学场景下稀有变体检测提供了可扩展的技术路线。



在哺乳动物细胞中进行的高通量 sgRNA–靶序列活性评估使得机器学习模型能准确预测 CRISPR 活性。然而,这些评估通常依赖于 indel 频率,而非直接的切割效率。细胞内的 indel 频率受到非同源末端连接误差率、染色质状态及 DNA 可及性等多重因素影响。因此,在可控条件下直接测量切割效率(如体外实验)对于理解 CRISPR 生物学至关重要。但此前的体外评估方法通常仅能分析少数 sgRNA,难以实现大规模并行评估。


为此,研究人员设计了可容纳数十万 sgRNA–靶序列对的体外体系,并进一步结合深度学习模型,实现对 sgRNA 切割活性、选择性及稀有变体富集的全面分析。


|| 方法概述


研究人员利用固定化的大肠杆菌作为反应单元,构建了含有 2,000 至 120,000 对 sgRNA–靶序列的质粒文库(T7_2k 与 T7_120k)。通过体外转录与 Cas9 反应,结合接头连接与深度测序,研究人员建立了 Cut-seq1 方法以量化 Cas9 切割指数。进一步引入识别位点酶 EcoRV,使得未被切割的片段也能被检测,从而形成改进版本 Cut-seq2,以切割比值指数更准确反映酶活性。


此外,研究人员设计了针对癌症相关突变的噪声序列(WT)与稀有变体(MT)文库,用以评估不同 sgRNA 的选择性和富集效率。


|| 结果


Cut-seq1 的开发与验证


研究人员首先利用固定化细菌实现体外 CRISPR–Cas9 反应的空间分隔,并构建了 T7 启动子驱动的配对文库。深度测序显示两次生物学重复间的切割指数相关性极高(r = 0.95)。通过测试不同菌株与固定方法,确定了缺乏核酸内切酶 A 的大肠杆菌(EC100)和低温甲醇固定为最优条件。实验验证表明,反应体系中切割反应在单个细胞中实现良好分隔。



图1 Cut-seq1的开发与验证


体外与细胞内切割活性对比


为了比较体外切割效率与细胞内 indel 频率的关系,研究人员构建了使用 U6 启动子的文库(U6_120k),并在多种细胞系(HEK293T、HeLa、Hepa 1–6、B16-F10)中测定。结果显示不同细胞间的 indel 频率高度相关,但体外切割指数与细胞内 indel 频率的相关性较低(r ≈ 0.27),而 PAM 相容性在体外与细胞中则几乎一致(r ≈ 0.99)。这表明 indel 频率受细胞环境影响较大,而 PAM 识别规律具有普适性。



图2 Cas9在体外与细胞内的活性比较


sgRNA 差异性选择性与 Cut-seq2 的建立


研究人员构建了包含 30,772 对 sgRNA–靶序列的 Cut1_30k 文库,用以评估不同 Cas9 变体(SpCas9、HF1、SuperFi、evoCas9)及其在 1-bp 差异序列下的切割选择性。结果显示,高保真变体 HF1 与 SuperFi 具有更优的选择性指数(SI),且多数最佳区分 sgRNA 并非完全匹配,而是带有单碱基错配的“差异型 sgRNA”。基于此,研究人员改进为 Cut-seq2,可同时检测被切割与未切割序列,以切割比值指数更准确反映活性。



图3 差异 sgRNA 选择性及 Cut-seq2 方法


DeepCut 深度学习模型的建立与性能


利用 Cut-seq2 生成的 18 万余组 sgRNA–靶序列数据,研究人员开发了基于 Transformer 与卷积网络架构的 DeepCut-HF1、DeepCut-NRRH-HF1 与 DeepCut-NRCH-HF1 模型,用以预测切割比值指数。模型采用 sgRNA–靶序列配对编码及突变信息输入,显著优于传统机器学习方法,相关性高达 r = 0.90。



图4 DeepCut模型结构与性能评估


DeepCut 优化的 sgRNA 在稀有变体富集中的应用


研究人员利用 DeepCut 选取针对 2,612 个癌症突变的优化 sgRNA,构建了 optimized_HF1_2k 与 optimized_NRRH_2k 文库。通过多轮 Cas9 切割与 PCR 扩增(CLOVE-seq),研究人员在 7.8k 稀有变体文库中实现了高达 900 倍的平均等位基因频率提升,且超过 80% 的突变可被检测。相比之下,使用完全匹配 sgRNA 的富集效率明显较低。



图5 稀有变体多重富集效果


选择性机制与检测灵敏度分析


研究人员进一步分析了突变位置对选择性的影响,发现当突变位于 PAM 或 PAM 邻近的原间隔区时,富集效果最佳。此外,测序深度提高至 10,000× 后对检测灵敏度提升有限,说明该方法在标准深度下已具高稳定性。



图6 优化 sgRNA 介导的选择性切割与稀有变体检测策略示意


|| 讨论


研究人员通过 Cut-seq1 与 Cut-seq2 实现了迄今最大规模的体外 CRISPR 切割效率评估,并揭示体外活性与细胞内 indel 频率的差异来源于细胞环境复杂性。基于此构建的 DeepCut 模型不仅能准确预测体外切割效率,还能为 sgRNA 优化提供可解释性特征。结合 CLOVE-seq,研究人员实现了首个大规模稀有变体的高选择性、多重富集体系。该研究奠定了深度学习驱动的体外 CRISPR 优化与分子检测新范式,为未来临床基因变体检测、癌症早筛及个体化诊断提供了可扩展的技术基础。



参考资料


Yeo, J.H., Lee, S., Kim, S. et al. High-throughput evaluation of in vitro CRISPR activities enables optimized large-scale multiplex enrichment of rare variants. Nat. Biomed. Eng (2025).


https://doi.org/10.1038/s41551-025-01535-0





文章改编转载自微信公众号:DrugAI


原文链接:https://mp.weixin.qq.com/s/IuASIABlpjzMDiELsl0ejA

133
0
0
0
关于作者
相关文章
  • 量子模拟赋能化学研究:自由能计算、基态搜索挑战与动力学模拟突 ...
    2025年12月4日,多伦多大学的Philipp Schleich与Alán Aspuru-Guzik在《Science》期刊上发 ...
    了解详情 
  • 系统论驱动的 AI 整合框架:中医药整体物质基础研究的创新路径 ...
    中国药科大学曾敬其、贾晓斌教授在中国工程院院刊《Engineering》发表了题为“Systems Theo ...
    了解详情 
  • 为什么光子属于玻色子?解读玻色子与费米子的本质区别 ...
    万物由 17 种基本粒子构成,仅分为玻色子和费米子两类。1945 年狄拉克命名这两种粒子,分别致敬 ...
    了解详情 
  • LLM对齐新方案:EBRM用能量模型让奖励模型更稳健,安全任务精度 ...
    普渡大学团队在 Conference on Language Modeling(COLM 2025)发表的《 Energy-Based Reward Mo ...
    了解详情 
  • 结构 - 序列 - 语言协同编码 —— AI技术开启蛋白质研究新维度 ...
    西湖大学原发杰实验室研发的ProTrek蛋白质语言大模型,革新了蛋白质寻找方式。研究者输入自然语 ...
    了解详情 
联系我们
二维码
在本版发帖返回顶部
快速回复 返回顶部 返回列表
玻色有奖小调研
填写问卷,将免费赠送您5个100bit真机配额
(单选) 您是从哪个渠道得知我们的?*
您是从哪个社交媒体得知我们的?*
您是通过哪个学校的校园宣讲得知我们的呢?
取消

提交成功

真机配额已发放到您的账户,可前往【云平台】查看

量子AI开发者认证

考核目标

开发者能够成功搭建Kaiwu-PyTorch-Plugin项目基础环境,并成功运行示例代码,根据示例提示,输出指定的值并填写至相应的输入框中。

通过奖励

5个一年效期的1000量子比特真机配额

专属「量子AI开发者」社区认证标识

开发者权益

每月固定权益:5个550量子比特真机配额
前往考核

第一步

按照README提示成功安装Kaiwu-PyTorch-Plugin库环境依赖
前往GitHub

第二步

运行 community-assessment 分支下的 run_rbm.py 代码示例

第三步

理解示例代码,手动打印并填写如下数值:

正相采样的状态

负相采样的状态

正相的能量值

负相的能量值

*

提交答案

开发者权益

每月固定权益:5个550量子比特的真机配额

恭喜您完成考核

您将获得量子AI开发者认证标识及考核奖励

1000 bit*5

配额

Quantum AI Developer Certification

Assessment Objectives

Developers should successfully set up the basic environment for the Kaiwu-PyTorch-Plugin project, run the QBM-VAE sample code, and calculate the correct FID value based on the random seed value provided by the system.

Pass Rewards

10 quotas for 550-qubit real quantum machines with a one-year validity period

Exclusive "Quantum AI Developer" Community Certification Badge

Developer Benefits

Fixed Monthly Benefits: 5 quotas for 550-qubit real quantum machines
Proceed to Assessment

Step 1

Install the environment dependencies for the Kaiwu-PyTorch-Plugin library according to the README instructions
Go to GitHub

Step 2

Replace the Seed Value

Your seed value is

Step 3

Enter the FID Value You Calculated

*

Submit Answer

Developer Benefits

Fixed Monthly Benefits: 5 quotas of 550-qubit real machines

Congratulations on Completing the Assessment

You will receive the Quantum AI Developer Certification Badge and Assessment Rewards

550bit*10

Quotas