计算如何赋能CRISPR的发现与技术发展？| 诺奖研究回顾

医学abeycd 2022-10-19 发布于湖北

展开全文

原文作者：Stephen Shang, Xiangmeng S. Cai, Lei S. Qi (斯坦福大学)

CRISPR是一种可编程的基因组工程技术，它已彻底改变了生物医学和生物工程研究。而不论是CRISPR的发现，还是基于CRISPR、有望解决众多难题的技术开发，都离不开计算工具。

因开发了CRISPR基因组编辑技术，Jennifer A. Doudna和Emmanuelle Charpentier共同获得了2020年诺贝尔化学奖。CRISPR是规律间隔成簇短回文重复序列（clustered regularly interspaced short palindromic repeats）的缩写，CRISPR是细菌内的一种包含重复性短片段DNA序列的特殊基因组结构。CRISPR与CRISPR相关蛋白（Cas）共同构成了细菌体内一种适应性免疫系统——CRISPR–Cas，帮助细菌抵御病毒的感染。

Jennifer Doudna 和 Emmanuelle Charpentier因开发出一种基因组编辑方法共同获得了2020年诺贝尔化学奖。来源：Alexander Heinel/Picture Alliance/DPA

因其具有精准靶向DNA的优良特性，CRISPR–Cas已被用于基因编辑：在一段可编程向导RNA（gRNA）的指引下，Cas蛋白理论上能靶向人类基因组中的任意DNA序列（长约20个碱基对），并作为核酸酶断开双链，从而对DNA序列进行编辑。CRISPR–Cas为基因组编辑带来了前所未有的可编程性与灵活度，因而被广泛应用于生物学和医学领域。研究人员能通过删除、插入或诱变指定基因组位点的DNA序列，实现基因序列的高精度改写。此外，携带活化因子（CRISPRa）或抑制因子（CRISPRi）的失活Cas蛋白（dCas）无需剪断DNA，就能调控特定基因的表达情况。

计算科学在数十年的CRISPR–Cas发现与技术开发之旅中发挥了关键作用。该过程可分为两个阶段：自然CRISPR系统的发现与分类，以及基于gRNA设计和CRISPR筛选分析改进的CRISPR技术优化。即便在今天，计算方法的进步仍在不断推动新型CRISPRs的发现，完善基于CRISPR的技术，并使各种新应用成为可能。

计算赋能CRISPR发现

研究人员受到计算分析的启发，发现了在细菌中CRISPR的免疫功能。由于CRISPR系统含有高度重复序列，而且很难获得这些重复片段的高保真基因组测序数据，因此CRISPR序列和功能分析刚开始极富挑战性。推动了CRISPR系统发现的早期计算工作大多使用的是局部测序比对工具Basic Local Alignment Search Tool（BLAST）、重复序列识别程序（RepeatMasker）以及DNA碱基识别程序Phred。这些分析揭示了CRISPR系统广泛存在于多种细菌和古菌中，表明其一定具有某种生物学意义。这一认识激励着学者们利用计算和试验手段对CRISPR的功能展开进一步研究[1,2]。

起初，研究人员提出CRISPR或会参与染色体分配和DNA修复过程[3,4]。后来，人们通过计算分析发现，CRISPR与病毒感染相关的遗传免疫有关。这一发现得益于优良的计算方法，如NCBI Short Read Archive、ENSEMBL和基于de Bruijn图的基因组组装。这些方法提高了重建速度，使大量的基因组测序成为可能[5]。分析发现，CRISPR通常含有由20–40个碱基对组成的短序列，这些短序列与噬菌体的基因组十分吻合，这些都表明CRISPR参与了细菌的遗传免疫。越来越多的计算证据显示，CRISPR间隔序列与病毒和质粒基因片段之间存在相似性。最终，人们通过实验证实了CRISPR含有一段综合外源DNA序列，它能帮助细菌抵御带有相同序列病毒的入侵[6]。

计算方法帮助对不同CRISPR系统进行分类。CRISPR种类的不断扩充，推动了CRISPR的分类研究[7]。十年前，Eugene Koonin与其同事建立起了沿用至今的CRISPR分类标准[8]。自此，这一分类方案几乎每年都有更新——最新的一版包括2类6型，共33种亚型[9]。分类算法通常考虑核心Cas蛋白的序列保守性和进化关系：机器学习（ML）能帮助我们更好地分析已知Cas蛋白间的序列相似性，而分析基因上下文（包含CRISPR附近的其他基因）则让我们能深入了解其进化史。

随着更多CRISPRs的发现，CRISPR种类也在不断增加[10]。丰富的多样性既给CRISPR的分类带来了挑战，也是CRISPR工具箱不断发展的机遇。Cas蛋白的结构和功能注释是CRISPR分类中的关键步骤。新型Cas蛋白的注释局限于从数据库中找到序列与结构最为接近的相似物。然而，现有的相似物评分标准容易出现误判。因此，最好的解决方法可能是收集更多的实验（生物化学或结构）数据。而基于这些数据所开发的新算法，或能更准确地预测新型Cas蛋白的功能，这乃是今后CRISPR工具开发的关键。

我们也希望借助新的计算方法极大丰富实验证据，以更好地改进CRISPR分类，分析CRISPR系统的进化轨迹，并预测CRISPR系统的功能。深度学习通过识别现存CRISPR系统的特点和模式，能更准确地根据Cas蛋白的结构预测其功能。这类算法或许还能有效预测那些与现有CRISPR系统功能截然不同、需要区别对待的CRISPR族。这些技术进步将助力人们不断探索未知的CRISPR领域，最终带来新一代CRISPR技术。

计算赋能CRISPR技术发展

用于CRISPR基因组编辑工具设计的计算方法。除了用于天然CRISPR系统的发现和分类，计算方法（尤其是蛋白质设计）还能将天然Cas蛋白改造成全新的工具。理想的Cas蛋白应当具有尺寸小[11]、免疫原性弱[12]，且能结合原间隔序列临近基序（PAM）新变体相邻的新基因组序列等特征[13]。目前为止，这一领域的研究主要采用经验方法，即理性设计新的蛋白质序列，或是进行随机诱变并通过迭代测试加以筛选。这些方法不仅耗时费力，而且不解析蛋白质结构，就难以获得机理性认识。

计算工具能通过预测蛋白质从头结构，大大加快其设计流程。近期，如AlphaFold2[14]等预测蛋白质结构的计算方法已经大获成功。AlphaFold2已经预测了超过两百万种蛋白质结构。而RoseTTAfold[15]不仅能预测蛋白质结构，还能用于蛋白质复合体建模。通过模拟各种序列的蛋白质结构和具有理想性能（如用于实验测试的、更强的Cas–DNA结合亲和力）的过滤变体，这类计算工具或能加快Cas蛋白工程的发展[16]。

尽管计算工具已在蛋白质预测方面大获成功，但仍有难题尚待解决。首先，AlphaFold2在应用中存在如下缺点：无法揭示蛋白质折叠的机制或规律；计算错义突变的结构效应时表现不佳（可能是由于缺少突变训练样本所致）[17]。这意味着研究人员无法直接在Cas蛋白中设计点突变，亦无法利用现有工具对新变体进行准确预测。其次，许多天然蛋白质均以二聚体的形式存在，例如V-F亚型系统就由一个Cas12f二聚体和一条gRNA组成[18]，而原始AlphaFold2仅能预测单体蛋白结构。虽然近期发布了AlphaFold-Multimer[19]，但它预测Cas蛋白的多体结构的效果还有待检验。最后，根据蛋白质–DNA、蛋白质–RNA以及DNA–RNA的相互作用来预测Cas蛋白的结构也极其困难。

分子动力学（MD）模拟能从原子尺度表征蛋白质，并追踪蛋白质、DNA和RNA在不同时刻的相互作用。该技术已被用于模拟DNA结合时Cas9蛋白的构象变化[20]。倘若将蛋白质结构预测技术与MD模拟相结合——前者能阐明蛋白质残基的修饰如何影响其结构，后者能预测结构的变化对蛋白质功能的影响。这两种技术的联用将加快蛋白质工程流程，并增大从头设计的蛋白质在哺乳动物细胞中成功运转的几率。

计算工具提高CRISPR工具的特异性和效率。CRISPR现已被应用于人类临床试验，包括以增强肿瘤杀伤效果为目标的T细胞基因敲除[21]，以及以治疗镰状细胞病为目标的突变纠正[22]。尽管CRISPR在临床上很有前景，但目前CRISPR对基因的修饰可能会脱靶，从而产生意外的得失位（插入或删除）突变，或是染色体重排。

计算工具已被广泛用于寻找潜在的gRNAs脱靶位点，从而提高CRISPR设计的特异性。早期的算法主要是寻找靶点区域以外的gRNA同源序列。这些算法需要确保潜在的脱靶位点邻近PAM位点。此外，这些算法还会考虑那些虽然不匹配，但具备高度相似性的序列。为此，研究人员开发出了Cas-OFFinder等计算工具，根据gRNA序列识别出所有潜在的脱靶点。

然而，基于同源性的计算工具也存在一些局限性。首先，仅找出所有潜在的脱靶位点，对gRNA的设计而言还远远不够。要想比较选出最佳实验gRNA，还要量化每个潜在位点的脱靶概率。其次，CRISPR实验设计还需要考虑gRNA的中靶效率。例如，靶点周围的表观遗传环境（如染色质可及性）会极大地影响基因编辑效率。再者，基于dCas9的基因调控技术很难预测哪种gRNA更有利于靶点基因的高效表达。

要解决这些问题，研究人员需要结合计算工具与多个数据集（包括潜在脱靶位点、CRISPR筛选、表观遗传特征分析等数据），全面评估gRNA设计的有效性。借助大型CRISPR–Cas活性数据集开发的机器学习（ML）工具，能根据不同数据类型的特征评估gRNAs。例如，DeepCRISPR利用卷积神经网络将遗传和表观遗传数据（如DNAse I超敏反应、转录阻抑物结合，以及H3K4me3占用率）相结合，以预测gRNAs的有效性。

多种计算工具已极大地助力了CRISPR实验的设计，并使该技术得到更多的应用，但仍有一些挑战亟待计算工具的进一步发展。首先，计算工具的不断丰富使工具性能的基准化和相互对比变得愈发重要。其次，不同的Cas系统在实际应用（如基因编辑、表观基因组工程、RNA编辑、DNA/RNA成像等）中对计算工具的需求也不同。其三，较少有计算工具能预测哪些gRNAs能有效用于转录调控、表观基因工程和成像等方面。最后，目前的ML工具缺乏可解释性，但解决这一问题会给我们带来更多机遇，并帮助我们深入理解CRISPR领域。如SHAP等ML模型解释的发展，可用于分析模型进行预测和特征重要性排序的依据。解释遗传和表观遗传数据集训练后的ML模型，并分析习得特征，能帮助我们深化对人类基因组的认识，如理解表观遗传学和基因组3D结构如何能影响基因编辑效率和DNA修复过程[23,24]。

计算助力CRISPR筛选。高通量基因组功能筛选是CRISPR技术最强大的应用之一。相较于先前的低通量技术，其成本和速度都得到了极大（数个量级）的改善。包括MAGeCK、PinAPL-Py、CRISPRCloud2、BAGEL、CERES和PBNPA在内的许多先进计算工具，能够基于大规模CRISPR–Cas敲除筛选来确定基因功能。大多数工具是将gRNA短序列（reads）与基准库比对，并对测序深度进行归一化——通过这种方式来分析选定细胞群中已测序的gRNAs。部分工具能给出质量控制图，以更好地确保数据分析的合理性。得益于大量的筛选数据，计算工具能运用精密的统计方法消除批次效应。自动绘图和下游可视化也降低了新用户分析筛选数据的门槛。

虽然一些工具简便易用，但用户们应充分了解算法背后的统计假设，以正确解释数据并推断基因组功能。由于前人已在不同的生物情境中开展了众多筛选实验，这类实验的复现性可能较差。下一步应结合筛选数据和多个遗传及表观遗传数据集，开发用于情境特异性变量和相关的基因组功能分析的计算方法。例如，可以将CRISPR筛选数据和基础基因表达相结合，实现转录组依赖的药物反应预测[25]。

机器学习（ML）算法结合丰富的数据集，能更好地分析筛选结果。但这些数据通常来自一组不同的细胞，因而需要将单个细胞数据与CRISPR筛选相匹配。随后，研究人员开发出了Perturb-seq[26]，从实验上将CRISPR扰动和单细胞转录组联系到一起。scMAGeCK和Perturb-CITE-seq等计算工具，都能用于分析Perturb-seq产出的大型数据集。这些工具有待进一步完善，以推断生物学方面的因果联系。另外，由于上位作用会影响多基因组扰动的协同效应，联合筛选也是人们目前尚未涉足的领域。我们认为，计算方法在这一领域将大有可为。

展望

计算工具库的不断扩充，为CRISPR发现和技术发展（包括Cas分子发现、工具优化和生物功能分析）提供了极大帮助。这些工具拓展了CRISPR–Cas系统的应用潜力。时值CRISPR–Cas介导疗法的新时代，诸如Cas蛋白的体内免疫原性、Cas系统大分子尺寸所致的递送问题、脱靶效应，以及关于诱导DNA损伤的安全考虑等重大难题还有待解决。为此，我们需要借助精密的计算工具，更有效地探索CRISPR介导的基因组编辑规律，更准确地预测脱靶位点，更可靠地设计出广泛适用于基因组和表观基因组工程的有效gRNAs。而如今来自CRISPR实验的不断扩充的数据集，为计算工具的开发创造了大好机遇。

我们回顾了多种现有的预测gRNA效率的工具，认为当务之急是对现有的计算工具进行标准化，并探索不同工具间的协同作用。此外，深度学习模型的解释也是一个有前景的领域，能帮助我们从生物学角度深入理解CRISPR。测序和单细胞组学的发展带来了高内涵CRISPR筛选的概念[27]，而这需要构建起推断遗传相互作用的可解释模型。

展望未来，其他领域正在开发的一些计算工具将会扩展CRISPR的潜力。蛋白质结构预测算法虽然已经大获成功，但AlphaFold2等工具还需用更多相关的数据进行训练，并结合分子动力学（MD）模拟探讨蛋白质、gRNA和目标DNA之间的相互作用，方能用于计算指导下的Cas蛋白设计。毫无疑问，这需要生物工程师、生物学家和计算科学家们通力合作。在各学科研究人员的协助下，我们能优化CRISPR数据库生成、标准化和模型解释，解决许多剩余的挑战，并迎来CRISPR发现和技术的新一轮浪潮。

扫码阅读更多《自然-计算科学》推出的诺贝尔系列文章

参考文献：

1. Agarwal, N. & Gupta, R. History, evolution and classifcation of CRISPR-Cas associated systems. In Progress in Molecular Biology and Translational Science 11–76 (Elsevier, 2021).

2. Giani, A. M., Gallo, G. R., Gianfranceschi, L. & Formenti, G. Comput. Struct. Biotechnol. J. 18, 9–19 (2019).

3. Jansen, R., van Embden, J. D. A., Gaastra, W. & Schouls, L. M. Mol. Microbiol. 43, 1565–1575 (2002).

4. Makarova, K. S., Aravind, L., Grishin, N. V., Rogozin, I. B. & Koonin, E. V. Nucleic Acids Res. 30, 482–496 (2002).

5. Giani, A. M. et al. Comput. Struct. Biotechnol. J.18, 9–19 (2020).