原文作者:Stephen Shang, Xiangmeng S. Cai, Lei S. Qi (斯坦福大学) CRISPR是一种可编程的基因组工程技术,它已彻底改变了生物医学和生物工程研究。而不论是CRISPR的发现,还是基于CRISPR、有望解决众多难题的技术开发,都离不开计算工具。 因开发了CRISPR基因组编辑技术,Jennifer A. Doudna和Emmanuelle Charpentier共同获得了2020年诺贝尔化学奖。CRISPR是规律间隔成簇短回文重复序列(clustered regularly interspaced short palindromic repeats)的缩写,CRISPR是细菌内的一种包含重复性短片段DNA序列的特殊基因组结构。CRISPR与CRISPR相关蛋白(Cas)共同构成了细菌体内一种适应性免疫系统——CRISPR–Cas,帮助细菌抵御病毒的感染。 Jennifer Doudna 和 Emmanuelle Charpentier因开发出一种基因组编辑方法共同获得了2020年诺贝尔化学奖。来源:Alexander Heinel/Picture Alliance/DPA 因其具有精准靶向DNA的优良特性,CRISPR–Cas已被用于基因编辑:在一段可编程向导RNA(gRNA)的指引下,Cas蛋白理论上能靶向人类基因组中的任意DNA序列(长约20个碱基对),并作为核酸酶断开双链,从而对DNA序列进行编辑。CRISPR–Cas为基因组编辑带来了前所未有的可编程性与灵活度,因而被广泛应用于生物学和医学领域。研究人员能通过删除、插入或诱变指定基因组位点的DNA序列,实现基因序列的高精度改写。此外,携带活化因子(CRISPRa)或抑制因子(CRISPRi)的失活Cas蛋白(dCas)无需剪断DNA,就能调控特定基因的表达情况。 计算科学在数十年的CRISPR–Cas发现与技术开发之旅中发挥了关键作用。该过程可分为两个阶段:自然CRISPR系统的发现与分类,以及基于gRNA设计和CRISPR筛选分析改进的CRISPR技术优化。即便在今天,计算方法的进步仍在不断推动新型CRISPRs的发现,完善基于CRISPR的技术,并使各种新应用成为可能。 计算赋能CRISPR发现 研究人员受到计算分析的启发,发现了在细菌中CRISPR的免疫功能。由于CRISPR系统含有高度重复序列,而且很难获得这些重复片段的高保真基因组测序数据,因此CRISPR序列和功能分析刚开始极富挑战性。推动了CRISPR系统发现的早期计算工作大多使用的是局部测序比对工具Basic Local Alignment Search Tool(BLAST)、重复序列识别程序(RepeatMasker)以及DNA碱基识别程序Phred。这些分析揭示了CRISPR系统广泛存在于多种细菌和古菌中,表明其一定具有某种生物学意义。这一认识激励着学者们利用计算和试验手段对CRISPR的功能展开进一步研究[1,2]。 起初,研究人员提出CRISPR或会参与染色体分配和DNA修复过程[3,4]。后来,人们通过计算分析发现,CRISPR与病毒感染相关的遗传免疫有关。这一发现得益于优良的计算方法,如NCBI Short Read Archive、ENSEMBL和基于de Bruijn图的基因组组装。这些方法提高了重建速度,使大量的基因组测序成为可能[5]。分析发现,CRISPR通常含有由20–40个碱基对组成的短序列,这些短序列与噬菌体的基因组十分吻合,这些都表明CRISPR参与了细菌的遗传免疫。越来越多的计算证据显示,CRISPR间隔序列与病毒和质粒基因片段之间存在相似性。最终,人们通过实验证实了CRISPR含有一段综合外源DNA序列,它能帮助细菌抵御带有相同序列病毒的入侵[6]。 计算方法帮助对不同CRISPR系统进行分类。CRISPR种类的不断扩充,推动了CRISPR的分类研究[7]。十年前,Eugene Koonin与其同事建立起了沿用至今的CRISPR分类标准[8]。自此,这一分类方案几乎每年都有更新——最新的一版包括2类6型,共33种亚型[9]。分类算法通常考虑核心Cas蛋白的序列保守性和进化关系:机器学习(ML)能帮助我们更好地分析已知Cas蛋白间的序列相似性,而分析基因上下文(包含CRISPR附近的其他基因)则让我们能深入了解其进化史。 随着更多CRISPRs的发现,CRISPR种类也在不断增加[10]。丰富的多样性既给CRISPR的分类带来了挑战,也是CRISPR工具箱不断发展的机遇。Cas蛋白的结构和功能注释是CRISPR分类中的关键步骤。新型Cas蛋白的注释局限于从数据库中找到序列与结构最为接近的相似物。然而,现有的相似物评分标准容易出现误判。因此,最好的解决方法可能是收集更多的实验(生物化学或结构)数据。而基于这些数据所开发的新算法,或能更准确地预测新型Cas蛋白的功能,这乃是今后CRISPR工具开发的关键。 我们也希望借助新的计算方法极大丰富实验证据,以更好地改进CRISPR分类,分析CRISPR系统的进化轨迹,并预测CRISPR系统的功能。深度学习通过识别现存CRISPR系统的特点和模式,能更准确地根据Cas蛋白的结构预测其功能。这类算法或许还能有效预测那些与现有CRISPR系统功能截然不同、需要区别对待的CRISPR族。这些技术进步将助力人们不断探索未知的CRISPR领域,最终带来新一代CRISPR技术。 计算赋能CRISPR技术发展 用于CRISPR基因组编辑工具设计的计算方法。除了用于天然CRISPR系统的发现和分类,计算方法(尤其是蛋白质设计)还能将天然Cas蛋白改造成全新的工具。理想的Cas蛋白应当具有尺寸小[11]、免疫原性弱[12],且能结合原间隔序列临近基序(PAM)新变体相邻的新基因组序列等特征[13]。目前为止,这一领域的研究主要采用经验方法,即理性设计新的蛋白质序列,或是进行随机诱变并通过迭代测试加以筛选。这些方法不仅耗时费力,而且不解析蛋白质结构,就难以获得机理性认识。 计算工具能通过预测蛋白质从头结构,大大加快其设计流程。近期,如AlphaFold2[14]等预测蛋白质结构的计算方法已经大获成功。AlphaFold2已经预测了超过两百万种蛋白质结构。而RoseTTAfold[15]不仅能预测蛋白质结构,还能用于蛋白质复合体建模。通过模拟各种序列的蛋白质结构和具有理想性能(如用于实验测试的、更强的Cas–DNA结合亲和力)的过滤变体,这类计算工具或能加快Cas蛋白工程的发展[16]。 尽管计算工具已在蛋白质预测方面大获成功,但仍有难题尚待解决。首先,AlphaFold2在应用中存在如下缺点:无法揭示蛋白质折叠的机制或规律;计算错义突变的结构效应时表现不佳(可能是由于缺少突变训练样本所致)[17]。这意味着研究人员无法直接在Cas蛋白中设计点突变,亦无法利用现有工具对新变体进行准确预测。其次,许多天然蛋白质均以二聚体的形式存在,例如V-F亚型系统就由一个Cas12f二聚体和一条gRNA组成[18],而原始AlphaFold2仅能预测单体蛋白结构。虽然近期发布了AlphaFold-Multimer[19],但它预测Cas蛋白的多体结构的效果还有待检验。最后,根据蛋白质–DNA、蛋白质–RNA以及DNA–RNA的相互作用来预测Cas蛋白的结构也极其困难。 分子动力学(MD)模拟能从原子尺度表征蛋白质,并追踪蛋白质、DNA和RNA在不同时刻的相互作用。该技术已被用于模拟DNA结合时Cas9蛋白的构象变化[20]。倘若将蛋白质结构预测技术与MD模拟相结合——前者能阐明蛋白质残基的修饰如何影响其结构,后者能预测结构的变化对蛋白质功能的影响。这两种技术的联用将加快蛋白质工程流程,并增大从头设计的蛋白质在哺乳动物细胞中成功运转的几率。 计算工具提高CRISPR工具的特异性和效率。CRISPR现已被应用于人类临床试验,包括以增强肿瘤杀伤效果为目标的T细胞基因敲除[21],以及以治疗镰状细胞病为目标的突变纠正[22]。尽管CRISPR在临床上很有前景,但目前CRISPR对基因的修饰可能会脱靶,从而产生意外的得失位(插入或删除)突变,或是染色体重排。 计算工具已被广泛用于寻找潜在的gRNAs脱靶位点,从而提高CRISPR设计的特异性。早期的算法主要是寻找靶点区域以外的gRNA同源序列。这些算法需要确保潜在的脱靶位点邻近PAM位点。此外,这些算法还会考虑那些虽然不匹配,但具备高度相似性的序列。为此,研究人员开发出了Cas-OFFinder等计算工具,根据gRNA序列识别出所有潜在的脱靶点。 然而,基于同源性的计算工具也存在一些局限性。首先,仅找出所有潜在的脱靶位点,对gRNA的设计而言还远远不够。要想比较选出最佳实验gRNA,还要量化每个潜在位点的脱靶概率。其次,CRISPR实验设计还需要考虑gRNA的中靶效率。例如,靶点周围的表观遗传环境(如染色质可及性)会极大地影响基因编辑效率。再者,基于dCas9的基因调控技术很难预测哪种gRNA更有利于靶点基因的高效表达。 要解决这些问题,研究人员需要结合计算工具与多个数据集(包括潜在脱靶位点、CRISPR筛选、表观遗传特征分析等数据),全面评估gRNA设计的有效性。借助大型CRISPR–Cas活性数据集开发的机器学习(ML)工具,能根据不同数据类型的特征评估gRNAs。例如,DeepCRISPR利用卷积神经网络将遗传和表观遗传数据(如DNAse I超敏反应、转录阻抑物结合,以及H3K4me3占用率)相结合,以预测gRNAs的有效性。 多种计算工具已极大地助力了CRISPR实验的设计,并使该技术得到更多的应用,但仍有一些挑战亟待计算工具的进一步发展。首先,计算工具的不断丰富使工具性能的基准化和相互对比变得愈发重要。其次,不同的Cas系统在实际应用(如基因编辑、表观基因组工程、RNA编辑、DNA/RNA成像等)中对计算工具的需求也不同。其三,较少有计算工具能预测哪些gRNAs能有效用于转录调控、表观基因工程和成像等方面。最后,目前的ML工具缺乏可解释性,但解决这一问题会给我们带来更多机遇,并帮助我们深入理解CRISPR领域。如SHAP等ML模型解释的发展,可用于分析模型进行预测和特征重要性排序的依据。解释遗传和表观遗传数据集训练后的ML模型,并分析习得特征,能帮助我们深化对人类基因组的认识,如理解表观遗传学和基因组3D结构如何能影响基因编辑效率和DNA修复过程[23,24]。 计算助力CRISPR筛选。高通量基因组功能筛选是CRISPR技术最强大的应用之一。相较于先前的低通量技术,其成本和速度都得到了极大(数个量级)的改善。包括MAGeCK、PinAPL-Py、CRISPRCloud2、BAGEL、CERES和PBNPA在内的许多先进计算工具,能够基于大规模CRISPR–Cas敲除筛选来确定基因功能。大多数工具是将gRNA短序列(reads)与基准库比对,并对测序深度进行归一化——通过这种方式来分析选定细胞群中已测序的gRNAs。部分工具能给出质量控制图,以更好地确保数据分析的合理性。得益于大量的筛选数据,计算工具能运用精密的统计方法消除批次效应。自动绘图和下游可视化也降低了新用户分析筛选数据的门槛。 虽然一些工具简便易用,但用户们应充分了解算法背后的统计假设,以正确解释数据并推断基因组功能。由于前人已在不同的生物情境中开展了众多筛选实验,这类实验的复现性可能较差。下一步应结合筛选数据和多个遗传及表观遗传数据集,开发用于情境特异性变量和相关的基因组功能分析的计算方法。例如,可以将CRISPR筛选数据和基础基因表达相结合,实现转录组依赖的药物反应预测[25]。 机器学习(ML)算法结合丰富的数据集,能更好地分析筛选结果。但这些数据通常来自一组不同的细胞,因而需要将单个细胞数据与CRISPR筛选相匹配。随后,研究人员开发出了Perturb-seq[26],从实验上将CRISPR扰动和单细胞转录组联系到一起。scMAGeCK和Perturb-CITE-seq等计算工具,都能用于分析Perturb-seq产出的大型数据集。这些工具有待进一步完善,以推断生物学方面的因果联系。另外,由于上位作用会影响多基因组扰动的协同效应,联合筛选也是人们目前尚未涉足的领域。我们认为,计算方法在这一领域将大有可为。 展望 计算工具库的不断扩充,为CRISPR发现和技术发展(包括Cas分子发现、工具优化和生物功能分析)提供了极大帮助。这些工具拓展了CRISPR–Cas系统的应用潜力。时值CRISPR–Cas介导疗法的新时代,诸如Cas蛋白的体内免疫原性、Cas系统大分子尺寸所致的递送问题、脱靶效应,以及关于诱导DNA损伤的安全考虑等重大难题还有待解决。为此,我们需要借助精密的计算工具,更有效地探索CRISPR介导的基因组编辑规律,更准确地预测脱靶位点,更可靠地设计出广泛适用于基因组和表观基因组工程的有效gRNAs。而如今来自CRISPR实验的不断扩充的数据集,为计算工具的开发创造了大好机遇。 我们回顾了多种现有的预测gRNA效率的工具,认为当务之急是对现有的计算工具进行标准化,并探索不同工具间的协同作用。此外,深度学习模型的解释也是一个有前景的领域,能帮助我们从生物学角度深入理解CRISPR。测序和单细胞组学的发展带来了高内涵CRISPR筛选的概念[27],而这需要构建起推断遗传相互作用的可解释模型。 展望未来,其他领域正在开发的一些计算工具将会扩展CRISPR的潜力。蛋白质结构预测算法虽然已经大获成功,但AlphaFold2等工具还需用更多相关的数据进行训练,并结合分子动力学(MD)模拟探讨蛋白质、gRNA和目标DNA之间的相互作用,方能用于计算指导下的Cas蛋白设计。毫无疑问,这需要生物工程师、生物学家和计算科学家们通力合作。在各学科研究人员的协助下,我们能优化CRISPR数据库生成、标准化和模型解释,解决许多剩余的挑战,并迎来CRISPR发现和技术的新一轮浪潮。 扫码阅读更多《自然-计算科学》推出的诺贝尔系列文章 |
|