高通量测序(一文读透) 高通量测序(high-throughput sequencing, HTS),也叫下一代测序/二代测序(next-generation sequencing,NGS),或者大规模并行测序(massively parallel sequencing,MPS)。大规模并行测序这个名词最能反映其原理。 源起 美国NIH资助的人类基因组计划(Human Genome Project,HGP)的目的是为了研究人类整个基因组水平上的变异,这个项目的愿景是通过解码我们的生命之书就可以了解并治愈所有疾病、延长寿命等(事后证明这个想法太天真,也许是科学家画大饼忽悠经费)。人类基因组测序始于对DNA的大片段(150 kb)的有序“常规”测序(一代Sanger测序),这些片段被分配给国际团队(美英主导)的项目参与成员,并按照一定的方法进行测序。然而,人类基因组太大(30亿bp),一代测序一次只能测500-700bp,这种方法进度实在太慢,7年才完成3%的测序工作量。一个名叫Craig Venter的科学奇才提出速度更快的“shotgun”(鸟枪法)策略,起初并未被NIH采纳,于是这哥们就创立Celera公司,扬言要与NIH竞争先测完人类基因组并将数据归为己有。鸟枪法确实更快,Celera在短时间内赶上了NIH进度,这下麻烦大了,幸好克林顿总统出面撮合,最终Celera与国际团队合作携手发布了人类基因组的初步测序结果(花了13年和20亿美金)。鸟枪法是完成首个人类基因组序列的重要工具。大规模并行测序是当前用于基因组测序的技术。图1对比了这些不同的测序方法。 图1. 基因组测序方法。大规模并行测序(左面板)是当前用于基因组测序的技术,但它起源于早期的传统Sanger(中间面板)和Sanger shotgun(右面板)测序方法。详细信息请参阅正文。BAC,细菌人工染色体。 大规模并行测序是早期测序方法的演变,基本步骤包括随机DNA剪切(片段化,idea来自鸟枪法)、并行测序反应和数据组装(图1的左侧面板)。随机剪切的基因组片段经过寡核苷酸修饰,有助于识别、固定并对其测序,这一步骤称为文库构建。在全基因组测序的情况下,这些经过修饰的片段“文库”直接进行测序。然而,如果只对一部分基因(靶向)感兴趣,或者只对编码区核苷酸感兴趣(外显子),则特定目标可以在文库步骤之后进行杂交和“捕获”。感兴趣区域的靶向捕获是外显子测序的关键步骤。超过100万个测序反应同时进行(一代测序一次只能进行一个测序反应),每个反应生成超过100个碱基的数据(short reads)。测序后,DNA的短读长将根据参考基因组(例如GRCh38)进行组装。你可以将MPS简单理解为将基因组切碎,然后同时进行数百万个一代测序,最后设法将正确的碱基顺序组装起来。所以要理解二代测序首先要深刻理解一代测序。 相比之下,人类基因组计划最初使用的是传统的基因组测序技术(图1中间面板)。这种方法从将基因组克隆到大分子中,如酵母人工染色体(YACs),后来是细菌人工染色体(BACs)。这些较大的分子携带的基因组插入片段大小超过150 kb,然后被分配给基因组测序联盟的成员,以700个碱基对的反应方式进行有序的测序。每轮测序都依赖于上一轮的测序数据。数据的组装不像高度并行或shotgun测序那样计算密集。 最后,shotgun测序是人类基因组计划迅速完成的关键(图1右面板)。与有序测序感兴趣的目标不同,该方法依赖于DNA的随机切割和将切割片段亚克隆到质粒中。然后,在并行(分开的)反应中对质粒进行测序。因此我们说大规模并行测序技术的演化源于shotgun测序。 与传统的双脱氧终止测序(一代Sanger测序)相比,大规模并行测序在一次操作中产生多达10亿个碱基对的序列数据,每个碱基的测序成本降低了10,000到100,000倍。这种方法在不断改进,朝着更高的通量和更低的成本方向发展。截至2021年,人类基因组的WGS成本已降至约1000美元到3000美元。这些进展得益于光学数据处理、生物信息学和整体计算机能力的提高。这些方法的成本和周转时间持续减少,其便利性也在不断提高,从而在临床实验室中的应用逐渐增加。大规模并行测序的临床实验室标准已经发布,而且有关实施大规模并行测序检测的实用指南也已经制定。克隆测序(clonal sequencing)方法需要复制单个DNA链形成克隆模板,以便生成足够的信号进行检测。相比之下,单分子测序方法必须足够敏感,以能够检测到单个DNA分子。大规模并行测序方法的特点在表1中进行了总结,具体内容可参阅相关综述文献。 表1 . 大规模并行测序方法的特点 DNA克隆测序(Sequencing From Clones) 克隆测序方法从生成一个随机文库开始,这些片段通常为70到1000个碱基,但一些方法需要6到20 kb甚至更大的片段。起始材料可以是基因组DNA、基于杂交捕获的基因组DNA子集(如外显子测序和一些特定疾病的基因panel),或者聚焦于少数感兴趣区域的PCR产物。DNA碎片化通常采用物理方法或酶法。常见的物理方法包括声波破碎和声学切割。根据样本以及声发生器的频率和几何形状,可以产生平均长度从100到20,000个碱基的片段。水动力切割也可以通过压缩空气将液体雾化、将溶液强制通过细针,或者通过弗氏[细胞]压碎器获得。酶法碎片化可以使用限制内切酶、非特异性核酸酶或能同时碎片化并添加接头(adapter)序列的转座酶。在每种情况下,可以调整实验条件以产生不同长度的片段。 接头序列通常会添加到随机片段的每一端。这些接头的主要作用是为每个片段提供共同的引物位点,以启动大规模并行测序反应。一个引物集可以扩增一个大规模阵列(珠子beads或平面流动池planer flow cell)的文库插入片段(insert)。接头还可以将DNA片段捕获到固体表面,并在空间上限制生成的克隆扩增产物。片段的末端通常需要“修复”,填补任何缺失的碱基,还可以在3’末端可选择地添加一个额外的单独的A(腺嘌呤核苷酸),以便与接头连接。如果需要对不同的DNA进行混样测序,通常会添加一个序列“条形码”(barcode),以确定克隆来自哪个DNA样本。带有接头和条形码的典型文库插入片段如图2A所示。然后,根据大小对这些文库进行分区,以选择下游测序技术所需的最佳条带。 图2. 大规模并行测序中不同的文库设计。(A)将包括共同PCR引物位点的两个接头连接到通过DNA剪切产生的文库插入片段的每个末端。如果需要进行混样,可以添加一个条形码,以便将每个reads分配给特定样本。(B)一个文库插入片段被环状接头包围,允许引物结合到每个末端的单链环上进行滚环扩增。 大规模并行测序的克隆扩增通常在微反应分区内的单个 DNA 分子上进行。分区可以是油包水乳液(乳液 PCR)中的微小水滴、丙烯酰胺凝胶薄膜上的 PCR 克隆、桥式扩增产生的平面流通池表面上的簇,或表面附着有克隆扩增模板的珠子。当在这些大规模并行反应中观察到扩增时,很可能是单个模板分子发生了克隆扩增。克隆扩增通常通过乳液 PCR 或桥式扩增进行。 乳液聚合酶链反应 emulsion PCR 在乳液PCR中,文库DNA的一条链被捕获在一个珠子上,并在水包油的液滴内扩增,生成表面覆盖单链PCR产物的珠子(如图3所示)。乳液通过混合珠子(每个都涂有一个引物)、水性PCR组分(包括另一个引物、聚合酶和dNTPs)和油混合物在搅拌下形成,理想情况下形成只包含一个珠子和一个文库插入片段的液滴。两个引物与接头互补,一个涂在珠子表面,一个在溶液中。在乳液PCR期间,所有的珠子都在分散在油中的水性微滴中一起扩增。乳液在标准PCR热循环仪中扩增。经过PCR和变性后,每个珠子上有数百万个相同的单链PCR产物,每个珠子都携带有由接头夹持的不同定向插入片段。最后,乳液被破裂,除去空珠子后,准备进行测序。 图3. 乳液PCR。两个接头(接头A和接头B)随机连接到DNA片段上。接头B的5'端带有生物素。一个或两个末端带有接头B的片段被亲和素珠子捕获,而仅带有接头A的片段则被洗掉(未显示)。然后,片段被变性,带有接头A和接头B的游离链被收集(片段两端都带有接头B的不会从亲和素珠子释放)。然后,将单链模板分子捕获在涂有接头的珠子上,并封装在含有PCR试剂和引物的油包水液滴中。经过PCR后,液滴被破裂,DNA被变性。这产生了一个大量连接到珠子上的克隆单链。 桥式扩增Bridge amplification 桥式扩增生成了附着在平面流动池(flow cell)表面上的单链PCR产物簇(如图4所示)。与乳液PCR的克隆珠子生成不同的是,扩增发生在平坦的表面上。与接头互补的引物都附着在表面上,可以是随机地或以固定模式分布。然后,文库DNA变性形成单链,与表面上的引物杂交。在表面引物延伸后,原始模板链在变性条件下被冲走。接下来的过程称为桥式扩增,与PCR非常相似,但是两个引物都附着在表面上,因此表面附着的单链必须弯曲以找到其互补引物,从而在延伸后形成双链桥。流动池不像PCR反应通过加热解链,而是保持在60°C,通过引入化学解旋剂以解离两个桥链,但现在两条链都附着在平面表面上。当流动池用聚合酶和dNTPs在有利的延伸条件下冲洗时,两者都可以找到新的引物形成额外的桥。该过程不断重复,直到形成数千个拷贝。附着的引物之一可以设计为包含可切割位点(化学或酶切)的,以便在变性后去除一条链。在将单链的3’末端用ddNTPs封闭(以防止与紧密堆积的模板发生不需要的延伸)后,表面准备好进行测序。 图4. 桥式扩增。两个接头(接头A和接头B)与DNA模板连接。在将它们稀释并变性为单链后,模板通过与与接头A或B共享序列的两个表面结合引物之一的退火被捕获到流动池表面上。引入流动池的聚合酶试剂扩展引物并生成模板的互补链。变性剂(通常是氢氧化钠)被引入到流动池中以释放原始的模板链。新合成链的自由末端通过弯曲覆盖附近的引物而退火,第二轮试剂添加催化另一个互补链的合成。通过多次重复这些循环,生成一个由1000到30,000个单链模板副本构成的克隆簇,这些副本与表面相连。该克隆簇此时仍然是两种互补链的混合物。通过使用周期酸进行处理,选择性地消除其中一条链,周期酸能够断裂一个表面结合引物中存在的二醇连接(红色引物上的开放三角形)。现在,该克隆簇只包含一种模板链,已经准备好进行序列分析。 合成测序Sequencing by Synthesis 合成测序,全称是边合成边测序。合成测序通过(1)焦磷酸释放、(2)pH降低或(3)可逆终止子的荧光来检测。克隆扩增方法允许同时观察成千上万的链延伸,极大地增强了信号强度。然而,必须在每个步骤中对延伸进行控制,因为连续的链延伸不会在不同链之间保持同步。通过将克隆固定到阵列中,可以实现按顺序加入试剂。 焦磷酸测序Pyrosequencing 焦磷酸测序最初用于第一个大规模并行测序平台(罗氏454),但由于通量较低且成本较高,已经失去竞争力。将克隆珠装入皮升反应室中,该反应室由蚀刻的单根光纤形成。dATPαS、dCTP、dGTP 或 dTTP 溶液在有利于延伸的条件下依次通过一个反应室。如果存在碱基匹配,则核苷酸将被掺入,并且焦磷酸被释放。焦磷酸测序信号通过连接的酶反应产生,导致荧光素酶化学发光(dATP 被 dATPαS 替代以防止干扰)。产生的光被各独立光纤捕获并在 CCD 上检测。如果连续出现多个相同碱基(同聚物串),则该核苷酸的多个碱基被掺入,信号将成比例增加。但随着相同碱基数量的增加,确定它们的确切数量变得更加困难,这也是焦磷酸测序的主要缺点。 半导体测序Semiconductor Sequencing (ion torrent 平台) 与焦磷酸测序检测类似,克隆珠用作模板。然而,这些珠子排列在经过修改的半导体传感器上,以检测 pH 值的变化。该芯片不检测光,但由于珠子上的许多克隆将其中一种 dNTP 转化为焦磷酸盐而产生了轻微的 pH 变化。与焦磷酸测序类似,同聚物串可能会出现问题。随着半导体技术的发展,通过减小磁珠和传感器孔的尺寸以及增加芯片的尺寸,芯片的性能迅速提高。运行时间可短至 3 至 4 小时。 可逆终止子Reversible Terminators(illumina/BGI平台) 在平面流动池上的桥式扩增后,四种核苷酸之一在有利于延伸的条件下通过流动池。与焦磷酸测序和半导体测序不同,核苷酸是荧光终止子,因此只有一个碱基被掺入,避免了同聚物串的问题。每个核苷酸都有不同的荧光标签,因此可以通过颜色进行区分。此外,荧光终止子是可逆的,这意味着流动池提供的简单化学手段可以再生3’端的阻断。每个循环包括(1)在有利于延伸的条件下添加聚合酶和带荧光标记的终止子(2)清洗流动池,(3)荧光成像,(4)剪切荧光终止子,(5)清洗流动池。每次运行的输出数据可以在一天内达到1000 Gb以上。 另一种类型的可逆终止子测序将文库中的 DNA 片段连接成环状构建体,然后通过滚环复制进行扩增。每个片段都被扩增成数百个拷贝,并形成一个被称为“DNA 纳米球”的紧凑单链结构,该结构被结合到图案化的流动池上。DNA 纳米球的测序是使用上述荧光可逆终止子进行的,或者可以使用非荧光(冷)终止子,然后使用荧光标记的碱基特异性抗体。碱基特异性抗体可以一次添加两个,从而简化了所需的光学器件。 单分子测序Single Molecule Sequencing 单分子测序方法不需要模板扩增。碱基reads不需要与其他克隆链同步,因为没有其他克隆链。需要用敏感的光学或电子方法来检测单个分子中的碱基序列。如果实现了长读长和高准确性,其优势包括高效的序列组装、分析重复序列、新基因组测序、染色体重排和融合等。相比之下,大规模并行测序方法通常生成短序列reads(长为100到700个碱基),需要对其进行比对和分析,以得出一致性,然后将它们拼接在一起,并与参考基因组序列进行比较。准确的序列数据组装依赖于在测序区域获得足够的和/或冗余覆盖。 采用荧光核苷酸的实时单分子测序(PacBio平台) 该方法的文库制备是独特的,因为基因组片段化经过调整以提供约 10 kb 或更长的插入片段,并且接头被设计为发夹结构。结果是双链插入片段的两端都被相同的单链环所包围(见图1 B)。测序引物与环区域退火,并与零模波导(zero-mode waveguide)底部的单个聚合酶分子结合,形成活性聚合酶复合物。零模波导允许单分子检测共价连接到每个 dNTP 末端磷酸盐的瞬态荧光标记。将四种 dNTP 添加到带有不同标签的孔中,可以通过光学方式进行区分。当荧光 dNTP 与其互补体在聚合酶活性位点附近配对时,它处于荧光检测的完美位置。掺入正在生长的链中后,末端荧光标记(附着于焦磷酸)从聚合酶扩散开。当引物通过滚环扩增绕环行进时,可以高速连续获取荧光信号。该过程可以在一个循环后停止,也可以继续进行多次读取以进行错误检查。已经报道了超过175,000个连续碱基的碱基reads。 纳米孔测序(Oxford Nanopore平台) 另一种不需要扩增且使用电子而不是光学检测的单分子测序方法是纳米孔测序。单个DNA链通过由固定蛋白质形成的纳米孔。DNA单个碱基通过蛋白质纳米孔会产生特征性的电信号,可以揭示通过纳米孔的碱基(或碱基组合)的身份。本质上,这类似于纳米级库仑计数器,它不是量化细胞大小,而是量化单链DNA上的碱基差异。数千个碱基可以在单次读长中测序。该方法是非破坏性的,可以区分甲基化的DNA碱基和正常的碱基。目前有许多纳米孔正在研究中(α-溶血素,Mycobacterium smegmatis的porin A [MspA]等),固态纳米孔也正在密集地进行研究。虽然更短、更窄的纳米孔能够独立检测单个碱基,但目前的材料限制允许在纳米孔内同时包含约四个碱基。纳米孔技术的超长读长(> 100 kb)使得整个长度为4 Mb的主要组织相容性复合体的组装和相位切分成为可能。 大规模并行测序带来的影响 显然,大规模并行测序可以用于人类基因组测序,但这项技术的影响远远超出了人类基因组范围。基因组子集的杂交捕获可以大大减轻测序负担。例如,外显子组测序是一种流行的识别疾病变异的方法,可将测序需求减少近 100 倍。mRNA 测序(“RNA-Seq”)是使用多聚 T 寡核苷酸和逆转录酶引发,将信息转录物转化为双链 DNA 来实现的,这种方法比微阵列具有定量优势,并且可以 轻松检测融合。传统上难以通过测序检测的变异,包括拷贝数变异和染色体重排随着生物信息学的进步而变得更容易识别。在“ChIP-seq”中,识别转录因子结合位点的染色质免疫沉淀实验的reads被大大简化。染色质的基因组图谱可以通过“ATAC-seq”来确定,这是一种将测序接头体外转座到天然染色质中的方法。其中许多方法可以在单细胞上进行,例如,“CITE-seq”(转录组和表位的细胞索引)将 RNA-Seq 与通过序列标记抗体进行的蛋白质鉴定相结合,这些抗体可以同时在数千个细胞上进行分析。虽然似乎只需要对任何特定个体进行一次基因组测序,但在癌症中情况并非如此。肿瘤群体的单细胞测序可以鉴定出具有治疗重要性的耐药克隆。生命的巨大复杂性的探索需要匹配同样强大的分析能力。 |
|