1 概述 从群体遗传学理论上讲,遗传疾病源于生物个体遗传物质突变和遗传的对立统一。由于遗传物质突变的机制,同一物种生物个体之间存在着遗传物质的多态性。这种多态性随着物种的世代繁衍演进,那些不利于生物个体生存和发展的突变型逐步淘汰,而有利于个体适应环境和生存的基因型则经过长期积累在生物群体中占优势,并在逐代繁衍中得到巩固。但在不经人工选择的自然婚配的群体中,有害的突变型的消失却是一个漫长的过程。由于绝大多数有害基因突变型是隐性基因,有害基因的携带者仍表现正常,而使有害基因在群体中长期存在。一旦两个有害基因型的携带者婚配,或位于性染色体上的有害基因的携带者与正常人婚配,其后代中则会出现表现遗传疾病症状的个体。遗传疾病从分子水平解释,究其根源是由于与正常个体的遗传分子相比,患有遗传疾病个体的遗传物质发生了DNA序列或染色体片段上的改变。这种遗传物质上的异常在向代传递时遵循孟德尔遗传规律而可遗传给下一代。具体讲,较常见的突变情况有如下几种:(1)染色体某个区域的缺失;(2)某个基因的部分外显子或内含子的缺失;(3)基因的单碱基突变;(4)三核苷酸重复突变;(5)基因的一部分重复转录,而导致基因产物大小的改变;(6)插入突变,从基因组他部位的DNA片段插入到目的DNA序列内;(7)线粒体基因组的突变。一般来讲,遗传疾病的分子突变机制都比较复杂,往往包括上述的两种或两种以上的情况,如导致新生儿失盐症的21-羟化酶缺乏症,可由于21-羟化酶基因(P450c21)发生缺失或基因易位插入所致;杜氏肌营养不良症(Duchenne muscular dystrophy,DMD)是由于抗肌萎缩蛋白(dystrophin)基因的部分缺失和重复造成。 应用分子生物学技术检测遗传疾病,又称遗传疾病基因诊断,是在分子水平上对核苷酸序列的突变进行检测,以在遗传物质的分子水平揭示疾病的发病机理和发病根源。分子生物学技术在人类遗传疾病诊断中的应用是近年来分子生物学理论和技术手段不断发展和成熟并在社会生活中逐步运用、普及的结果。 (一)分子生物学技术在遗传疾病诊断中运用概况 1.运用分子生物学技术进行遗传疾病诊断的原理与策略运用分子生物学方法诊断遗传疾病是近几十年发展起来的一个新的领域。它与传统的诊断方法有着本质的区别。传统的遗传疾病诊断方法有三种:临床学诊断、诊断和生物化学诊断。这些诊断方法都是以疾病的表型病变为依据。而表型则易受外界环境的影响,这就在一定程度上影响了诊断的准确性和可靠性。以分子生物学为基础的基因诊断则是在作为生命的遗传基础物质———DNA水平上对遗传疾病进行诊断,可揭示发病的遗传本质,不但可鉴定表现症状的有害基因纯合的个体,也可鉴定出没有异常表型的有害基因的携带者,尤其适于早期诊断。因而基因诊断与传统疾病诊断方法相比具有更准确、可靠并且诊断时间早的特点。在诊断时间上遗传疾病的诊断可分为产前诊断、症状前诊断和症状后诊断。从以预防为主、防患于未然的角度考虑,产前诊断和症状前诊断最为重要,而遗传疾病的基因诊断则是进行产前诊断和症状前诊断的最有效手段。就遗传疾病基因诊断的方式而言,可分为直接检测和间接检测两种。对于导致遗传疾病的有害基因的发病分子学机理已研究得很明了,而且如果遗传病症是由于一个或有限的几个已探明的基因突变造成,则可依据分子生物学技术,设计检验方法,对突变位点直接进行检测。在实际情况中,由于致病基因产生的突变多样化,或由于致病基因属于微效多基因,尚未确定和测序,因而无法用直接方法诊断。这种情况下可行的方法是通过对与之有连锁关系的DNA序列的多态性的检测,如限制酶酶切片段长度多态性(Restrictionfragmentlength polymorphism,RFLP)和微卫星DNA序列(mi-crosatellite DNA)来达到基因诊断的目的。这些与致病基因相连锁的具有多态性的DNA序列就被称为遗传标记。由于遗传标记和致病基因紧密连锁,在向后代传递遗传物质时,染色体DNA物质发生交换而相互分离的概率极小,而位于致病基因内部的遗传标记则是致病基因的组成部分。因而遗传标记和其连锁的致病基因被认为是共同遗传给下一代的。这样通过检测遗传标记的多态性,即可间接鉴定遗传疾病基因。现在较常见的遗传标记有限制酶酶切长度多态性、微卫星DNA序列等。随着人类基因组测序工作的完成,单核苷酸多态性(single nucleotide polymorphism,SNP)也逐渐成为一种很有应用价值的遗传标记。SNP的研究将为揭示人类个体之间的遗传差异发挥重要作用。在运用遗传标记进行诊断时,为了增加基因诊断的信息量和可靠性,往往在待测基因的内部或两端侧翼序列中选择几个遗传标记,这样可使间接诊断更加准确可靠。与遗传疾病连锁的遗传标记的筛选和确定不但是一项繁重的实验室工作,而且也需要耐心细致的统计分析,这样才能保证遗传标记的准确性。遗传标记的应用可大大简化检测过程,拓宽基因诊断的运用范围。 2.遗传疾病基因诊断技术的发展概况 遗传疾病基因诊断技术的发展可分为以下几个阶段:第一阶段在20世纪80年代初以前,遗传疾病基因诊断主要是以DNA分子杂交(Southern blotting)方法完成,主要是RFLP方法。当突变基因座涉及酶切位点的增减时,用特定的限制酶可将DNA切成在长度上与正常基因组DNA不同的片段。这种限制酶酶切片段能以共显性的方式遗传,因而是很好的遗传标记。在操作中,酶切待测样品DNA,经电泳后将DNA片段转移到固相,以与待测序列同源、经过标记的DNA片段为探针,进行杂交,通过放射性自显影或其他显色方法,可测查出待测样品的基因型。应用这种方法,美籍华裔科学家简悦威于1978年首次发现了人体β-珠蛋白基因HpaI酶切多态性与镰状细胞贫血密切相关,并以此作为遗传标记,首次建立了镰状细胞贫血的基因诊断方法。虽然分子杂交的检测方法可鉴定有害基因型,但往往需要大量的样品DNA,技术过程较复杂,并且探针多用同位素标记,对人体有损害。这一时期是基因检测的初级阶段,检测的遗传疾病种类较少。遗传疾病基因诊断技术发展的第二阶段是在1985年美国人Kary B.Mǜllis等创建聚合酶链反应(polymerase chain re-action,PCR)之后。由于PCR技术只需要简单的操作就可在普通实验条件下使所需要的靶DNA序列在短时间内得到大量扩增,从而突破了在以往研究中不易获取丰富量靶DNA的瓶颈,在分子生物学技术领域引起了一场革命。PCR技术于由其适用性强、操作方便、快捷,已广泛应用于遗传疾病基因诊断领域。以PCR技术为基础,衍生出了许多灵敏而便捷的基因诊断方法,较成熟的方法主要有:PCR-RFLP方法,是检测与特定的酶切位点有关的突变的简便方法;等位基因特异性PCR(allele specific PCR,AS-PCR)[7],该方法针对等位基因序列设计引物,可根据PCR产物的有无来鉴定基因型;PCR单链构型多态性技术(single strand conformational polymor-phism,PCR-SSCP)[8],该方法在PCR产物变性后,在非变性聚丙烯酰胺凝胶中电泳,PCR产物的序列中碱基突变可使DNA分子构型产生差异,而在电泳中的迁移率有所改变,从而可以揭示PCR产物序列内的多态性;多重荧光PCR-STR(simple tandem repeat,STR)可用于检测与微卫星多态性遗传标记连锁的遗传疾病。PCR技术和蛋白质免疫技术结合出现了新型的免疫PCR基因探针。用特殊的具有共价结合能力的分子,如生物素———亲合素、叶绿素等连接蛋白质和核酸,构成了有特异性抗性的抗体基因探针。这一复合型的探针可对基因的表达产物进行诊断。在实际操作中复合型探针的抗体部分特异性地与目的基因表达产物结合,洗脱不能结合的探针,对探针的基因部分进行PCR扩增,根据PCR产物的有无来检测是否存在目的基因的表达产物。免疫PCR基因探针集中了免疫反应的高度特异性和PCR反应的高度灵敏性,检测灵敏度比ELISA高104~105。该技术目前虽仍处于研究阶段,但它为遗传疾病的检测提供了新的思路和方法,具有较好的应用前景。近年来,一种新物质———肽核酸,逐步应用于PCR检测,为以PCR技术为基础的检测方法开辟了新领域。肽核酸(peptide nucleic acid,PNA)是一种由重复的N-(2-氨基乙基)甘氨酸单位构成的多肽样骨架,每个单位间由酰胺键连接,碱基则利用亚碳酰键连接到肽骨架上。与DNA分子相比,PNA实际上是以酰胺链连接骨架替代了核苷酸中核糖磷酸二酯键骨架。PNA与DNA或RNA可结合成高稳定性的DNA-PNA或RNA-PNA双链结构,对碱基错配很敏感。PNA与靶DNA出现一个碱基的错配时,它们之间的结合效率就明显下降;出现两个碱基错配时,PNA和靶DNA则不能形成双链结构。利用PNA此特点,可用类似于等位基因特异性PCR的PNA定向PCR钳技术(peptide nucleic acid-directed PCR clamping technique)检测基因的点突变情况。在PNA定向PCR钳技术的PCR反应体系中,包括一个PNA片段和两条寡聚核苷酸引物,其中,PNA与正常基因型DNA的5′端互补,寡聚核苷酸引物中的一条与DNA突变型的5′端互补,另一条是共有的3′端物。如果待扩增的DNA模板中没有发生点突变,则PNA片段与DNA模板相连,PCR被终止;反之,如果DNA模板中存在突变点,则寡聚核苷酸引物可与DNA模板互补结合,PCR得以进行。通过改变寡聚核苷酸引物和PNA片段,该技术可检测出不同的点突变。这在检测与SNP相关的点突变中有很好的运用前景。分子生物学诊断方法的第三个阶段是以基因芯片(DNA chips)为代表的高通量密集型技术。基因芯片技术早期被称为逆向点杂交技术(reverse dot blot,RDB),是由Saiki等于1989年首次提出。基因芯片的工作原理为:如果了解了某一基因的突变情况,就可根据基因的多态性位点所对应的等位基因型,设计等位基因特异性的寡核苷酸(allele specificoligonucleotide,ASO)探针,用电脑制控的机械臂将ASO精密地排列在尼龙膜或其他固相支持物表面,然后与经过标记的DNA片段(一般为经过PCR扩增的DNA片段)进行杂交,洗脱未结合的标记DNA片段,通过特定的显色或激光扫描(用荧光标记的DNA片段),对杂交结果进行处理分析,即可检测出待测样品的基因型。基因芯片最新的发展表明,该项技术正进一步向精密化和自动化的方向发展。近年来开发的DNA芯片系统,采用荧光素标记DNA片段,应用激光扫描技术进行杂交结果的荧光信号采集。由计算机处理荧光信号,并对每一点的荧光强度数字化后进行分析,从而大大提高了样品处理的自动化程度和检测结果的准确性。基因芯片技术由于具有处理样品能力强大、自动化程度高、结果分析准确可靠,而具有以往基因诊断方法不可比拟的优点。尤其在检测突变型较多的遗传疾病方面,更加便捷、准确、可靠。如Beta-地中海贫血,在全球发现了100种以上的突变型,用传统的方法若对待测样品的这些突变点一一进行检测不仅耗费大量的时间和人力,而且易出差错。应用基因芯片技术可在一个工作日内检测所有这些突变型,而且准确性很高。于由基因芯片技术在工作原理和样品结果处理过程方面突破了传统的检测方法,具有样品处理能力强、用途广泛、自动化程度高等特点,具有广阔的应用前景和商业价值,现已成为分子生物学技术领域的一个热点。目前有关基因芯片的研究方兴未艾,现在许多国家都投入巨资进行该方面的研究和开发工作。基因芯片技术在遗传疾病基因诊断方面的应用究其根源是建立在对基因突变情况的了解的基础上的。如果对某一基因的有害突变型不甚了解,则无法设计出用于检测的等位基因特异性寡核苷酸(ASO)探针。就目前的情况来看,基因芯片主要运用于突变情况清晰的遗传疾病的测检,如Beta-地中海贫血、囊性纤维变(cystic fiorosis,CF)等。随着人类基因组计划的逐步完成,研究的重点将转向人类基因结构和功能的研究,其中基因的突变型对功能影响的研究将是后人类基因组计划的重要内容。这方面的研究成果必将极大地推动基因芯片技术的发展,使基因芯片技术成为基因突变分析重要而有效的手段。 (二)遗传疾病基因诊断技术的发展前景和存在的问题 近几十年来随着分子生物学理论和技术的不断发展和丰富,遗传疾病的基因诊断技术有了长足的发展,尤其是在PCR技术及基因芯片技术发明之后,很大程度上推动了基因诊断技术的发展。近年来随着人类基因组计划的实施和逐步完成,为人类遗传疾病的研究和基因诊断技术的发展注入了新的力量,必将极大地推动遗传疾病基因诊断技术的应用和普及。2001年6月,人类基因组计划已完成了人类基因组草图的绘制。人类基因组的精细图谱可在近年内完成。就目前的研究结果来看,人类DNA序列99.9%是共有序列,有0.1%的核苷酸序列存在着变异。近年来人类基因组单碱基突变(SNP)的研究,已成为热点。在人类基因组序列中已发现了超过1 000 000个SNP。SNP的研究成果有望揭示人类个体之间的遗传差异,为人类遗传疾病的基因诊断提供重要的理论依据。同时,遗传疾病的诊断技术将越来越多地和新材料学,以及信息学领域的最新技术成果结合,向着遗传疾病基因检测的精密化、自动化方向发展。其中基因芯片技术将有望成为遗传疾病诊断的主要技术手段。在遗传疾病基因诊断方面仍存在着一些问题,它们在一定程度上制约了遗传疾病基因的研究和基因诊断技术的运用。遗传疾病具有典型的家族特征,相对封闭的较完整家系是研究遗传疾病基因的最好材料。但随着社会的发展,人口流动性愈来愈强,这样的家系极少发现;此外,有些遗传疾病由多个基因座突变造成,调查这些基因座的突变背景,往往需要长期细致的实验工作和研究积累。这些都给遗传疾病的基因研究工作带来了困难。在遗传疾病基因诊断技术方面,有些诊断方法易出现假阳性现象;一些最新发展起来的基因诊断技术存在着成本较高和诊断费用过高的问题,而不少已有的基因诊断方法由于过程复杂、操作要求较高而难以推广,这些问题制约了遗传疾病基因诊断技术的应用和普及,需要进一步锤炼技术过程加以解决。在社会学方面存在的问题主要有:在遗传疾病的基因研究中如何保障提供样品者的知情权问题;一个基因的发现者是否对其拥有专利权而可制约他人对该基因的研究工作;基因诊断呈阳性但尚未表现出遗传疾病症状者是否可以进行医疗保险等。这些虽然都属于社会学范畴的问题,但一项新兴的技术能否在社会上应用和普及,不但取决于技术本身的成熟程度,更有赖于人们对该技术的接受程度。因此,遗传疾病基因诊断技术的应用,必须考虑到其社会影响因素。随着分子生物学理论和技术的不断发展,遗传知识的普及和社会有关法规和社会保障体制的建立,遗传疾病基因诊断技术在提高人口遗传素质面将发挥越来越重要的作用。 2 生物芯片技术与遗传病诊断 1.生物芯片简介 随着人类基因组计划及后基因组计划的进行,生物芯片技术在美国硅谷诞生。生物芯片的概念源于计算机芯片,是指采用光导原位合成或微量点样等方法,将大量生物大分子如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物(如玻片、硅片、聚丙烯酰胺凝胶、尼龙膜等载体)的表面,组成密集二维分子排列,然后与已标记的待测生物样品中的靶分子杂交,通过特定的仪器如激光共聚焦扫描或电荷偶联摄像机对杂交信号的强度进行快速、并行、高效的检测分析,从而判断样品中靶分子的含量。由于常以玻片或硅片作为固相支持物,且制备过程类似计算机芯片的制备,故称之为生物芯片技术,不同的是在计算机芯片上排列的是集成电路,而生物芯片上排列的是密集的探针阵列。生物芯片技术将生命科学研究中所涉及的不连续的分析过程(样品制备、化学反应和分析检测)连续化、集成化、微型化,具有高信息量、快速、微型化、自动化、成本低、污染少、用途广等特点。生物芯片技术被认为是继 20 世纪大规模集成电路之后又一次具有深远意义的科学技术革命。目前,生物芯片研究领域主要包括基因芯片、蛋白质芯片和芯片实验室,此外,还包括组织芯片、细胞芯片、糖芯片、电子芯片、三维芯片和流式芯片。基因芯片是将 DNA 或寡聚核苷酸固定在固相支持物上, 让经过处理的生物样品中的 DNA 或 RNA 与之杂交,再通过特定的方法检测并进行数字化处理, 从而得出待测样品的核酸信息。蛋白质芯片又称蛋白质阵列或蛋白质微阵列,是一项高通量、微型化和自动化的蛋白质分析技术,是最具发展潜力的一类生物芯片。目前主要分为两种:第一种称为亲和表面芯片,是较为常用的一种,其原理就是将大量的蛋白质、蛋白质检测试剂或检测探针以预先设计的方式固定在玻片、硅片及纤维膜等固定载体上组成密集的阵列, 利用抗原-抗体、受体-配体和特异的蛋白-蛋白相互作用的原理,捕获特异的和特殊修饰的蛋白质;第二种称为微型化凝胶电泳板,即样品中的待测蛋白在电场作用下通过芯片上的微孔道进行分离,然后经喷射进入质谱仪中来检测蛋白质的分子量及种类。由于蛋白质芯片的探针蛋白特异性高、亲和力强,所以对生物样品的要求较低,故可简化样品的前处理,甚至可直接利用生物材料进行检测,蛋白质是基因表达的最终产物,因而它比基因芯片更进一步的接近生命活动的物质层面, 蛋白质芯片能同时检测生物样品中与某种疾病或环境因子损伤可能相关的全部蛋白质含量的变化情况即表型指纹, 对监测疾病的进程和预后及判断治疗效果有重要意义。生物芯片发展的最终目标是将生命科学研究中所涉及的许多不连续的分析过程通过采用像集成电路制作中的半导体光刻加工那样的微缩技术,移植到芯片上进行,形成微型全分析系统,即芯片实验室。所以说,芯片实验室是最理想的生物芯片,是未来生物芯片发展的最终目标。芯片实验室可以完成对样本的预处理、分离、稀释、混合、化学反应、检测及产品的提取,从而使现有烦琐的、不精确的生物分析过程自动化、连续化和微缩化,成本更低廉,使用更方便。利用这种方法可以准确快速地大量检测遗传性、家族性、地方性和流行性疾病,甚至癌症等其他疾病。 2.生物芯片的应用 作为一种新兴的高技术, 生物芯片的应用领域越来越广泛。特别是在医学方面,生物芯片中最成熟的基因芯片技术可用于基因表达谱研究、基因突变研、基因组分型及测序和重测序等方面。在药物学领域,生物芯片可以应用于疫苗研制、药物中有效成分的筛选 、中药安全性检测和中药材品质鉴定。在医学检验领域,生物芯片已经逐渐开始应用于临床细菌检测、肝病检测、艾滋病检测、肿瘤和血液病检测和遗传病检测。其中, 生物芯片在遗传病诊断方面有极高的应用价值。以往,在临床上,人们因为无法鉴定基因的分子缺陷,对遗传病的诊断主要是通过对病史、症状和体征进行分析,并通过家系分析以及实验室检查等手段来完成的。这些方法都是对疾病的结果进行分析,再由结果追溯原因。近 20年来,随着分子生物学技术的发展,人们可以直接从遗传病病因即导致疾病的基因入手来进行遗传病的诊断,人类基因组计划完成后,越来越多的遗传病发病机制被阐明,但如何能够快速准确地检测基因的突变则成为一个需要解决的问题,而DNA 芯片技术正是随着这一计划的进展而发展的,为后基因组时代的基因功能研究提供了技术装备。利用基因芯片技术, 通过分析和检测患者某一特定基因, 即可诊断遗传病患者,也可诊断有遗传病风险的胎儿,甚至是着床前的胚胎。 (1)遗传病致病基因的定位 人类基因组计划使许多遗传病的致病基因被定位,如肥胖病、老年痴呆症、亨廷顿舞蹈症、精神疾病等。基因定位蕴含着巨大的商业价值,1996 年,美国昂飞(Affymetrix)公司下设的实验机构用已知的 390 个具有多样性的人类基因,制备了携带有 2000 种位点变异的 DNA 芯片。生物学家通过对遗传病家谱进行研究,可将某一遗传病的基因和一种或多种多样性联系起来, 遗传病基因在染色体上的位点将通过这种联系被具体地定位。以往的突变及多态性检测手段均不适宜大规模、低消耗和自动化的要求,应用基因芯片可以克服这方面的不足。如昂飞公司把p53基因全长序列和已知突变的探针集成在芯片上,制成p53基因芯片,用于p53肿瘤抑制基因的多态性检测, 在癌症早期诊断中发挥重要作用。 (2)遗传病的检测 地中海贫血是危害最严重的遗传病之一, 重型地中海贫血儿的出生给社会和家庭带来了沉重的经济、精神和生育负担,目前尚无理想的根治方法。应用先进的基因芯片技术进行产前基因诊断, 选择性淘汰重症患儿的出生,提高人口素质,是首选的预防措施。 3 外显子捕获技术与单基因遗传病诊断 1.全外显子组捕获- 第二代测序技术鉴定致病基因的策略 自2009 年9 月起,一种全新的寻找疾病致病基因或易感基因的方法- 全外显子组测序( whole exome sequencing,WES) 开始显露头角,发挥了越来越多的重要作用,并已被用于临床基因诊断。外显子组( exome) 即一个个体的基因组DNA 上所有蛋白质编码序列( 即外显子。exon) 的总和。人类外显子组序列仅占人类整个基因组序列的1%,约为30 Mb,包括18 万个左右的外显子,估计85%的人类致病突变都位于这1% 的蛋白质编码序列上。因此,对各种疾病患者的外显子组进行测序分析,所针对的是与疾病最相关的“编码序列”即区域exome,捕捉的是疾病的大部分致病突变信息。在单基因致病基因的定位中,普遍的做法是假设致病突变为一个患者共有稀有突变,在常用数据库中不存在,故常用的策略是将测序得到的变异体过滤常用数据库( 如dbSNP 数据库、HapMap计划数据库和千人基因组计划数据库) 。有的学者也利用自己的数据库( inhouse database) 进行过滤。国内的研究则还可利用炎黄计划数据库。外显子组测序的优势还有: ① 得到的是数字信号而非芯片模拟信号;②可挖掘< 5%的稀有突变,全面地分析与疾病相关的数据;③研究效率高,经费投入的性价比高。因而,该技术既可用于发现罕见单基因疾病的致病基因,进而也可推广到多基因复杂性疾病的研究中。显然,借助于外显子组捕获和第二代测序技术的所需样本数量少、低费用、高通量的优势和特点,可以大大加快鉴定人类疾病基因的进程。近几年来,外显子组测序已对许多疑难杂症的致病基因进行了定位克隆。外显子组捕获测序在Freeman - Sheldon和Miller 综合征中应用成功后,有学者又用该技术成功鉴定了Kabuki 综合征的致病基因MLL2。对2 例无血缘关系的家族性混合型低血脂症( familial combinedhypolipidemia) 患者进行了测序,就成功地鉴定了该病的致病基因ANGPTL3通过对4 例无血缘关系的灰色血小板综合征( gray platelet syndrome) 患者的外显子组测序,发现NBEAL2 为该病的致病基因。国内方面,中南大学湘雅医学院通过对一个脊髓小脑共济失调症( spinocerebellar ataxias) 大家系中的4 例患者进行外显子组测序,成功地分离到该病的第20 个致病基因TGM6。外显子组测序方法应用于多发性内分泌瘤2型( multiple endocrine neoplasia type 2) 的研究,并指出该技术对致病基因过大或表型模糊等的遗传病的基因诊断具有节省成本、快速、简捷等明显优势。无血缘关系的高度近视( high myopia) 患者进行了测序,确定ZNF644 为该病的致病基因。在对单基因遗传病致病基因的鉴定中,目标序列捕获测序也得到了成功应用,使得致病基因克隆的成本进一步降低。例如,Sun 等将X 染色体外显子组捕获测序( X - exomecapture and sequencing) 应用于终端骨发育不良( terminal osseousdysplasia) 的研究,通过对2 例无血缘关系的患者进行测序,确定了FLNA 为其致病基因。外显子组捕获测序在多基因疾病的研究方面也取得了显著成果。急性单核细胞白血病( acute monocytic leukemia) 的外显子组测序,发现DNMT3A 基因突变在该型白血病患者中高频发生,进一步的研究证实了DNA 甲基化与该病的发生有关。透明细胞癌( clear cell carcinoma) 组织进行外显子组测序,将SWI /SNF 染色质重塑复合体基因PBRM1 确定为透明细胞癌的第2 个主要致癌基因,并进一步证实了体细胞遗传对透明细胞癌发生的作用,强调染色质生物学在癌症发病中的地位。胰腺神经内分泌瘤组织( pancreatic neuroendocrine tumors) 进行测序,发现与染色体重塑相关的MEN1、DAXX、ATRX 基因在体细胞中高频突变,而mTOR 通路中的基因也有高频突变。转移性葡萄膜黑色素瘤( metastasizinguveal melanomas) 进行测序后发现,BAP1 基因在体细胞中高频突。8 例人膀胱移行细胞癌( transitional cell carcinoma) 组织的外显子组测序,发现UTX、MLL - MLL3、CREBBP - EP300、NCOR1、ARID1A 和CHD6 等基因在移行细胞癌组织中高频突变,为移行细胞癌遗传基础的研究提供了新的思路。对离子通道相关基因的重测序研究,认为通过大样本测序得到变异( variant) 只是疾病研究的第一步,在细胞或模型上的功能研究则更为关键。运用外显子组测序对包括癌症在内的多基因疾病的探讨目前多在组织水平上进行,在种系水平上的研究尚未见报道。在多基因疾病的研究中,外显子组测序更倾向于一种提示性的方法,即先做小样本外显子组测序,然后在大样本验证中使用目标序列捕获或Sanger 直接测序予以验证,从而大大降低研究成本。外显子组测序可以结合其他技术应用于疾病的研究。将ChIP - seq 技术和外显子组测序结合应用于色素性视网膜炎( retinitis pigmentosa) ,成功地鉴定了致病基因,将拷贝数变异的全基因组关联分析与外显子组测序结合起来,成功地确定BAG3 基因的大片段插缺变异导致了扩张型心肌病( dilated cardiomyopathy) 的发生。SNP 芯片和外显子组测序结合起来应用于VanDen Ende - Gupta 综合征的研究。先用SNP 芯片将致病基因定位于染色体22q11 的一个2. 4 Mb 区域中,然后通过外显子捕获测序将SCARF2 确定为该病的致病基因Comino-Mendez 等先通过聚类分析,将家族性嗜铬细胞瘤( hereditarypheochromocytoma) 进行归类,再分别对归类的患者进行外显子组测序,从而鉴定出MAX 为该病的致病基因。在外显子组测序技术的应用中,生物信息学方法及软件具有很大的辅助作用,如保守性分析的SIFT 和PolyPhen 软件。 2.外显子组测序面临的挑战 外显子组测序已在疾病基因的识别和分子诊断中表现出极大的优越性,但也存在一些亟待解决的问题。例如,外显子组测序集中于对外显子区域的测序,从基因组水平上来看,得到的信息显然是不完整的,包括启动子区、增强子区、microRNAs 编码区等区域的信息肯定会被遗漏。还有,外显子组测序应用的是打断再拼接的策略,在此过程中,过短的读长将导致大的插缺难以拼接,因而该技术对大插缺等的DNA 结构变异无能为力,只能借助其他方法; 该策略导致的另一个不良后果是,对位于高度同源区的变异体( 如PKD1基因等) 难以检出。因为高度同源区的序列差异小,将导致读到的序列难以拼接,或出现假阳性、假阴性结果。此外,外显子组测序后得到大量的数据,如何对这些数据进行深入的准确分析是当今全世界研究者面临的最大挑战。对数据深度挖掘需要从多方面和多角度入手,包括转录水平的研究、生物信息学分析和功能基因组学的研究等。 4 全基因测序与遗传病诊断 随着高通量测序技术(Next generation sequencing, NGS)的不断发展, 特别是随着测序费用的逐年 降低以及数据分析流程的日趋成熟, 全基因组测序 (WGS)已经成为疾病研究、临床诊断中重要的手段。研究者已经运用全基因组测序来检测癌症、孟德 尔遗传病、复杂疾病的致病突变和致病基因, 取得 了前所未有的科研成果。 1.全基因组测序的背景介绍 近年来, 随着高通量测序技术的不断发展与成 熟, 全基因组测序被应用到了各种领域, 尤其是在 遗传性疾病研究方面的应用备受关注。目前人 类已知的疾病中, 大约有4000多种疾病与基因异常 有关。利用全基因组测序, 可在全基因组水平上检 测与人类疾病相关的单核苷酸变异(SNVs)、插入缺 失(InDels)、拷贝数变异(CNV)和结构变异(SV)等多 种全面的突变信息, 进而找到致病突变并研发有效 的治疗药物, 为临床用药提供指导。价格昂贵一直是全基因组测序发展的一个重大阻碍, 然而随着Hiseq X Ten 的出现, 全基因组测序的成本已大幅下降, 测序费用仅需 1000 美元。Hiseq X Ten是由Illumina公司研发的有史以来最强大的测 序平台, 旨在提供大规模人类基因组测序服务。它 由 10台超高通量测序仪组成, 每台测序仪的产出效 率是 Hiseq 2000 的 12 倍, 每天可产出高达 600 GB 的数据量, 全年可以完成约 18 000 人次全基因组测 序。数据分析速度慢则是全基因组发展的另一个难 题, 受数据量及分析软件的限制, 全基因组数据分 析需要 1 d 以上。然而 2014 年 7 月, Dutch 生物信息公司宣布开发的 Genalice Map 软件可以成功实现1 min比对人类全基因组, 并在将来的合作中继续测试 10000个人类全基因组。此外, 由 Edico Genome 开发的生物科技处理器(Dynamic Read Analysis for Genomics, DRAGEN), 作为全球首款新一代测序生 物信息特殊应用集成电路, 可以将用于分析整个人 类基因组数据所需的 24 h 锐减为 18 min, 同时还确 保了分析的准确性。相信不久以后, 其他分析步骤 也将在几分钟内完成。尽管全基因组测序面临着价格昂贵、数据分析速 度慢等难题, 但是由于其能检测结构变异以及非编 码区的 SNVs、InDels 等, 目前在国内已被应用于一 系列遗传性疾病的研究。全基因组测序逐渐被应用于肝癌、膀胱癌、胰 腺癌、腹膜间皮瘤、自闭症等疾病致病机理的研究。由此可见, 全基因组测序已成为现阶段基因测序工作的重心。全基因组测序的时代已经到来, 势不可挡。 2.全基因组测序的数据分析流程 全基因组测序的数据分析流程包括质量控制 (Quality control)、比对(Mapping)、突变检测(Call variant )、突变注释(Annotation)。针对不同数据要求, 已有多款分析软件得以开发(表 1), 目前广泛使用的 分析流程为“BWA+ GATK + ANNOVAR”。 (1)质量控制 对测序产生的原始数据(Raw data)进行去接头、 过滤低质量处理, 得到 Clean data 的过程称为质量控制。质量控制能除去部分测序效果较差的序列, 提高后续分析的准确性。经过该步骤通常会过滤 掉 5%~15%低质量的序列。 (2)比对到参考基因组 将质量控制后的 Clean data 比对到参考基因组上, 得到每条序列的比对位置、比对质量值等信息。目前最主流的比对软件为 BWA(Burrows-Wheeler Aligner), 它能将短序列准确快速地比对到参考 基因组上, 生成通用的 SAM 格式的文件。自 2013 年起 BWA 发布了新算法 BWA MEM, 可以比 对 70 bp~1 Mb 的序列, 比原来的算法更加准确, 运行速度也更加快。 (3) 突变检测 比对好的SAM文件通常会转换成BAM文件并 进行去重(Remove duplication), 然后进行突变的检测。目前主流检测 SNV 和 InDel 的软件为 Genome Analysis Toolkit (GATK, http://www.broadinstitute. org/gatk/), GATK 准确度非常高, 它会对 BAM 文件 进行两次校正过程以提高突变检测的准确率, 但是速度比较慢。2014年3月, Broad 宣布最新版 GATK(version3.1)在突变检测速度上将比原来快3~5 倍, 使全基因组的分析时间从 3 d 缩短到 1 d。由于全基因组测序具有较好的均一性和覆盖度, 因此在 CNVs 的检测方面具有众多优势。目前已经 发表了多种CNV的检测方法与软件, 可以分为两大类别:①基于深度差异的检测方法受测序局部不均 一性的影响, 往往假阳性率比较高; ②)基于读段对之间的距离检测CNV的方法能相对准确地找到断点。若读段对之间的距离明显超过正常大小, 就可以认为这对读段之间存在 CNV。另外, 有些比对不 上的读段拆成两条读段后能分别比对到染色体上不同位置, 这两个位置之间也可能存在 CNV。广义上 的 SVs 包括 CNVs 和倒位、易位等多种类别, 因此 SVs 的检测比 CNVs 更为复杂, 往往需要多款软件 结合使用, 才能更准确地找到可能的 SVs。CNVs 和 SVs 都需要通过 Sanger 测序对断点进行验证才能最 终确定, 如果无法确定断点的则需要通过 qPCR 验 证。最近, 越来越多研究表明新生突变(de novo mutation)在散发性疾病中扮演重要的角色, 特别是在神经精神疾病中鉴定到一系列的致病基因。因此, 具有核心家系(例如:患者以及患者的父亲与母亲)的全基因组测序也开始得到广泛应用。目前已经开发出了一系列的软件与工具, 这些软件对多个样品同时鉴定突变, 并筛选出仅在患者出现突变。新生突变通常都是极端稀有, 对散发性疾病具有重要作用。 (4)注释突变及预测致病基因 每一个全基因组的样品, 平均可以检测到大约 3000 000 个突变。为了筛选致病的候选突变并用于 后续功能验证, 需要通过诸如 ANNOVAR等软件对其进行注释。一方面, 利用已知突变数据库(如 dbSNP139、ESP6500、1000 Genome等), 去除在数据库中出现频率较高的突变, 并将剩下的突变注释到基因组上的各个基因区间(如外显子区、内 含子区、5′-UTR 区或 3′-UTR 区)和突变对蛋白质编 码的改变情况(如错义突变、无义突变或移码突变); 另一方面, 通过多个疾病数据库(OMIM、MGI、 Cosmic、ClinVar、HGMD等)将部分已知突 变与疾病表型联系起来, 并利用多款预测软件(如 SIFT、Polyphen、GERP++、LRT等)对这 些突变进行有害性和保守型预测, 最终鉴定导致疾病发生的相关基因及突变。随着科研人员对遗传性疾病的进一步研究, 发现在非编码区域, 特别是一些位于高度保守区域、 启动子区域以及重要调控区域的突变对疾病的发生 仍然具有不可替代的作用。非编码区的功能分 析常用 FunSeq软件进行。FunSeq 过滤掉 1000 genomes 中的突变后, 根据突变是否在某些功能元 件上、是否在敏感区域、是否中断转录因子模体、 靶标基因是否已知及靶标基因是否在网络中心等对 剩下的突变进行打分, 筛选出可能有害的突变。如果有多个样本一起分析, FunSeq 还可以判断一个突 变是否是频发突变(Recurrent mutation)。另外, 还需 要充分利用ENCODE数据库(http://genome./ ENCODE/), 里面包含了多种细胞系不同功能元件的注释信息(如启动子、增强子、转录因子等), 可以 为非编码的研究提供参考。 3.全基因组测序在疾病研究及临床诊断中的应用 全基因组测序给疾病研究以及致病基因的筛选带来了前所未有的机遇。近年来, 通过全基因组测序方法, 已在孟德尔遗传病、癌症等疾病中鉴定到了一系列的致病突变和基因, 已经成为致病基因鉴定和临床诊断的重要手段之一。 (1)在癌症中的应用 高通量测序技术特别是全基因组测序对癌症中体细胞突变的鉴定, 疾病的诊断与治疗提供了最直接有效的方法之一, 并得到了广泛应用。通过全基因组测序, 许多癌症已经被广泛研究, 并取得了一系列的研究成果。在 2010 年首次通过全基因组测序得到了黑色素瘤的全基因组突变谱。他们发现, 黑色素瘤的体细胞突变在基因组上面不均一分布, 绝大部分的突变都是C>T/G>A这种类型, 而这些突变绝大部分发生在 CpC/GpG 上面。产生这种特异突变普 的原因可能是黑色素瘤患者长期暴露于紫外线照射中。采用全基因组测序技术, 在小细胞肺癌中却发现 G>T/C>A 转换在所有突变中占主要部分, 并且更倾向于发生在 CpG 上面, 揭示这种特殊的突变谱可能与患者的长期吸烟有关。肺癌进行全基因组测序却发现 C>T/G>A 转换占突变的比例最高, 并且富集于 CpG 上面, 暗示可能 同甲基化的脱氨基作用有关。由于不同癌症具有不 同的发病机理, 因此可能会表现出不同的突变谱。全基因组测序提供了最直接有效、无偏向性地的方 法系统分析癌症突变谱, 为深入了解致病机理提供指导。不同癌症不但具有特异的突变谱, 同时还具有不同的突变频率, 差距可能达到 1000 倍以上。横纹肌样瘤的突变频率最小, 每一 Mb 区域约发生 0.1 个突变; 然而黑色素瘤的突变频率最高, 达到 100/Mb。研究表明, 组织差异性可能是造成突变频率差异最直接的原因, 而且受较大外界压力(如吸烟、 紫外线照射等)的癌症通常具有较高的突变频率。另外, 同一种癌症的不同患者携带的突变数量同样具有很大的差异性。例如, 在黑色素瘤和肺癌中, 突变 频率最少的样品只有 0.1/Mb, 而突变频率最高的样 品却达到 100/Mb 以上。尽管如此, 研究者们使用全基因组技术, 从 SNVs、InDels、CNVs、SVs 等多个角度寻找致病突变, 找到一系列可复制的致病基因。对慢性淋巴细胞性白血病 (Chronic lymphocytic leukaemia)样品进行全基因组测序, 鉴定到 46 个对蛋白功能有害的突变。大样本量验证后发现4个基因(NOTCH1 、XPO1、MYD88和KLHL6)携带复发突变。在多个基 因(ABL1、JAK2、PDGFRB、CRLF2和EPOR)中发现了结构变异, 同时在 IL7R 、 FLT3 和 SH2B3 基因中鉴定到多个害突变。对这些基因的功能进行深入分析后发现, 体细胞突变减弱了相应蛋白同络氨酸激酶抑制剂的结合, 因此与络氨酸酶抑制剂相关的药物对这些患者的定向治疗将具有重要临床指导意义。全基因组测序技术, 对胃癌样品进行全面分析, 包括编码区域和非编码区域的点突变、插入缺失、拷贝数变异、结构变异、基因表达以及甲基化图谱, 成功鉴定已知的胃癌致病基因(TP53、ARID1A 和 CDH1)以及新的胃癌致病基因(MUC6、CTNNA2、GLI3和RNF43 等)。通过全基因组测序, 已经在白血病、黑色素瘤、 脑膜瘤、乳腺癌、成神经管细胞瘤、肾癌、小细胞肺癌、结肠癌和甲状腺癌等多种癌症中鉴定到一系列的致病突变和基因。由于全基因组测序对结构变异与非编码区变异的检测具有无可比拟的优势, 该技术已经全面应用于癌症领域, 使得科研工作者对癌症的发生发展有 更深入的了解。随着测序成本的降低以及数据分析 手段的发展, 更多的癌症和样品将被测序, 并鉴定 到一系列有可重复的致病基因。为了更好的研究癌 症, 科研工作者们已经成立了国际基因组联盟 (International Cancer Genome Consortium, ICGC), 到目前为止该联盟已经公布了超过 10 000 个癌症基因 组数据。全基因组测序已经成为癌症研究的工作重心, 有益于系统分析致病基因参与的分子通路, 将为临床用药提供最有效依据, 使得癌症的治愈也将 成为可能。 (2)在神经与精神疾病中的应用 全基因组测序技术不仅在癌症等疾病中得以应用, 也逐步被应用到其他常见遗传病中, 尤其是神经与精神疾病。全基因组测序在结构变异的鉴定方面存在无可比拟的优势, 可以准确的找到断点位置, 精确定位致病基因。对具有神经发育障碍的患者进行全基因组测序并鉴定到 33 个区域。这些区域的致病基因可以归类为 4 种类别:①已知 的致病基因(AUTS2、FOXP1 和 CDKL5);②单个基因的区域(SATB2、EHMT1);③新的候选基因与区域 (CHD8、KIRREL3 和 ZNF507); ④同其他神经精神疾病相关的基因(TCF4 、 ZNF804A、PDE10A、GRIN2B 和 ANK3)。他们的研究表明多个基因可能共同作用, 并产生多种多样的表型。在 2012年对 10 个自闭症谱系障碍(Autism spectrum disorder, ASD)核心家系(患者以及正常的父母亲)进行全基因组测序。分析发现新生突变在全基因组范围内的分布不是随机的, 而是存在一定的热点区域, 而且这些热点区域同疾病具有重要的关系。他们还发现基因组不同区域的突变速速率同基因组中的多种因素(如 CG 含量、复制时间、转录水平和敏感位点等)存在一定联系。最终他们提出了一种回归模型, 引入上面多种因素, 可以准确地计算自闭症患者在基 因组不同区域的突变速率, 为热点区域的鉴定提供参考和依据。同时他们还发现公共数据库中的致病基因, 不管是显性遗传还是隐性遗传都具有较高的突变速率。此外,在全基因组水平证明新生突变的个数与父亲的年龄存在着显著的关系, 而不是母亲的年龄。而且父亲的年龄每增加一岁, 小孩携带的平均新生突变个数将增加两个, 从而增加了患神经精神疾病的风险。科研人员通过全基因组测序不但揭示了突变发生的一些本质规律, 同时还有效地鉴定了一系列致病基因。自闭症(ASD)核心家系进行全基因组测序, 最大可能地将临床表型同遗传变异联系起来, 从新生突变、稀有遗传变异等多个角度进一步解释 ASD 的发病机理。他们的研究鉴定到 一系列与 ASD 相关的致病基因, 包括 CAPRIN1、 AFF2、VIP、SCN2A、KCNQ2 和 CHD7 等。针对 ASD 这类具有高度异质性的遗传病, 全基因组测序能够更有效地鉴定致病突变与基因。全基因组测序在神经精神疾病的运用才刚刚开始, 更多的基因组测序将被完成。总之, 全基因组测序将 在神经精神疾病中得到更为广泛的应用。 (3)在临床诊断中的应用 全基因组测序技术不仅在疾病致病基因的研究中扮演着重要的角色, 它还广泛地应用于临床上一 疾病的诊断、筛查, 为疾病的预防以及治疗提供依据。目前, 大多数的产前诊断都是基于有创性的 侵入检查手段, 如羊膜腔穿刺术、胎儿脐带血穿刺 等。这种侵入性技术对孕妇以及婴儿都存在一定的伤害, 甚至可能导致流产。侵入性产前诊断通过分析母亲血样中的胎儿 DNA, 避免了穿刺损失、 感染和流产的风险, 减轻了孕妇的精神压力, 易为广大孕妇和家属接受。目前, 全基因组测序已在无创产前诊断(Non-invasive prenatal testing, NIPT)领 域显现雏形。一方面, 可通过全基因组测序技术, 非侵入性检查染色体非整倍异常, 为 21 三体综合征、 18 三体综合征等的准确诊断提供了一个有效的解决方案。另一方面, 还可通过全基因组测序, 非侵入性诊断诸如癌症等基因异常性疾病。随着高通量测序技术的发展, 以高通量、自动化、高准确度为显著特征的第二代测序技术(NGS)已被成熟地运用于一些疾病的诊断和筛查。 4.全基因组测序数据分析面临的挑战 尽管全基因组测序能够有效地挖掘全基因组范围内的多种变异, 为遗传性疾病的研究以及临床诊断提供极大便利。但是, 由于下机数据量的巨大增加给全基因组测序的数据分析带来巨大挑战。 (1)数据存储 一个标准的全基因数据通常在100 GB左右, 再加上分析得到的 clean data、BAM 文件、SAM 文 件以及突变结果文件, 一个全基因组数据往往还需要额外 300 GB 的存储空间。例如, 100 个标本的全 基因组数据, 完成所有数据分析至少需要 30 TB 以上的存储空间。 (2)数据分析效率 如此巨大的数据 将给数据分析效率以及服务器的运算性能带来巨大 的挑战。数据分析过程中往往需要使用多线程, 同时还需要将数据分成多份同时运算, 以加快数据分 析效率。 (3)筛选致病变异 通常情况下, 通过全基 因组测序将分析得到大约 3 000 000 个 SNV 以及 InDels, 如何从如此众多的突变中, 特别是非编码区域重要调控原件中寻找致病突变成为亟待解决的问题。与此同时, 还有可能找到多个 CNV/SV, 如何确定这些变异对疾病的贡献也存在巨大挑战。 (4)CNV/SV 鉴定的准确率 尽管目前发表了多款基于全基因组测序鉴定 CNV/SV 的方法与工具, 但是准确率都不高, 同时还存在一定的假阴性。尽管如此, 在阐明疾病的发病机理时, 全基因组测序在疾 病的基因诊断和致病基因的研究中仍具有不可替代的作用。 目前, 全基因组测序技术已在疾病研究和临床 诊断中得到日益广泛的应用, 特别是对妊娠过程中母体血浆中存在游离的胎儿 DNA (Fetal DNA)通过全基因组测序进行无创产前诊断。另一方面, 随着大数据时代的来临, 为了使大数据能够得到更快的分析和更有效的利用, 全基因组测序必然向着数据的云存储、云计算等方向发展。目前已有相关工具得以开发, 利用全基因组测序进行疾病的基因诊断和致病基因的研究将是一个非常有前景的领域。可以在不损害 对重要信息的情况下, 对 BAM 文件进行大幅度压缩100倍以上, 极大地缩减了数据存储空间。最近, 基因组学重要软件SAMtools 也在基因组数据量的 快速上升的背景下进行了重要升级, 最新版本支持 压缩和全球共享数据。总而言之, 全基因组测序的时代已经到来, 将会在遗传性疾病的研究和临床诊断中发挥更重要的作用。 守护您的健康 全面满足需求 经典值得信赖 |
|
来自: 昵称62030091 > 《产前诊断》