1990年,著名的人类基因组测序计划(Human Genome Project,HGP)正式启动,从此揭开了基因组时代的序幕。截至2006年8月,美国国立生物技术信息中心(NCBI,National Center for Biotechnology Information)收录的已完成基因组测序的物种数目为389个,正在进行序列拼接且测序完成的有341个,另外还有463个物种正在进行测序。 基因组测序的完成,为我们提供了生命的第一套密码。从基因组数据中提取蕴藏的大量信息,阐明千变万化的生命现象,是生物学家所面临的更大挑战。众所周知,生命活动的基本单位是细胞,人体中数百种细胞分工合作,形成各种组织和器官,最终组合成一个完整的个体。 生物体中,每个细胞内都有一套完整的基因组,为实现正常生物功能,生物体在不同环境、不同发育阶段,选择不同基因适度表达。即使是最简单的生物也有数百个基因,这些基因遵循一定的表达调控机制,依照特定的时空顺序进行有序的表达。在一个特定的时刻,一个特定细胞中所有表达基因的组合,最终限定了这个细胞的生物学功能。转录组学(Transcriptomics)着重研究高度复杂精确的基因表达调控过程。通过对不同细胞类型之间表达模式差异的研究,转录组学试图从动态的角度刻画出一幅生命活动的“动画”。 随着基因组数据的增长,DNA芯片(DNA Chip)技术得到广泛应用。DNA芯片也称基因芯片(Gene Chip)、生物芯片(Biochip)或微阵列(Microarray)。20世纪90年代中叶DNA芯片技术出现前,传统分子生物学技术通常只能同时对少数几个基因的表达情况进行研究。决定生物形态或某种生物现象通常是成百上千的基因共同作用的结果,作为一种能够获得大量基因表达图谱的高通量技术,DNA芯片应运而生。 一、 DNA芯片原理DNA芯片的基本原理与生物学中Southern杂交等实验技术相似,都是利用DNA双螺旋序列的互补性,即两条寡聚核苷酸链以碱基之间形成氢键配对(A与T配对,形成两个氢键;G与C配对,形成三个氢键)。DNA芯片通常以尼龙膜、玻璃、塑料、硅片等为基质材料,固着特定序列DNA单链探针(Oligo),并与被检测序列单链cDNA序列互补结合(通常称杂交)。被检测序列用生物素或荧光染料标记,通过荧光染料信号强度,可推算每个探针对应的样品量。一张DNA芯片,可固着成千上万个探针,具体数目则取决于芯片设计和制备方法。 根据制备方法,DNA芯片主要可以分成三类: 1) 利用机械装置将cDNA序列或者其他PCR产物点在芯片上作为探针; 2) 利用机械装置将事先合成的寡核苷酸链序列点在芯片上作为探针; 3) 不事先合成寡核苷酸链,而直接在芯片上通过原位合成技术同时合成所有探针。 后两种方法,需要综合考虑探针的灵敏性(Sensitivity)和特异性(Specificity),避免非特异性杂交干扰结果;此外还需要考虑GC含量以及退火反应温度,以保证整个芯片可在相同条件下进行杂交实验,所有探针都有比较一致的杂交效率。不同方法生产的芯片探针长度不一,Affymetrix公司的芯片采用短探针,只有25个核苷酸;而NimbleGen公司所用探针相对较长,可达70个核苷酸。一般来说原位合成芯片可在同一张芯片内容纳更多探针。 除Affymetrix公司生产的芯片外,其他芯片多采用双色杂交系统,即使用Cy5(红)和Cy3(绿)两种染料分别标记所比较两种样品的cDNA序列,然后杂交至同一芯片。实验结果扫描输入计算机,通过染料荧光强度,可间接比较两种样品表达量高低。在一张芯片同时杂交两种样本,可减少用不同芯片所带来的系统误差。 二、 DNA芯片的应用(一)传统基因表达芯片传统基因芯片常用于检测一组细胞中全部基因在特定时刻的表达谱。换言之,基因表达产生的mRNA含量,就是DNA芯片要检测的指标。通过将提取的总mRNA反转录为cDNA并杂交到具有不同基因探针的DNA芯片上,就可得到不同基因在不同条件、不同发育阶段下的表达情况。 通过比较不同条件下的基因表达谱差异,可发现与某种疾病或者特殊处理相关的特定类型基因,并可进一步用于临床诊断或基因工程等。目前,基因表达芯片已广泛用于各个方面,如在医学研究中比较肿瘤细胞与正常细胞间、动物服用药物前后等不同情况下基因表达差异,在植物学研究中研究抗旱、抗病种系与普通种系的基因表达差异等。以双色DNA芯片系统进行基因表达量检测实验为例,一般DNA芯片实验步骤包括以下几步。 1) 准备杂交样品,一般分别从样品细胞和对照细胞中提取。 2) 提取的mRNA通过反转录得到更稳定的cDNA,这个过程中分别对样品细胞和对照细胞加入不同荧光染料(双色芯片实验)或者生物素(单色芯片实验)进行标记。 3) 两种样品同时杂交到制作好的芯片上,芯片上每个点都与分别标记有两种不同荧光的样品竞争结合。 4) 通过激光扫描仪器可以获得每个点的荧光强度,荧光强度范围为0~65536(216)。这个步骤中应注意实际荧光强度测量值是可以调节的,应该有意识控制大多数样品荧光强度处在总体范围中间偏上位置,太高易产生太多过饱和值,强度超过上限(通常为65536),扫描仪器无法测量;太低则容易受随机误差干扰。例如,若随机误差强度为50,则信号强度为100,则信噪比过低;反之,若信号强度为10000,信噪比大大加强。 5) 整合两种不同颜色强度可得到虚拟图谱,绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达,如图1所示。 图1右下角为一张DNA芯片扫描结果,左上角为局部放大。绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达。 需要注意的是杂交强度不仅代表基因表达水平实际差异,还可能受非特异性杂交影响。为尽量排除这种因素,Affymetirx芯片中设计了不匹配核苷酸探针作矫正依据。此外,染料效率不同带来的系统误差需用均一化方法进行矫正。 DNA芯片作为一种高通量实验技术,不可避免地存在较大误差,也难以像传统生物学实验那样给出确定结果。因而,最初DNA芯片技术主要用于获得大规模基因表达谱。然而,mRNA表达水平仅仅是基因调控的结果,没有代谢途径等信息,只能得到一个表达谱,而无法解释为什么会有这样的表达谱。比如同样是在光照条件下高表达基因,有些基因可能处于光信号传导通路上游,直接受光诱导;而有些基因则可能由联系光通路以及其他代谢途径的关键转录因子激活。这种信息必须结合其他相关知识及实验才能获得。 随着基因组测序计划进展,基因注释技术不断提高,以及生物实验所积累的知识不断增加,DNA芯片得到的结果可以从全局角度分析特定生命过程中的问题。例如,通过聚类分析(Clustering)可以把具有相似表达趋势的基因归类,再结合基因注释系统(Gene Ontology)和已知功能基因等注释信息对每个类别进行总结,探讨这种共表达现象在生物学上的意义,进而可以进行代谢途径分析,从全局观点和系统生物学视角探索基因转录调控乃至生命过程机理。 DNA芯片高通量的特点,同时也意味着相对高的误差。所以一般来说,需要重复多次实验才能通过统计学方法得到比较接近真实的结果。但是,目前DNA芯片实验成本还相对较高,对实验条件要求也很高,因而如何通过改进统计学模型和方法提高DNA芯片数据处理质量就显得更为必要。 (二)其他类型芯片及应用除了上述专用于基因表达分析的芯片外,近年来还有许多其他类型的芯片出现,如覆盖程度大大增加的覆瓦式芯片(Tiling Array)。与传统基因表达芯片不同,覆瓦式芯片的探针选择不再局限于基因编码区,而是基于全基因组序列,从头至尾按一定间隔选择。 这种芯片的杂交以及扫描与上述传统芯片原理相同,但应用却不完全一样。这种芯片也可用于基因表达分析,但不再局限于比较基因组注释得到的基因表达水平差异,而主要用于寻找普通基因组注释软件无法预测的新基因以及一些非编码RNA区域检测,对基因组注释可以发挥重要作用。其次,由于这种芯片对基因组覆盖程度很高,可用于转录因子在全基因组结合位点寻找、组蛋白修饰、DNA甲基化等表观遗传调控特征分布,以及单核苷酸多态性研究等多个领域。 三、 芯片数据分析(一)芯片分析概述随着基因芯片技术的普及,基因表达数据大量产生,如何充分利用这些数据并从中提取有用的生物学知识,是生物信息学所面临的一个迫切问题。简要来说,生物芯片数据分析流程大体可分成以下几个阶段。 1.扫描与图像识别 一张芯片完成杂交实验,经扫描仪读取后生成图形文件,经过划格(Griding)、确定杂交点范围(Spot Identifying)、过滤背景噪音(Noise Filtering)等图像识别过程,才能最终得到基因表达的荧光信号强度值,并以列表形式输出。 2.数据预处理 由于杂交荧光标记效率或检出率不平衡、位置效应等多种因素,原始提取信号需要进行均衡和修正处理后,才能进一步分析。这一步通常需要先进行背景校正(Background Correction),去除不均匀背景光强影响,然后再进行归一化(Normalization)处理。 一般来说,对于单色DNA芯片而言,这一步相对容易;而双色DNA芯片则需要考虑不同染料(Cy3、Cy5)对于mRNA染色效率的差异。 3.数据分析 在前一步基础上,需要根据基因表达状况与事先设定的条件,对基因进行分类处理。具体来说,又可分为寻找差异表达基因和寻找共表达基因两种。 所谓差异表达基因(Differen-tially Expressed Genes),是指在预先设定的不同实验条件下,表达量出现显著差异的基因。而共表达基因(Co-expressed Genes)则是指在不同实验条件下,表达模式或表达量相似的基因。 实践中,在没有先验知识的情况下,一般是通过聚类来寻找这些基因。如果事先已经有了一组明确的训练集,也可以通过分类来寻找与这组基因具有类似表达模式的其他基因。 所谓聚类,也称无监督分类(Un-supervised Classification),是指在未设定先验类别的情况下,根据表达模式或表达值相似程度,将基因划分为若干组。而分类则是指在给定已经先验标明类别(如肿瘤、健康)训练集前提下,根据表达模式或表达值相似程度,将被检基因或样本归入预先设定的类别中。 为确保实验结果可靠性,实际生物学研究中,经常采用RT-PCR之类低通量表达分析手段,对选择出来的基因进行进一步验证。 值得指出的是,以上给出的只是一个大体流程。实际数据分析过程中,经常需要根据前一步分析结果和实际生物学问题来制定下一阶段分析策略。同时,考虑到基因表达动态性和时间相关性,即使对于同一种细胞类型,不同条件下转录表达情况也会有差异。因此,分析基因表达数据时,必须同时参考具体实验条件的描述,通常称这些描述实验条件的数据为元数据(Meta-data)。典型的元数据包括实验方案、实验材料、图像处理方法和数据归一化方法等信息。 (二)芯片分析软件包简介芯片分析过程繁复,且涉及到复杂的统计计算,需要综合运用多种数学与计算机工具。为方便生物学家研究,相关研究人员已开发了许多专用芯片分析软件。 1.Bioconductor Bioconductor是基于统计学软件包R的芯片分析软件包,其主要目的是为生物信息学研究人员提供一组表达数据分析工具。Bioconductor的开发起始于2001年,主要由美国Fred Hutchinson肿瘤研究中心、哈佛医学院以及哈佛公共健康研究院开发。 Bioconductor可支持几乎所有主流芯片数据格式,包括Affymetrix公司的商业化单色寡核苷酸芯片,以及用户自己定制的双色cDNA芯片。Bioconductor通过若干子软件包提供多种主流芯片分析方法,可用于数据预处理、差异表达基因识别以及聚类等常用数据分析。除用于芯片数据分析以外,Bioconductor还可用于SAGE、CGHArray以及SNPArray等其他表达数据分析。 Bioconductor的源代码完全开放,用户可以方便查看以及修改现有算法及其具体实现模块。因此,Bioconductor也广泛用作其他芯片分析工具的后台支持。 2.dChip dChip(DNA-Chip Analyzer)由哈佛大学生物统计系Cheng Li、Wing Wong等联合开发,是综合性芯片分析软件。dChip运行在Windows平台上,包括以下功能: 1) 针对Affymetrix芯片、基于MBEI(Model-based expression indexes)的数据预处理及归一化; 2) 基于样本比较差异基因识别; 3)主成分分析(Principal Component Analysis,PCA); 4) 方差分析(Analysis of Variable,ANOVA); 5) 时间序列(Time Series)分析; 6) 层次聚类(Hierarchical Clustering); 7) SNP array的LOH(Loss-of-heterzygosity)、拷贝数(Copy Number)分析; 8) 连锁分析(Linkage Analysis)。 dChip基于Windows的图形用户界面开发,与Bioconductor的命令行界面相比,更便于初学者使用,但它的定制性较弱,不利于进行二次开发。 最初dChip主要用于Affymetrix的单色寡核苷酸芯片分析,但在最新的版本中(dChip 2006)也开始对双色cDNA芯片的数据分析提供支持。 3.TM4 TM4是一组由TIGR公司开发的生物芯片分析工具包,可同时支持双色和单色 cDNA芯片,以及Affymetrix的单色寡核苷酸芯片分析。TM4提供了对于芯片实验流程的全面支持,大大方便了用户使用。 TM4主要由四个模块和一个后台数据库组成: 1) 芯片数据管理工具Microarray Data Manager (MADAM),负责为用户提供统一的操作界面,管理实验流程及产生的数据。为便于数据交换,MADAM将所有数据按照MIAME格式统一存放在后台MySQL数据库中。 2) 图像分析软件Spotfinder负责从扫描得到的图像中提取基因表达荧光信号强度值。Spotfinder支持多种扫描仪生成的图像文件,同时提供半自动化划格(Griding)及杂交点识别(Spot Identifying)功能。 3) MIDAS(Microarray Data Analysis System)是数据预处理模块,支持LOWESS、Iterative Linear Regression、Slice Analysis等多种常用归一化算法。同时,MIDAS还支持通过标准的t-检验、MAANOVA、SAM等方法寻找差异表达基因。 4) MeV(MultiExperiment Viewer)用来进行聚类和分类,以及结果的可视化显示。目前支持包括层次聚类(Hierarchical clustering)、K-mean聚类、自组织图聚类(Self-Organizing Map,SOM)等多种聚类算法,以及支持向量机(Support Vector Machine,SVM)等多种分类算法。 4.BASE BASE是一个基于Web的芯片数据管理与分析平台。与上述主要基于单机的分析软件包不同,BASE的设计目标是提供一个可以供多人协同工作的平台。因此,BASE在数据管理方面投入了很多精力,将芯片数据管理与芯片数据注释融为一体,用户可以通过浏览器方便地查询实验进度、观察实验结果,并及时和其他相关人员分享信息。 同时,BASE也提供了一组简单的工具,供研究人员对数据进行一些快速分析。BASE中包含了一个基于Java Applet的三维可视化工具,可供用户从多个角度查看数据分析结果。 5.Matlab Bioinformatics Toolbox Matlab是经典的科学计算软件,由美国MathWorks公司开发。它集数值运算、符号运算及图形处理于一体,广泛应用于工程和科学计算。类似于R,Matlab的核心部分注重提供一个快速、高效且稳定的平台支持,通过针对不同领域与应用编写特定工具(Toolbox),满足不同客户的专门需求。最新版Matlab 7附带Bioinformatics Toolbox,是Matlab第一个专门针对生物信息应用而开发的工具箱。该工具箱为芯片数据处理提供了归一化和聚类分析,包括层次聚类和K-mean聚类。此外,通过与统计工具箱配合使用,用户还可通过经典的t-检验及ANOVA等方法寻找差异表达基因。与其他专业软件相比,目前该工具箱芯片数据分析功能还很有限,特别是很多2003年以来发展的新方法都没有包括。 除了Matlab Bioinformatics Toolbox以外,用于学术研究目的时,上述软件都可以免费获得。 四、 小结随着大规模基因组测序的完成,生物学家开始从相对静态的基因组研究转向更为动态的基因表达过程研究。通过对不同细胞类型之间表达模式差异的研究,可以从动态的角度刻画出一幅生命活动的“动画”,来进一步探索生命的奥秘。 生物科技的迅猛发展,DNA芯片技术不断完善,使科学家可以从基因组水平对全体基因的表达谱进行分析,并进而探索转录因子的结合位点、研究基因组层面的DNA甲基化、组蛋白修饰等表观遗传学(Epigenetics)等新兴的表达调控方式提供了可能。然而,随着DNA芯片数据的迅速增长,只有善用计算机这个高效的工具,协助研究人员对数据进行分析,从中提取信息并最终转化为知识,才能适应后基因组时代的研究现状。DNA芯片数据处理和知识挖掘,也必然依赖于计算机科学技术的发展及其在生物信息学领域中的应用。 |
|