背景介绍 高通量、全基因组的DNA芯片已经成为生物领域十分有用的工具。然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用。 基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从中寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学的或功能层面上的意义。 基本的芯片实验中,样本mRNA首先被反转录成cDNA(在过程中同时被荧光标记),后与芯片上的核酸探针混合,互补杂交的cDNA就结合到芯片上,而未被杂交的样本被洗脱掉。 芯片被一个荧光扫描仪扫描后,芯片上某个位置探针结合上了样本中互补的核酸,就在该位置显出了一个荧光点,此位置提示基因的身份,而荧光强度则提示了原始样本中该mRNA水平的高低。芯片技术不只用于检测基因表达,也可以用于检测单核苷酸多态性等。 这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较,有助于减少数据变异性,提高组间差异表达分析的准确性,同时减少了芯片的使用量,节约了成本。但由于使用这种技术已经确定好了实验设计,就无法与其他样本进行比较了。 基因芯片分析 软件介绍 基因芯片分析一般对硬件要求不高,普通的计算机就能运行,但如果处理较多的数据量时,建议提高内存,一般拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。 数据下载 一般来说要比较和整合不同实验室和不同实验的数据是比较困难的。因此,科学家成立了一个联盟(MGED学会)来规范化芯片数据的输出和注释,促进数据共享和统一数据库的建立。 指定的标准化规则称为MIAME,权威期刊一般只接受遵循MIAME规则的芯片数据论文。NCBI的GEO和EBI的ArrayExpress是目前最大的公开资源数据库,用于存储和发布与MIAME相容的芯片数据。 赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。 |
|