测序后更重要的是解读这些序列,分析这些序列都起到了什么作用。对于人类外其他物种基因组的分析可以给予我们更多的线索。 1. 找出基因基因:基因组中的功能原件。 用开放阅读框ORF来找到编码蛋白的基因 开放阅读框:由密码子组成的核酸序列,其中不含中止密码子(TAA/TAG/TGA)。
用全基因组序列比对,找出不同物种间的相似区域,尽管不一定是基因,但预示着自然选择的进化关系。
同源DNA片段(homologue):两个物种的DNA片段来源于共同祖先的同一个DNA片段。如果序列并非完全相同,就需要运用适当的算法来证明同源性,这就属于生物信息学的研究内容。当这段相似的序列在许多不同物种中出现,就称其保守(conserved)。
直接定位转录区,是在基因组中更直接找到基因的方法。 可以通过分析转录出的RNA序列来得到对应的DNA序列,rRNA较易分析,但是由于含量低(mRNA仅占细胞总RNA的1-5%,其他都是rRNA和tRNA),直接分析mRNA就很难,需要先将其转化为DNA,再用更成熟的DNA分析方法来测序。这种从mRNA得到DNA的灵感是源自反转录病毒(如HIV)通过反转录酶的作用得到cDNA。 cDNA,现指以RNA为模板获得的单链或双链DNA。
通过比对cDNA序列和全基因组序列,就可以对全基因组的基因位置,外显子,内含子进行注释了。
可变剪切指一个原始的转录本,可以有多种剪切方式,最终导致一个基因可以产生多种不同的蛋白质。 2. 基因组的结构和进化基因在不同物种基因组中的排列并非一致 人类基因组中仅发现了27000个基因,大约19000个基因是编码蛋白的,其余的用于转录为rRNA和tRNA,还有剪切体中的snRNA。
相邻的基因可以同向也可逆向,即可朝向染色体的端粒也可朝向着丝粒。有时RNA聚合酶用DNA正义链转录,有时用反义链。只对少数基因如血红素基因,其转录都是同向的。
人类中,平均大约100kb就有一个基因,人类中基因密度最高的地方是6号染色体,在700kb的区域含有60个基因,编码不同功能的组织相容性蛋白。 与之相对的就是基因沙漠区域,几乎不含有基因。人类基因组中最大的基因沙漠区就是5号染色体的一段5.1Mb区域,其上没有一个基因。 还有一些称之为大基因,转录本一般超过500kb,人类中最大的基因是抗肌萎缩蛋白基因dystrophin,超过2.3 Mb,其含有很长的内含子。大基因的转录本一般在快速分裂的细胞中来不及完成,因此大基因基本存在于不分离的细胞中,如神经元。 进化过程中的基因组改变
基因家族 基因家族是指具有相似序列和功能的一类基因,这类基因在整个基因组中是很多的。例如血红蛋白基因家族,免疫球蛋白(抗体)基因家族,嗅觉受体基因家族。这些基因可能会聚集在一条染色体上,也可能弥散在多条染色体。 通过生信分析,基因家族的基因们是来自一个祖基因,在进化过程中,由基因复制和各自突变形成的。 直系同源基因Orthologous gene:不同物种的基因,但来源于同一个祖先基因。一般保有同样的功能。 假基因pseudogene:序列类似基因,但无作用的序列。许多高等动物基因家族中都有。 新基因(de novo genes) 没有同源基因的称为新基因,例如人类基因组中就有数百个人类特有的基因。通常新基因都是年轻的基因,由祖先基因间的序列进化而来,有两种生发机制,一是获得ATG启动子,二是原来的基因间ORF具有了转录调节序列。正因如此,通常新基因更小也更简单。 染色体重排 在人类和老鼠的基因组中,不仅单个基因序列有很高的相似性,基因在染色体上的顺序也有极高相似度。这些在染色体上高相似度的区块称为同线区块(syntenic blocks), 人类和老鼠比对后,大约有180个这样的区块,其中的基因顺序高度相似,但是这些区块在染色体上的位置在两个物种间是绝然不同的。这就好比将人类的基因组随机切成180份,然后再随机排列组合,就成了老鼠的基因组。 这种染色体的切割再组装是伴随着物种进化过程的,称为染色体重组(chromosomal rearrangements)。一类称为易位(translocation)是将一段染色体连接到非同源染色体上,另一类称为反转(inversions)是将染色体一段旋转180度再连接起来。物种间的进化关系越远,同线性区块就越少。
尽管人类的基因数量只有27000个,蛋白的类型却远远超出。导致这个现象的原因就是组合扩增,即不同水平的DNA序列和RNA序列的组合可以产生很多中可能性。另外,蛋白质还会发生翻译后的修饰,也会导致种类的增多。 DNA层面的组合策略 RNA层面的组合策略 一种是可变剪接,另一种是采用同一个基因的不同启动子来转录。 蛋白翻译后修饰 人类蛋白可以被超过400种化学反应修饰来改变其功能,例如蛋白质剪切和磷酸化。因此,一个人类的细胞一般含有50000个不同的mRNA,但是会有大概一百万个不同的蛋白质。 3. 生物信息学用二进制数值00,01,10,11分别代表ACGT,用计算机来储存和处理遗传信息。 1982年,NIH(national institutes of health),建立了GenBank,到目前为止仍然是使用最多的在线序列数据库。到2016年,已经包含300,000,000,000的注释完成的核酸序列。人们只要能够上网,就能获取这些数据。
物种的参考序列(Refseq) Refseq:是一个物种唯一的,完全的,带有注释的基因组。它由NCBI来保持。该基因组不必来源于单一个体,也不需要含有该物种的多个成员的遗传变体,但具有强制性,并且是被很好的识别出来的一个范例,这样才能使该物种中新检测出的序列可以与之比对。 使基因和基因组可视化 UCSC Genome Browser (UCSC Genome Browser Home) 使RefSeq可视化,展示其注释,外显子,内含子,编码蛋白区域等特征。 用BLAST寻找同源序列 BLAST (Basic Local Alignment Search Tool),使NCBI开发的一个程序 |
|