解读遗传信息之二——基因组注释

医学abeycd 2023-02-13 发布于湖北

展开全文

测序后更重要的是解读这些序列，分析这些序列都起到了什么作用。对于人类外其他物种基因组的分析可以给予我们更多的线索。

1. 找出基因

基因：基因组中的功能原件。

用开放阅读框ORF来找到编码蛋白的基因

开放阅读框：由密码子组成的核酸序列，其中不含中止密码子（TAA/TAG/TGA）。

每一段DNA序列根据三联密码子都有6种不同的阅读方式，每条链各三种，不被终止子（红色）中断的较长区域有可能预示其编码蛋白，称为开放阅读框，此图只有5号是。

但由于基因组很大，也会有足够长但并非是基因的ORF，也会由于内含子隔开外显子的原因使得外显子区域是短的序列，导致错过。但可以根据外显子和内含子连接处的特点进行甄别。

这是一个RNA原始转录本，既有外显子又有内含子，有三个特征区域来保证去掉内含子，连接外显子。剪接供体（内含子5&amp;#39;区GU跟随几个嘌呤）、剪接受体（内含子3&amp;#39;区12-14个嘧啶跟着AG）、分支位点（剪接受体前30个碱基，富含嘧啶）

用全基因组序列比对，找出不同物种间的相似区域，尽管不一定是基因，但预示着自然选择的进化关系。

找DNA的保守序列

同源DNA片段（homologue）：两个物种的DNA片段来源于共同祖先的同一个DNA片段。如果序列并非完全相同，就需要运用适当的算法来证明同源性，这就属于生物信息学的研究内容。当这段相似的序列在许多不同物种中出现，就称其保守（conserved）。

不同物种DNA序列保守性

进化树，改图比较了13个物种的全基因组DNA序列，展现了物种间的亲缘关系。分支点代表了共同的祖先，数字表明了距今时间（单位，百万年）。

人类与其他脊椎动物的DNA序列比对结果。第一列是全基因组DNA序列结果，第二列是编码蛋白的序列比对结果。从表中看出，人与猩猩和猴子最相近，经过400百万年的时间后，人类中只保有鱼类DNA的2%，而编码蛋白的序列保守性却相当高，人类保有了鱼类超过82%的编码蛋白序列。

具有功能的序列会明显影响表型，因此不易积累突变，导致该进化慢，而非功能序列就并非如此，因此通过分析保守性，可以区分出功能性和非功能性的DNA序列。

直接定位转录区，是在基因组中更直接找到基因的方法。

可以通过分析转录出的RNA序列来得到对应的DNA序列，rRNA较易分析，但是由于含量低(mRNA仅占细胞总RNA的1-5%，其他都是rRNA和tRNA)，直接分析mRNA就很难，需要先将其转化为DNA，再用更成熟的DNA分析方法来测序。这种从mRNA得到DNA的灵感是源自反转录病毒（如HIV）通过反转录酶的作用得到cDNA。

cDNA，现指以RNA为模板获得的单链或双链DNA。

建立cDNA文库

1. 从细胞中获得mRNA

2. 真核生物的mRNA都具有poly A尾结构，只需用含20个T的DNA片段作为引物就可以结合，在反转录酶作用下合成所有mRNA的cDNA。

3. 通过升温使cDNA和mRNA分开，再用RNase降解掉原始mRNA。在cDNA 3&amp;#39;端会自动回折形成发卡环充当合成第二条链的引物。

4. 第二链合成，同时用S1 nuclease将发卡环去掉。

5. 用限制酶和连接酶将cDNA插入到合适的载体，再导入细胞，就可以得到cDNA文库。该cDNA文库中只含有外显子，并且细胞克隆的多少与mRNA表达量相关。

对比全基因组文库和cDNA文库

通过比对cDNA序列和全基因组序列，就可以对全基因组的基因位置，外显子，内含子进行注释了。

一段随机的基因组100kb DNA片段，包含3个基因

所有的细胞组织产生的基因组文库都是相同的，而且克隆的数量是基本一致的。

不同组织细胞产生的cDNA文库是具有组织细胞特异性的。

cDNA和可变剪切

可变剪切指一个原始的转录本，可以有多种剪切方式，最终导致一个基因可以产生多种不同的蛋白质。

重链抗体原始转录本有两种剪切方式，一种产生膜结合抗体，另一种产生分泌抗体。

该图展示了一个基因中桔色数字是外显子编码蛋白，红色是内含子，在不同的组织中该基因会呈现不同的剪切方式，最终得到不同的蛋白质。

2. 基因组的结构和进化

基因在不同物种基因组中的排列并非一致

人类基因组中仅发现了27000个基因，大约19000个基因是编码蛋白的，其余的用于转录为rRNA和tRNA，还有剪切体中的snRNA。
与低等生物比，这个基因数目比预期小很多，因此，基因的机制而非数目才是早就多细胞动物复杂性的本质。
在进化过程中，基因组长度的变化比起基因数目的变化要明显的多，这是由于外显子组只占有全基因组的1.5-2%，而其余的绝大多数序列都是内含子、基因间序列、转座子、和染色体结构区如着丝粒和端粒。
物种间绝大多数的基因组差异，都是发生在非编码区的扩展和压缩，而非基因数目的变化。例如，超过半数的人类基因组是转座子的构成部分，而转座子被视为一种寄生DNA，利用我们人类的基因组进行自我繁殖。另外，人类基因组中也含有大量的简单重复序列（CGCGCGCGCG）

大多数基因的转录方向是随机的。

相邻的基因可以同向也可逆向，即可朝向染色体的端粒也可朝向着丝粒。有时RNA聚合酶用DNA正义链转录，有时用反义链。只对少数基因如血红素基因，其转录都是同向的。

箭头指示转录方向

基因密度变化不定

人类中，平均大约100kb就有一个基因，人类中基因密度最高的地方是6号染色体，在700kb的区域含有60个基因，编码不同功能的组织相容性蛋白。

该区域有60个基因（彩色矩形）箭头表示他们不同的转录方向。

与之相对的就是基因沙漠区域，几乎不含有基因。人类基因组中最大的基因沙漠区就是5号染色体的一段5.1Mb区域，其上没有一个基因。

还有一些称之为大基因，转录本一般超过500kb，人类中最大的基因是抗肌萎缩蛋白基因dystrophin，超过2.3 Mb，其含有很长的内含子。大基因的转录本一般在快速分裂的细胞中来不及完成，因此大基因基本存在于不分离的细胞中，如神经元。

进化过程中的基因组改变

外显子常常编码互不相连的蛋白结构域，作为一个独立功能单元。与由不同功能车厢组成的火车相似，许多基因也是由许多编码不同蛋白结构域的外显子组成，在进化过程中，这些外显子的转移、增加或者删除都会导致一个新的蛋白结构域产生，从而产生新的作用。

外显子的转移会产生一个新的基因，从而产生新的蛋白结构

基因家族

基因家族是指具有相似序列和功能的一类基因，这类基因在整个基因组中是很多的。例如血红蛋白基因家族，免疫球蛋白（抗体）基因家族，嗅觉受体基因家族。这些基因可能会聚集在一条染色体上，也可能弥散在多条染色体。

α球蛋白位点是由5个基因（紫色）构成的，黑色的是假基因，红色LCR是控制域。

β球蛋白位点由5个基因（绿色）构成，棕色是假基因。

通过生信分析，基因家族的基因们是来自一个祖基因，在进化过程中，由基因复制和各自突变形成的。

此图展示了人类球蛋白基因家族的来历正式经由一系列的复制和突变积累而来。

直系同源基因Orthologous gene：不同物种的基因，但来源于同一个祖先基因。一般保有同样的功能。
旁系同源基因Paralogous gene：由基因复制产生，通常用来描述同一个家族中的基因数目。
同源性homology：是一个统称，具有进化相关性的所有相似序列都具有同源性。

直系同源基因来自物种的形成，旁系同源基因来自基因复制，所有图中的基因都具有同源性。

假基因pseudogene：序列类似基因，但无作用的序列。许多高等动物基因家族中都有。

新基因（de novo genes）

没有同源基因的称为新基因，例如人类基因组中就有数百个人类特有的基因。通常新基因都是年轻的基因，由祖先基因间的序列进化而来，有两种生发机制，一是获得ATG启动子，二是原来的基因间ORF具有了转录调节序列。正因如此，通常新基因更小也更简单。

获得ATG

获得转录激活序列

染色体重排

在人类和老鼠的基因组中，不仅单个基因序列有很高的相似性，基因在染色体上的顺序也有极高相似度。这些在染色体上高相似度的区块称为同线区块（syntenic blocks), 人类和老鼠比对后，大约有180个这样的区块，其中的基因顺序高度相似，但是这些区块在染色体上的位置在两个物种间是绝然不同的。这就好比将人类的基因组随机切成180份，然后再随机排列组合，就成了老鼠的基因组。

不同颜色代表特定的老鼠染色体，他们在人类的染色体中也是成块出现的。

这种染色体的切割再组装是伴随着物种进化过程的，称为染色体重组（chromosomal rearrangements）。一类称为易位（translocation）是将一段染色体连接到非同源染色体上，另一类称为反转（inversions）是将染色体一段旋转180度再连接起来。物种间的进化关系越远，同线性区块就越少。

仅少数基因可以对表型有明显影响

尽管人类的基因数量只有27000个，蛋白的类型却远远超出。导致这个现象的原因就是组合扩增，即不同水平的DNA序列和RNA序列的组合可以产生很多中可能性。另外，蛋白质还会发生翻译后的修饰，也会导致种类的增多。

DNA层面的组合策略

人类T细胞受体基因家族有45个功能变量区段V,2个功能多样区段D,11个功能连接区段J，2个恒定区段C，理论上，他们随机组合可以产生45*2*11=990种DNA。这样有重要的生物学意义，T细胞受体蛋白是与外源蛋白——抗原结合的部分，通过多种不同的组合，才可以产生能与抗原结合更好的受体，增强机体免疫力。

RNA层面的组合策略

一种是可变剪接，另一种是采用同一个基因的不同启动子来转录。

这是人类轴突蛋白，由三个基因组成，每个基因有两个启动子，和5个可发生可变剪接的区域。蓝色框代表了发生可变剪接的外显子，数字表示了外显子。这样，总共能产生2000多个不同的mRNA。这些不同的mRNA在不同的组织和发育时期发生变化，预示着重要的作用。

蛋白翻译后修饰

人类蛋白可以被超过400种化学反应修饰来改变其功能，例如蛋白质剪切和磷酸化。因此，一个人类的细胞一般含有50000个不同的mRNA，但是会有大概一百万个不同的蛋白质。

酶切可以移除甲基团，切割成多个小肽，亦可以切割片段。

通过丝氨酸磷酸化，苏氨酸糖基化，甘氨酸脂化，赖氨酸泛素化，添加相应基团来改变蛋白的结构活性和在细胞种的位置。

3. 生物信息学

用二进制数值00，01，10，11分别代表ACGT，用计算机来储存和处理遗传信息。

1982年，NIH（national institutes of health），建立了GenBank，到目前为止仍然是使用最多的在线序列数据库。到2016年，已经包含300，000，000，000的注释完成的核酸序列。人们只要能够上网，就能获取这些数据。

生物信息学使基因组可视化，并提供了分析的工具。

物种的参考序列（Refseq）

Refseq：是一个物种唯一的，完全的，带有注释的基因组。它由NCBI来保持。该基因组不必来源于单一个体，也不需要含有该物种的多个成员的遗传变体，但具有强制性，并且是被很好的识别出来的一个范例，这样才能使该物种中新检测出的序列可以与之比对。
NCBI，建于1988年，监管GenBank和其他生物信息数据库，并开发相应的生信工具来分析和传播这些信息。

使基因和基因组可视化