对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。网址如下 https://www./
官网提供了GTF和GFF3两种格式的文件以供下载,示意如下 每种类型的文件提供了3种区域 CHR ALL PRI
对于基因组而言,包括了chromsome ,unplaced_scaffold , alt_scaffold , patch 等序列,这些序列上都存在对应的基因。CHR 指的是染色体级别的信息,包括细胞核内的染色体和线粒体;ALL 包括所有的序列,PRI 只包含染色体和unplaced_scaffold序列上的信息。官方推荐,使用CHR 级别的信息。 文件中采用level 来表示注释信息的可信度,目前共包括3个level。 level1 代表可靠的注释信息,有直接的实验证据支持的注释信息;level2 代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3 指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。
如果想要得到更高可信度的注释信息,可以根据level进行过滤,只选择1和2这两个层级的注释信息。 文件中共包含的基因和转录本的个数统计如下 1. human2. mouse在文件中,会给出基因或者转录本的类型信息,解释如下 protein_coding 蛋白编码基因 lincRNA 位于基因间区的长链非编码RNA non_coding 文献中证实的非编码RNA
完整的基因类型信息详见以下链接 https://www./gencode_biotypes.html
|