【转录组测序分析专题2】gff和gtf格式介绍 【转录组测序分析专题】将要讲解流程的内容如下: fq和fq见微信文章:【转录组测序分析专题1】各种数据格式介绍 此次介绍gff和gtf文件,如有错误,还请各位大侠批评指正! 在介绍之前,先抛出几个问题: l GFF文件与GTF文件有什么区别么? l 他们之间是否可以转换? l 都在什么时候用这两个文件呢? l 在分析之前为啥要先介绍这两个文件呢? 人类参考基因组GFF与GTF下载连接(我这里一般分析的时候用的都是ensembl数据库GRCh38版本的,后续的文章会提到不同数据库的GFF文件以及版本不同的问题): GFF: ftp://ftp./pub/release-81/gff3/homo_sapiens/ GTF: ftp://ftp./pub/release-81/gtf/homo_sapiens/ 每个目录下都附有很详细的readme介绍,大家也可以自己仔细研究一下哦~此外还有官网说明,更加详细: https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md 一,GFF文件介绍 GFF,全称为Generic Feature Format,主要用来描述基因的结构与功能信息,对基因组进行注释。现在流行的版本为GFF3。 1,格式文件为文本文件,分为9列,以TAB分开。控制符使用RFC 3986 Percent-Encoding 编码。比如:%20 代表着ASCII的空格。 2,GFF允许使用#作为注释符号,例如很多GFF文件都会使用如下的两行来表明其版本其创建日期: ##gff-version 3 ##created 2018/09/12 3,9列文件依次是:
第九列的详解:
敲黑板,重点来了!!! 说了这么多大家可能会觉得很抽象,下面我们使用实际例子来说一下这个格式。举例:编码蛋白基因EDEN在基因组上的注释结果与信息使用GFF文件展示: 从图片中可以看出: 这个基因的名字为EDEN,位置从1000 到9000。它编码生成了三个可变剪切转录本,分别为EDEN.1,EDEN.2 和EDEN.3,而EDEN.3有两个可选翻译起始位点,生成两个编码蛋白序列CDS1和CDS2。位于EDEN.1和 EDEN2上游50bp的转录起始位点还有一个转录因子结合位点。 这些信息使用GFF表示如下: 二,GTF文件 GTF全称为gene transfer format,主要是用来对基因进行注释,前八个字段与GFF相同(有一些小的差别),重点在第九列的不同。 两种文件差异比较:
好了写到这里,我们回头看之前的几个问题: GFF文件与GTF文件有什么区别么? 答:前8列都相同,第九列标签与值之间GFF以=分开,而GTF使用空格分开。 他们之间是否可以转换? 答:目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread。 都在什么时候用这两个文件呢? 答:这里说一种用途。比如,遇到过很多同学问,我想查找一个基因在基因组上的位置信息,可能有人会告诉你去UCSC网站上输入基因symbol或者ID之类的就可以得到了,其实使用GFF文件也是可以的,并且还可以批量哦。 在分析之前为啥要先介绍这两个文件呢? 答:因为这些都是在要开始分析之前要准备好的配置文件啊,好像说了废话,哈哈哈。 留下一个问题: 各大数据库的基因注释文件都有什么不一样?我们在分析的时候该怎么选择?比如常见的数据库有: Ensembl:http://asia./index.html UCSC:http://genome./ RefSeq:https://www.ncbi.nlm./refseq/ GENCODE:https://www./ 参考资料 https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md http:///wiki/GFF#GFF3 http://fhqdddddd.blog.163.com/blog/static/186991542014228112825912/ |
|
来自: 祥强6csdm0n3vs > 《待分类》