之前的文章中介绍了annovar软件的使用,除了annovar以外,snpEff 也是常用的一款突变位点注释工具。 这款软件基于java语言进行开发,安装过程相对简单,下载之后解压缩即可。本篇对该软件的使用进行一个简介。 1. 查询所有可用的数据库列表命令如下
目前共有42791个数据库, 给出了物种可用的数据库和对应的下载链接。 2. 下载数据库以
GRCh37.75
GRCh38.86
hg19
hg19kg
hg38
hg38kg
testHg19ChrM 以
下载成功之后,在软件安装目录的 GRCh38.86/
├── cytoBand.txt.gz
├── interactions.bin
├── motif.bin
├── nextProt.bin
├── pwms.bin
├── sequence.X.bin
├── sequence.Y.bin
└── snpEffectPredictor.bin 3. 进行注释命令如下:
输出文件 可以看到,就是在输入文件的INFO列新增了一个字段信息,字段的名字叫做 1. Allele突变之后的碱基,第一个突变位点由T碱基突变成了C碱基,对应Allel的值为 2.Annotation由 如果变异位点属于多个类型时,多个类型之间用
3. Annotation_Impact对变异位点有害程度的简单评估,取值有 4. Gene_Name基因名称 5. Gene_ID基因ID 6. Feature_Type想要分析的特征类型,transcript, motif, miRNA 等 7. Feature_ID根据 8. Transcript_BioType转录本类型, 通常采用Ensembl数据库的转录本类型 9. Rank只有当变异位点位于基因区域时才有值,会给出变异位点所处的exon/intron的编号和该基因的exon/intron的总数,比如一个突变位点位于基因的第3个exon上,该基因一共有12个exon, 对应的Rank的值为3/12 10. HGVS.c采用 11. HGVS.p采用 12. cDNA.pos/cDNA.length突变位点在cDNA上的位置/cDNA的总长度 13. CDS.pos/CDS.length突变位点在CDS上的位置/CDS的总长度 14. AA.pos/AA.length突变位点在氨基酸序列上的位置/氨基酸序列的总长度 15. Distance变异位点与最近的特征的距离,当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离,不同的情况,距离的定义不同。 16. ERRORS/WARNINGS/INFO对注释结果的可靠程度进行评估,各种取值代表的含义如下图 |
|