PMGA(Plant Mitochondrial Genome Annotator)强大的植物线粒体基因组注释工具(附第一作者撰写的详细教程) 生信石头细胞器基因组系列推文 (1) 零基础教程 | CPGAVAS2 快速,准确的叶绿体注释工具(附保姆级教程) (2) CPGAVAS2命令行版 |一次准确高效的注释300个叶绿体基因组?! (3) CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误。 (4) CPGView——叶绿体基因组结构可视化与注释错误检测工具 (5) PMGmap | 可视化植物线粒体基因组的基因组特征 ~ 手把手图文教程 ~ (6) 本期:PMGA(Plant Mitochondrial Genome Annotator)| 强大的植物线粒体基因组注释工具(附第一作者撰写的详细教程) PMGA是被子植物复杂结构线粒体基因组的注释网站。该网站前身为IPGMA(http://www./mgavas/),现在增加并更新了更多的功能,集成为最新的网站——PMGA(http://www./pmga/)。目前该工具已经在Plant Communications期刊(中科院一区, IF = 9.4)上在线发表。下面我们将介绍PMGA网站的使用方法。 一、界面介绍进入PMGA网站(http://www./pmga/),PMGA网站包括6个部分(图1-1): (1)Home: PMGA的首页; (2)Annotate: 线粒体基因组注释页面; (3)Clean Seq: 清除序列的简并碱基; (4)GetORFs:ORFs预测工具; (5)RNA editing:RNA编辑事件预测工具; (6)Help:列出了PMGA网站的使用方法以及常见问题。 图1-1 PMGA的网站页面 图1-2旧版网站页面 二、Annotate2.1 Annotate界面(图2-1) 进入PMGA网站,点击Annotate进入Annotate程序界面,该程序可以注释植物线粒体基因组。 图2-1 Annotate界面 2.2 线粒体基因组注释(图2-2-1) 2.2.1 文件准备 注释需要使用FASTA格式的文件。如果需要注释的植物线粒体基因组序列仅包含一条序列,请直接上传FASTA格式文件;如果包含多条序列,请将同一物种的所有线粒体DNA序列放入一个FASTA格式的文件中,注意需要保留每条序列的“>”行。多个物种的序列需要分别进行提交。 页面准备了两种类型的示例文件,供大家参考使用。 2.2.2 上传文件 在Option I: Run PMGA程序中,点击选择文件,直接上传准备好的FASTA格式文件即可。 2.2.3 选择数据库 线粒体基因组注释基于3种数据库: 1)29 Mitogenomes:使用RNA-seq数据精确校正的29个代表性的被子植物线粒体基因序列。 2)29 Mitogenomes & Plastomes:在1)的基础上,添加了来自CPGAVAS2数据集中的叶绿体基因参考序列。 3)319 Mitogenomes:包含319个植物线粒体基因组的参考基因序列,仅基于多重序列比对校正。 2.2.4 提交程序 上传需要注释的FASTA格式的文件,选择好数据库,点击“Submit”,即可开始注释,注释一般需要5~10分钟。基因组越小注释速度越快。 页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,注释完成后,页面会直接展示注释结果。也可以保存“project ID”,之后在Option II: Search Results by ID程序中查询注释结果(图2-2-2)。 图2-2-1 Annotate运行界面 图2-2-2 提交程序 2.3 注释结果展示(图2-3) 注释结果页面只展示一部分重要的结果,可以直接在页面下载每个单独的结果文件,也可以在结果文件的“3. Download”中,点击“result”下载压缩包,获得完整的注释结果。 图2-3 注释结果展示 2.4 注释结果解读 2.4.1 下载并解压结果文件 主文件保存在“results”文件夹里面的“01-07”文件夹(图2-4-1)。 图2-4-1 结果文件 2.4.2 01.Annotation文件(图2-4-2) (a)包含上传的fatsa文件,以及PMGA程序注释得到的gb文件,gff文件,tbl文件; (b)如果上传的fatsa文件包含多条染色体,则每条染色体会分别注释得到gb文件,gff文件,tbl文件。
图2-4-2 01.Annotation文件 2.4.3 02. Concatenation文件(图2-4-3) 此文件夹适用于多条染色体的线粒体基因组。同一个物种的多条染色体被串联起来,生成1个fasta文件,1个gb文件,1个gff文件,1个tbl文件。 这些串联后的文件可以方便用于后续提取基因等分析。其中merged_stat.txt文件展示染色体在串联文件里面的具体位点信息。 ![]() 2.4.4 03.Circular_maps文件(图2-4-4) 此文件夹包含线粒体基因组的gb文件,gff文件,图谱文件。
图2-4-4 03.Circular_maps文件 2.4.5 04.Extracted_Genes文件(图2-4-5) 此文件夹包含线粒体基因组注释得到的Gene序列,Protein序列,CDS序列,intron序列,tRNA基因序列,rRNA基因序列,mRNA序列,以及mRNA及其100 bp 5’UTR,100 bp 3’UTR的序列,额外的扩展序列可以方便用来预测RNA编辑位点,设计引物扩增整个CDS区域。 图2-4-5 04.Extracted_Genes文件 2.4.6 05.Exons_connection(图2-4-6) 此文件夹包含线粒体基因组中反式剪切基因的外显子组装信息,并且以图片的形式展外显子的连接路径。如果同一个基因的某些外显子在基因组中存在多个拷贝,则红色箭头显示为选择外显子空间距离最短的组装路径。 图2-4-6 05.Exons_connection 2.4.7 06.Start-Stop_gains(图2-4-7) 此文件夹包含预测通过RNA编辑事件产生起始密码子或终止密码子的基因信息。 图2-4-7 06.Start-Stop_gains 2.4.8 07.Report 07.Report包含三个文件(图2-4-8)。通过其中的xxx.01.report.log文件,可以整体、快速的了解线粒体基因组的注释情况。 图2-4-8-1 07.Report xxx.01.report.log文件具体包含了如下8个内容(图2-4-8-2): (a)展示基因组的蛋白质编码基因内容,以及可能注释丢失的蛋白质编码基因信息。 (b)展示长度不一致的多拷贝的基因信息。 (c)展示内含子基因(intron-contained gene)的外显子信息。 (d)展示具有内部终止密码子的基因信息。 (e)展示具有非标准起始密码子的基因信息。 (f)展示具有非标准终止密码子的基因信息。 (g)展示跨越不同染色体/contigs的反式剪切基因的信息。 (h)展示基因个数及其位置信息。 图2-4-8-2 01.report.log 三、Clean SeqPMGA不接受包含“A”、“G”、“C”和“T”以外碱基的序列。因此,当输入的FASTA文件包含除“A”、“G”、“C”和“T”以外的简并碱基时,请先在Clean Seq模块清除这些简并碱基,获得新的FASTA文件后再进行注释。 3.1 Clean Seq界面 进入PMGA网站,点击Clean Seq进入Clean Seq程序界面,该程序将计算输入序列中所有碱基的频率,简并碱基将被替换为相应碱基中,具有最高频率的标准碱基。请注意,这只是一项临时措施,我们强烈建议使用您的测序数据通过reads mapping来确定具体的碱基。 图3-1 Clean Seq界面 3.2 运行程序(图3-2) 在Option I: Run CleanSeq程序中,点击选择文件,上传包含简并碱基的FASTA格式的文件,然后点击“Submit”,即可开始运行程序。 图3-2 Clean Seq运行页面 3.3 查看结果(图3-3) 页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,Clean Seq程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。 在结果页面点击“Download cleaned sequence”即可获得替换简并碱基后的、新的FASTA文件。 图3-3 Clean Seq结果页面 四、GetORFs4.1 GetORFs界面(图4-1) 进入PMGA网站,点击GetORFs进入程序界面,该程序可以预测ORFs。目前该模块仍在测试中,生成的结果需要仔细核对。 图4-1 GetORFs界面 4.2 运行程序(图4-2) 在Option I: Run Getorfs程序中,点击选择文件,上传植物线粒体基因组的、包含注释信息的GB格式文件,然后点击“Submit”,即可开始运行程序。默认情况下,预测的ORFs的最小长度为300 bp。 图4-2 GetORFs运行界面 4.3 查看结果(图4-3) 页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,GetORFs程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。 GetORFs程序运行结果,包含以下5个内容,可根据需要下载: (a)带有ORFs的Genbank文件; (b)所有ORF序列; (c)嵌合ORFs序列; (d)嵌合ORFs日志; (e)嵌合ORFs结构可视化文件。 图4-3 GetORFs结果界面 五、RNA Editing5.1 RNA Editing界面(图5-1) 进入PMGA网站,点击RNA Editing进入程序界面,该程序将使用Deepredmt训练的卷积神经网络模型,来预测植物线粒体基因组蛋白质编码基因序列中的每个胞嘧啶发生C到U的RNA编辑的概率,并返回这些概率值。 图5-1 RNA Editing界面 5.2 运行程序(图5-2) 在Option I: Run Deepredmt程序中,点击选择文件,上传输入文件。该输入文件是包含被子植物线粒体蛋白编码基因核苷酸序列的FASTA格式文件,该输入文件可以包含单个序列或多个序列。然后点击“Submit”,即可开始运行程序。 图5-2 RNA Editing运行界面 5.3 查看结果(图5-3) 页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,RNA Editing程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。 在结果页面点击“View results”或者“Download”,可以直接查看或者下载RNA Editing程序运行得到的结果。 图5-3 RNA Editing结果界面 以上就是PMGA全部的功能,欢迎大家使用和引用: |
|