分享

PMGA | 强大的植物线粒体基因组注释工具 - (Plant Mitochondrial Genome Annotator)

 生信药丸 2024-11-15 发布于贵州

PMGA(Plant Mitochondrial Genome Annotator)强大的植物线粒体基因组注释工具(附第一作者撰写的详细教程)

生信石头细胞器基因组系列推文

(1) 零基础教程 | CPGAVAS2 快速,准确的叶绿体注释工具(附保姆级教程)

(2) CPGAVAS2命令行版 |一次准确高效的注释300个叶绿体基因组?!

(3) CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误。

(4) CPGView——叶绿体基因组结构可视化与注释错误检测工具

(5) PMGmap | 可视化植物线粒体基因组的基因组特征 ~ 手把手图文教程 ~

(6) 本期:PMGA(Plant Mitochondrial Genome Annotator)| 强大的植物线粒体基因组注释工具(附第一作者撰写的详细教程)

PMGA是被子植物复杂结构线粒体基因组的注释网站。该网站前身为IPGMA(http://www./mgavas/),现在增加并更新了更多的功能,集成为最新的网站——PMGA(http://www./pmga/)。目前该工具已经在Plant Communications期刊(中科院一区, IF = 9.4)上在线发表。下面我们将介绍PMGA网站的使用方法。

一、界面介绍  

进入PMGA网站(http://www./pmga/),PMGA网站包括6个部分(图1-1):

(1)Home: PMGA的首页;

(2)Annotate: 线粒体基因组注释页面;    

(3)Clean Seq: 清除序列的简并碱基;

(4)GetORFs:ORFs预测工具;

(5)RNA editing:RNA编辑事件预测工具;

(6)Help:列出了PMGA网站的使用方法以及常见问题。

图1-1 PMGA的网站页面

图1-2旧版网站页面    

二、Annotate  

2.1 Annotate界面(图2-1)

进入PMGA网站,点击Annotate进入Annotate程序界面,该程序可以注释植物线粒体基因组。

图2-1 Annotate界面

2.2 线粒体基因组注释(图2-2-1)

2.2.1 文件准备

注释需要使用FASTA格式的文件。如果需要注释的植物线粒体基因组序列仅包含一条序列,请直接上传FASTA格式文件;如果包含多条序列,请将同一物种的所有线粒体DNA序列放入一个FASTA格式的文件中,注意需要保留每条序列的“>”行。多个物种的序列需要分别进行提交。

页面准备了两种类型的示例文件,供大家参考使用。

2.2.2 上传文件    

在Option I: Run PMGA程序中,点击选择文件,直接上传准备好的FASTA格式文件即可。

2.2.3 选择数据库

线粒体基因组注释基于3种数据库:

1)29 Mitogenomes:使用RNA-seq数据精确校正的29个代表性的被子植物线粒体基因序列。

2)29 Mitogenomes & Plastomes:在1)的基础上,添加了来自CPGAVAS2数据集中的叶绿体基因参考序列。

3)319 Mitogenomes:包含319个植物线粒体基因组的参考基因序列,仅基于多重序列比对校正。

2.2.4 提交程序

上传需要注释的FASTA格式的文件,选择好数据库,点击“Submit”,即可开始注释,注释一般需要5~10分钟。基因组越小注释速度越快。

页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,注释完成后,页面会直接展示注释结果。也可以保存“project ID”,之后在Option II: Search Results by ID程序中查询注释结果(图2-2-2)。    

图2-2-1 Annotate运行界面    

图2-2-2 提交程序

2.3 注释结果展示(图2-3)

注释结果页面只展示一部分重要的结果,可以直接在页面下载每个单独的结果文件,也可以在结果文件的“3. Download”中,点击“result”下载压缩包,获得完整的注释结果。    

图2-3 注释结果展示

2.4 注释结果解读

2.4.1 下载并解压结果文件

主文件保存在“results”文件夹里面的“01-07”文件夹(图2-4-1)。    

图2-4-1 结果文件

2.4.2 01.Annotation文件(图2-4-2)

(a)包含上传的fatsa文件,以及PMGA程序注释得到的gb文件,gff文件,tbl文件;

(b)如果上传的fatsa文件包含多条染色体,则每条染色体会分别注释得到gb文件,gff文件,tbl文件。

   

图2-4-2 01.Annotation文件

2.4.3  02. Concatenation文件(图2-4-3)

此文件夹适用于多条染色体的线粒体基因组。同一个物种的多条染色体被串联起来,生成1个fasta文件,1个gb文件,1个gff文件,1个tbl文件。

这些串联后的文件可以方便用于后续提取基因等分析。其中merged_stat.txt文件展示染色体在串联文件里面的具体位点信息。

图2-4-3 02. Concatenation文件

2.4.4 03.Circular_maps文件(图2-4-4)

此文件夹包含线粒体基因组的gb文件,gff文件,图谱文件。

   

图2-4-4 03.Circular_maps文件

2.4.5 04.Extracted_Genes文件(图2-4-5)

此文件夹包含线粒体基因组注释得到的Gene序列,Protein序列,CDS序列,intron序列,tRNA基因序列,rRNA基因序列,mRNA序列,以及mRNA及其100 bp 5’UTR,100 bp 3’UTR的序列,额外的扩展序列可以方便用来预测RNA编辑位点,设计引物扩增整个CDS区域。

图2-4-5 04.Extracted_Genes文件

2.4.6 05.Exons_connection(图2-4-6)

此文件夹包含线粒体基因组中反式剪切基因的外显子组装信息,并且以图片的形式展外显子的连接路径。如果同一个基因的某些外显子在基因组中存在多个拷贝,则红色箭头显示为选择外显子空间距离最短的组装路径。

图2-4-6 05.Exons_connection

2.4.7 06.Start-Stop_gains(图2-4-7)

此文件夹包含预测通过RNA编辑事件产生起始密码子或终止密码子的基因信息。

图2-4-7 06.Start-Stop_gains

2.4.8 07.Report

07.Report包含三个文件(图2-4-8)。通过其中的xxx.01.report.log文件,可以整体、快速的了解线粒体基因组的注释情况。    

图2-4-8-1 07.Report

xxx.01.report.log文件具体包含了如下8个内容(图2-4-8-2):

(a)展示基因组的蛋白质编码基因内容,以及可能注释丢失的蛋白质编码基因信息。

(b)展示长度不一致的多拷贝的基因信息。

(c)展示内含子基因(intron-contained gene)的外显子信息。

(d)展示具有内部终止密码子的基因信息。

(e)展示具有非标准起始密码子的基因信息。

(f)展示具有非标准终止密码子的基因信息。

(g)展示跨越不同染色体/contigs的反式剪切基因的信息。

(h)展示基因个数及其位置信息。

图2-4-8-2 01.report.log

三、Clean Seq  

PMGA不接受包含“A”、“G”、“C”和“T”以外碱基的序列。因此,当输入的FASTA文件包含除“A”、“G”、“C”和“T”以外的简并碱基时,请先在Clean Seq模块清除这些简并碱基,获得新的FASTA文件后再进行注释。    

3.1 Clean Seq界面

进入PMGA网站,点击Clean Seq进入Clean Seq程序界面,该程序将计算输入序列中所有碱基的频率,简并碱基将被替换为相应碱基中,具有最高频率的标准碱基。请注意,这只是一项临时措施,我们强烈建议使用您的测序数据通过reads mapping来确定具体的碱基。

图3-1 Clean Seq界面

3.2 运行程序(图3-2)

在Option I: Run CleanSeq程序中,点击选择文件,上传包含简并碱基的FASTA格式的文件,然后点击“Submit”,即可开始运行程序。    

图3-2 Clean Seq运行页面

3.3 查看结果(图3-3)

页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,Clean Seq程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。

在结果页面点击“Download cleaned sequence”即可获得替换简并碱基后的、新的FASTA文件。

图3-3 Clean Seq结果页面

四、GetORFs  

4.1 GetORFs界面(图4-1)

进入PMGA网站,点击GetORFs进入程序界面,该程序可以预测ORFs。目前该模块仍在测试中,生成的结果需要仔细核对。    

图4-1 GetORFs界面

4.2 运行程序(图4-2)

在Option I: Run Getorfs程序中,点击选择文件,上传植物线粒体基因组的、包含注释信息的GB格式文件,然后点击“Submit”,即可开始运行程序。默认情况下,预测的ORFs的最小长度为300 bp。    

图4-2 GetORFs运行界面

4.3 查看结果(图4-3)

页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,GetORFs程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。

GetORFs程序运行结果,包含以下5个内容,可根据需要下载:

(a)带有ORFs的Genbank文件;

(b)所有ORF序列;

(c)嵌合ORFs序列;

(d)嵌合ORFs日志;    

(e)嵌合ORFs结构可视化文件。

图4-3 GetORFs结果界面

五、RNA Editing  

5.1 RNA Editing界面(图5-1)

进入PMGA网站,点击RNA Editing进入程序界面,该程序将使用Deepredmt训练的卷积神经网络模型,来预测植物线粒体基因组蛋白质编码基因序列中的每个胞嘧啶发生C到U的RNA编辑的概率,并返回这些概率值。    

图5-1 RNA Editing界面

5.2 运行程序(图5-2)

在Option I: Run Deepredmt程序中,点击选择文件,上传输入文件。该输入文件是包含被子植物线粒体蛋白编码基因核苷酸序列的FASTA格式文件,该输入文件可以包含单个序列或多个序列。然后点击“Submit”,即可开始运行程序。    

图5-2 RNA Editing运行界面

5.3 查看结果(图5-3)

页面会提供一个“project ID”,它是查看结果的唯一标识符。如果不关闭页面,RNA Editing程序完成后,页面会直接展示结果。也可以保存“project ID”,之后在Option II: Search results by ID程序中查询结果。

在结果页面点击“View results”或者“Download”,可以直接查看或者下载RNA Editing程序运行得到的结果。    

图5-3 RNA Editing结果界面

以上就是PMGA全部的功能,欢迎大家使用和引用:          
         
Li J, Ni Y, Lu Q, et al. PMGA: A Plant Mitochondrial Genome Annotator[J]. Plant Communications, 2024: 101191. https:///10.1016/j.xplc.2024.101191

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多