【原】PMGA | 强大的植物线粒体基因组注释工具 - （Plant Mitochondrial Genome Annotator）

生信药丸 2024-11-15 发布于贵州

展开全文

PMGA（Plant Mitochondrial Genome Annotator）强大的植物线粒体基因组注释工具（附第一作者撰写的详细教程）

生信石头细胞器基因组系列推文

(1) 零基础教程 | CPGAVAS2 快速，准确的叶绿体注释工具（附保姆级教程）

(2) CPGAVAS2命令行版 |一次准确高效的注释300个叶绿体基因组？！

(3) CPGview-RSG 网页版 | 优雅的找出叶绿体基因组潜在的注释错误。

(4) CPGView——叶绿体基因组结构可视化与注释错误检测工具

(5) PMGmap | 可视化植物线粒体基因组的基因组特征 ~ 手把手图文教程 ~

(6) 本期：PMGA（Plant Mitochondrial Genome Annotator）| 强大的植物线粒体基因组注释工具（附第一作者撰写的详细教程）

PMGA是被子植物复杂结构线粒体基因组的注释网站。该网站前身为IPGMA(http://www./mgavas/)，现在增加并更新了更多的功能，集成为最新的网站——PMGA(http://www./pmga/)。目前该工具已经在Plant Communications期刊（中科院一区, IF = 9.4）上在线发表。下面我们将介绍PMGA网站的使用方法。

一、界面介绍

进入PMGA网站(http://www./pmga/)，PMGA网站包括6个部分（图1-1）：

（1）Home: PMGA的首页；

（2）Annotate: 线粒体基因组注释页面；

（3）Clean Seq: 清除序列的简并碱基；

（4）GetORFs：ORFs预测工具；

（5）RNA editing：RNA编辑事件预测工具；

（6）Help：列出了PMGA网站的使用方法以及常见问题。

图1-1 PMGA的网站页面

图1-2旧版网站页面

二、Annotate

2.1 Annotate界面（图2-1）

进入PMGA网站，点击Annotate进入Annotate程序界面，该程序可以注释植物线粒体基因组。

图2-1 Annotate界面

2.2 线粒体基因组注释（图2-2-1）

2.2.1 文件准备

注释需要使用FASTA格式的文件。如果需要注释的植物线粒体基因组序列仅包含一条序列，请直接上传FASTA格式文件；如果包含多条序列，请将同一物种的所有线粒体DNA序列放入一个FASTA格式的文件中，注意需要保留每条序列的“>”行。多个物种的序列需要分别进行提交。

页面准备了两种类型的示例文件，供大家参考使用。

2.2.2 上传文件

在Option I: Run PMGA程序中，点击选择文件，直接上传准备好的FASTA格式文件即可。

2.2.3 选择数据库

线粒体基因组注释基于3种数据库：

1)29 Mitogenomes：使用RNA-seq数据精确校正的29个代表性的被子植物线粒体基因序列。

2)29 Mitogenomes & Plastomes：在1）的基础上，添加了来自CPGAVAS2数据集中的叶绿体基因参考序列。

3)319 Mitogenomes：包含319个植物线粒体基因组的参考基因序列，仅基于多重序列比对校正。

2.2.4 提交程序

上传需要注释的FASTA格式的文件，选择好数据库，点击“Submit”，即可开始注释，注释一般需要5~10分钟。基因组越小注释速度越快。

页面会提供一个“project ID”，它是查看结果的唯一标识符。如果不关闭页面，注释完成后，页面会直接展示注释结果。也可以保存“project ID”，之后在Option II: Search Results by ID程序中查询注释结果（图2-2-2）。

图2-2-1 Annotate运行界面

图2-2-2 提交程序

2.3 注释结果展示（图2-3）

注释结果页面只展示一部分重要的结果，可以直接在页面下载每个单独的结果文件，也可以在结果文件的“3. Download”中，点击“result”下载压缩包，获得完整的注释结果。

图2-3 注释结果展示

2.4 注释结果解读

2.4.1 下载并解压结果文件

主文件保存在“results”文件夹里面的“01-07”文件夹（图2-4-1）。

图2-4-1 结果文件

2.4.2 01.Annotation文件（图2-4-2）

(a)包含上传的fatsa文件，以及PMGA程序注释得到的gb文件，gff文件，tbl文件；

(b)如果上传的fatsa文件包含多条染色体，则每条染色体会分别注释得到gb文件，gff文件，tbl文件。

图2-4-2 01.Annotation文件

2.4.3 02. Concatenation文件（图2-4-3）

此文件夹适用于多条染色体的线粒体基因组。同一个物种的多条染色体被串联起来，生成1个fasta文件，1个gb文件，1个gff文件，1个tbl文件。

这些串联后的文件可以方便用于后续提取基因等分析。其中merged_stat.txt文件展示染色体在串联文件里面的具体位点信息。

图2-4-3 02. Concatenation文件

2.4.4 03.Circular_maps文件（图2-4-4）

此文件夹包含线粒体基因组的gb文件，gff文件，图谱文件。

图2-4-4 03.Circular_maps文件

2.4.5 04.Extracted_Genes文件（图2-4-5）

此文件夹包含线粒体基因组注释得到的Gene序列，Protein序列，CDS序列，intron序列，tRNA基因序列，rRNA基因序列，mRNA序列，以及mRNA及其100 bp 5’UTR，100 bp 3’UTR的序列，额外的扩展序列可以方便用来预测RNA编辑位点，设计引物扩增整个CDS区域。

图2-4-5 04.Extracted_Genes文件

2.4.6 05.Exons_connection（图2-4-6）

此文件夹包含线粒体基因组中反式剪切基因的外显子组装信息，并且以图片的形式展外显子的连接路径。如果同一个基因的某些外显子在基因组中存在多个拷贝，则红色箭头显示为选择外显子空间距离最短的组装路径。

图2-4-6 05.Exons_connection

2.4.7 06.Start-Stop_gains（图2-4-7）

此文件夹包含预测通过RNA编辑事件产生起始密码子或终止密码子的基因信息。

图2-4-7 06.Start-Stop_gains

2.4.8 07.Report

07.Report包含三个文件（图2-4-8）。通过其中的xxx.01.report.log文件，可以整体、快速的了解线粒体基因组的注释情况。

图2-4-8-1 07.Report

xxx.01.report.log文件具体包含了如下8个内容（图2-4-8-2）：

(a)展示基因组的蛋白质编码基因内容，以及可能注释丢失的蛋白质编码基因信息。

(b)展示长度不一致的多拷贝的基因信息。

(c)展示内含子基因（intron-contained gene）的外显子信息。

(d)展示具有内部终止密码子的基因信息。

(e)展示具有非标准起始密码子的基因信息。

(f)展示具有非标准终止密码子的基因信息。

(g)展示跨越不同染色体/contigs的反式剪切基因的信息。

(h)展示基因个数及其位置信息。

图2-4-8-2 01.report.log

三、Clean Seq

PMGA不接受包含“A”、“G”、“C”和“T”以外碱基的序列。因此，当输入的FASTA文件包含除“A”、“G”、“C”和“T”以外的简并碱基时，请先在Clean Seq模块清除这些简并碱基，获得新的FASTA文件后再进行注释。

3.1 Clean Seq界面

进入PMGA网站，点击Clean Seq进入Clean Seq程序界面，该程序将计算输入序列中所有碱基的频率，简并碱基将被替换为相应碱基中，具有最高频率的标准碱基。请注意，这只是一项临时措施，我们强烈建议使用您的测序数据通过reads mapping来确定具体的碱基。

图3-1 Clean Seq界面

3.2 运行程序（图3-2）

在Option I: Run CleanSeq程序中，点击选择文件，上传包含简并碱基的FASTA格式的文件，然后点击“Submit”，即可开始运行程序。

图3-2 Clean Seq运行页面

3.3 查看结果（图3-3）

页面会提供一个“project ID”，它是查看结果的唯一标识符。如果不关闭页面，Clean Seq程序完成后，页面会直接展示结果。也可以保存“project ID”，之后在Option II: Search results by ID程序中查询结果。

在结果页面点击“Download cleaned sequence”即可获得替换简并碱基后的、新的FASTA文件。

图3-3 Clean Seq结果页面

四、GetORFs

4.1 GetORFs界面（图4-1）

进入PMGA网站，点击GetORFs进入程序界面，该程序可以预测ORFs。目前该模块仍在测试中，生成的结果需要仔细核对。

图4-1 GetORFs界面

4.2 运行程序（图4-2）

在Option I: Run Getorfs程序中，点击选择文件，上传植物线粒体基因组的、包含注释信息的GB格式文件，然后点击“Submit”，即可开始运行程序。默认情况下，预测的ORFs的最小长度为300 bp。

图4-2 GetORFs运行界面

4.3 查看结果（图4-3）

页面会提供一个“project ID”，它是查看结果的唯一标识符。如果不关闭页面，GetORFs程序完成后，页面会直接展示结果。也可以保存“project ID”，之后在Option II: Search results by ID程序中查询结果。

GetORFs程序运行结果，包含以下5个内容，可根据需要下载：

(a)带有ORFs的Genbank文件；

(b)所有ORF序列；

(c)嵌合ORFs序列；

(d)嵌合ORFs日志；

(e)嵌合ORFs结构可视化文件。

图4-3 GetORFs结果界面

五、RNA Editing

5.1 RNA Editing界面（图5-1）

进入PMGA网站，点击RNA Editing进入程序界面，该程序将使用Deepredmt训练的卷积神经网络模型，来预测植物线粒体基因组蛋白质编码基因序列中的每个胞嘧啶发生C到U的RNA编辑的概率，并返回这些概率值。

图5-1 RNA Editing界面

5.2 运行程序（图5-2）

在Option I: Run Deepredmt程序中，点击选择文件，上传输入文件。该输入文件是包含被子植物线粒体蛋白编码基因核苷酸序列的FASTA格式文件，该输入文件可以包含单个序列或多个序列。然后点击“Submit”，即可开始运行程序。

图5-2 RNA Editing运行界面

5.3 查看结果（图5-3）

页面会提供一个“project ID”，它是查看结果的唯一标识符。如果不关闭页面，RNA Editing程序完成后，页面会直接展示结果。也可以保存“project ID”，之后在Option II: Search results by ID程序中查询结果。

在结果页面点击“View results”或者“Download”，可以直接查看或者下载RNA Editing程序运行得到的结果。

图5-3 RNA Editing结果界面

以上就是PMGA全部的功能，欢迎大家使用和引用:

Li J, Ni Y, Lu Q, et al. PMGA: A Plant Mitochondrial Genome Annotator[J]. Plant Communications, 2024: 101191. https:///10.1016/j.xplc.2024.101191