综述 | Brief.Bioinformatics：生物信息学辅助的药用植物综合组学研究（国人佳作）

微科享 2021-04-19

展开全文

编译：文文，编辑：Emma、江舜尧。

原创微文，欢迎转发转载。

导读

药用植物具有巨大的治疗价值和经济价值。生产真正优质的草药是维持传统医药产业健康发展的前提。本文从表型组学与分类学，基因组学，转录组学，蛋白质组学和代谢组学等几个方面总结了药用植物组学研究的最新进展，提出了一种基于多组学数据的药用植物研究方法。组学数据的综合分析对于植物鉴定和植物代谢机理研究是非常重要的，在工作流程中引入用于组学数据正确存储，高效处理和高通量分析计算。根据工作流程，药用植物材料的认证不但应在表观学水平上进行，而且还应通过基于基因组学和代谢组学标记的检查进行。另一方面，功能基因组学研究，转录调控网络和蛋白质间相互作用将为破译次级代谢途径做出巨大贡献。

论文ID

原名：Bioinformatics-assisted, integrated omics studies on medicinal plants

译名：生物信息学辅助的药用植物综合组学研究

期刊：Briefings in bioinformatics

IF：8.990

发表时间：2019.11

通讯作者：孟一君

通讯作者单位：杭州师范大学

文章结构

内容

药用植物构成了巨大的天然有机化合物库，具有广阔的医药应用前景。在中国古代就已经将多种植物用作制备传统药物的原料，随着现代医学的发展使很大一部分市售药物从植物来源的天然成分中纯化或修饰而成的。药用植物已为全世界制药业带来了巨大的利益，对药用植物进行现代化、标准化的研究成为维持生物医药行业健康且可持续发展的紧迫问题。与药用植物研究有关的主要任务有植物材料的鉴定和代谢途径的机制研究。为了完成上述任务，表型分析，基因组测序，转录组测序和蛋白质组图谱分析等各种组学技术已广泛用于药用植物研究。随着单细胞测序技术的进步，可以用单细胞分辨率分析植物代谢途径。另一方面，系统生物学是一种用于解码生物系统复杂性的多学科方法，它需要生物学家、化学家、数学家、物理学家和工程师的共同努力，对各种类型的巨大组学数据集进行综合分析，最近一些报导都强调了系统生物学方法在破译植物基因调控网络和代谢途径中的关键作用。

本文从五个方面（包括表型组学和分类学，基因组学，转录组学，蛋白质组学和代谢组学）总结药用植物组学研究的最新情况（图1）。例如，经过基因组学研究发布了几种药用植物的基因组草图，极大地促进了高密度DNA标记的发展，基因注释和功能基因组学的研究。新一代测序技术已广泛应用于转录组学研究，基于新一代测序的转录组测序能够研究特定基因的时空表达模式，建立共表达基因的网络，并发现药用植物中的非编码RNA（ncRNAs）。同时强大的计算工具能够对不断增长的组学数据进行正确存储，有效处理和集成分析。本文列出了适用于药用植物研究的生物信息学数据库和软件包分（表1和2）。例如，已经建立了一些数据库来容纳药用植物的组学数据（如表型特征，生物活性成分及其分子靶标，药理用途和基因组或转录组测序数据）。这些计算工具有助于研究人员将零散的数据连接到有意义的假设中，以进行进一步的实验验证，最后以石斛兰属植物为例提出了组学数据综合分析的工作流程。由于表型特征容易受到环境因素的影响，因此将基因组和化学标志物作为植物鉴定必不可少的标准。为了揭示石斛兰和多糖生物合成途径的调控机制，需要对基因组学，转录组学，蛋白质组学和代谢组学数据进行综合分析，研究框架引入具有高效的组学数据管理能力的生物信息学资源和工具包。

本文提供了当前用于药用植物组学研究的可用技术和生物信息学工具，基于多组学数据的综合分析是鉴定药用植物材料和破译药用植物次生代谢途径的有效方法。

图1 基于多组学数据的药用植物综合研究摘要

（A）表型组学和分类学研究，包括（1）在不同条件下或不同阶段生长的药用植物的表型鉴定，以及（2）基于DNA和/或植物化学标记的分类和鉴定；（B）基因组学研究，包括（1）核基因组和细胞器基因组测序或重测序，（2）基因注释和（3）表观遗传学分析；（C）转录组学研究，包括（1）基因表达谱的转录组测序，（2）共表达网络构建和（3）非编码RNA的发现；（D）蛋白质组学研究，包括（1）蛋白质鉴定和定量，（2）蛋白质修饰和结构分析，以及（3）蛋白质-蛋白质相互作用网络构建；（E）代谢组学研究，包括（1）次生代谢产物的定性和定量分析，（2）破译次生代谢途径的调控机制，以及（3）生物靶标的发现和医学价值的探索。

表1 为药用植物研究提供有价值组学资源的数据库列表

表2 用于药用植物研究的生物信息学工具列表

1. 表型组学和分类学研究

1.1 表型，分类和鉴定

植物表型是基因与环境相互作用的产物，在特定的生长条件下，表型包括从植物基因组表达的所有形态和生理特性。“表型分析”是指记录从单细胞水平到整个植物水平的表型参数，对于新植物物种的鉴定和分类，以及基因组和环境对植物表型影响的机理研究至关重要。表型在植物生物学中的重要作用导致“表观经济学”子学科的诞生，其中包括温室调节或田间试验，成像技术的应用以及图像分析工具的开发。通常可以通过以下步骤进行植物表型组学研究：（1）实验设计，例如设置水和营养供应的参数，温度，植物生长所需的光强度和湿度以及生物或非生物胁迫处理的设计；（2）通过使用各种摄像头捕获可见、紫外和红外光谱的信号来获取图像；（3）图像数据管理和解读，包括数据参数化和存储，植物形态（如几何和颜色属性）的定量测量，生长动态（如种子发芽，根系伸长和植物重量）和生理状态（如应激反应，叶绿素含量，光系统II量子效率）和建模。在初始阶段图像采集和资料解释都严重依赖体力劳动，导致表型分析效率低。随着技术的进步，开发出了高分辨率的成像平台和计算机辅助的高通量分析工具。一些成像平台和生物信息学工具是为特定目的而开发的，例如根系表型、应激表型和细胞功能分析。植物表型学研究的数据不仅对植物模型研究和作物改良有价值，对药用植物研究也很有价值。首先，形态特征的提取对于各种药用植物的鉴别和分类是必不可少的。其次，解读药用植物的最佳栽培条件是其机理研究的先决条件之一。第三，监测关键性状（如药用部位的生长状况）并记录相关参数（如次级代谢产物的积累）将为药用植物的质量控制铺平道路。下面介绍几个可能对药用植物的表型组学和分类学研究有用数据库（表1）和分析工具包（表2）。

更新的数据库PlantCLEF（2019）收集了从不同视角、比例和器官中拍摄的数千张植物图像，为了模仿现实生活中用于植物识别和分类的自动化系统，PlantCLEF使用了原始图像，采用基于卷积神经网络的算法提取属于定义的植物属或科的共同性状。目前，PlantCLEF仅包含代表西欧植物区系的1000种植物的图像，如果在世界范围内启动基于群落的植物图像收集会大大促进新型药用植物的识别和分类。由香港浸会大学主办的补偿性数据库MPID（药用植物图像数据库）可公开用于药用植物的表型研究，MPID是目前专门用于药用植物的最全面的存储表型数据的资料库，除了代表性图像之外还为用户提供了1000多种药用植物的分类名称、形态和环境参数以及药用价值。MPDB（孟加拉国的药用植物数据库）1.0是针对孟加拉国各地分布的药用植物的更具体的数据库，该数据库包含406种药用植物，这些植物具有其科学名称和本地名称以及用于标准化命名法和分类法的药用部分。

除了存储药用植物表型数据的数据库外，还有用于计算机辅助图像处理和分析的工具包。PlantCV（植物计算机视觉）是用Python编写的平台，提供了用于高通量植物表型分析的开源和社区开发的软件包和算法的集合。该集成平台包含的工具能够分析包含多个植物的图像，通过基于距离的分水线变换来分析叶片分割，并基于标志点识别来分析植物形状，并可从GitHub免费获得。ImageJ是一个用Java编写的图像处理和分析平台，它可与500多种具有多种实用程序的插件兼容，例如背景校正、图形分割和归一化。HTPheno是ImageJ的插件之一，是一种用于确定植物的生长状况和适应性的高通量彩色图像分析管道，将每种植物从两个不同角度（顶视图和侧视图）拍摄的照片进行组合分析，以获得植物生长中的表型参数（如高度，宽度和投影面积）。HTPheno包括图像检索，目标区域定义，植物分割，植物提取，形态构造和结果输出6个主要步骤。

除了理想的表型系统外，标准化的命名系统对于提高分类学研究的质量也至关重要。拼写错误的物种名称和野蛮命名是收集和整合来自不同国家民族药典的不同数据的障碍，会导致记录不匹配和药用植物物种数量激增。TNRS（分类名称解析服务）是一种用于植物名称自动标准化的在线服务，它为用户提供了4个可选的分类资源（Tropicos，Global Compositae Checklist，USDAPlants和NCBI分类标准），以供用户进行分类名称标准化。与其他相关应用程序相比，TNRS具有的几个高级功能（如启用批处理和采用模糊匹配算法）使其具有更高的拼写错误纠正和伪造名称消除效率。

药用植物的表型组学和分类学研究专用的生物信息学资源仍然有限，建立消除表型数据记录的标准化管道，建立用于数据存储的综合数据库以及开发用于高通量数据解析的软件包对于系统化表型和药用植物精确分类至关重要。

2. 基因组学研究

2.1 基因组测序

遗传基因组信息是决定植物形态、生理和生化结果的主要因素之一，通过基因组测序揭示遗传密码是对药用植物进行深入研究的关键步骤。迄今为止有许多致力于基因组测序的研究工作，如已报告的红景天，人参，博落回，甘草，菊花脑，穿心莲，苦瓜和三七的基因组草图。此外，还公开了甘草，黄花蒿，连翘，爪哇白豆蔻，雪莲，丹参，枸杞和广藿香的完整叶绿体基因组，几种药用植物的基因组数据库已经公开可用（表1）。MPGR（药用植物基因组学资源）提供了14种药用植物的基因组信息，HMOD（草药组学数据库）收集了22种草药植物基因组以供下载。这两个数据库都为用户提供了基本的分析工具（如“基因组浏览器”和“基本局部比对搜索工具”）。还建立了一些特定物种的基因组数据库，如MGH和HopBase。除了用于序列比对和基因鉴定的基本分析工具外，用户还可以通过MGH检索有价值的资源以进行功能基因组学研究。

2.2 用于鉴定的DNA标记物

在许多情况下对植物物种的准确识别和分类不仅可以依靠其表型特征，还应该在分子水平上进行，这对于药用植物的认证尤为重要。分类学研究广泛使用的分子方法之一是DNA条形码，这是一种使用标准化基因组区域的DNA指纹技术。几种DNA条形码（如matK，rbcL，trnH-psbA，ITS，trnL-F，5S-rRNA和18S-rRNA）已成功地用于草药植物的鉴定和认证，已经建立了DNA条形码数据库，例如MMDBD（药材DNA条形码数据库）及其更新版本。除DNA条形码外，其他一些类型的DNA标记（如扩增片段长度多态性，微卫星，单核苷酸多态性和随机扩增多态性DNA）也已经用于药用植物鉴定。新基因组数据的发布会为大量药用植物开发大量的DNA标记。建议将DNA标记与代谢组学等其他组学数据结合使用，从而进行有效而准确的验证。

2.3 功能基因组学

基因组资源的价值不仅限于基于DNA标记的分类学研究。带有注释基因的基因组为功能研究提供了基础数据，尤其是与药用植物中生物活性成分的产生有关的次级代谢途径的基础研究。博落回是一种用于生产具有抗菌活性的苄基异喹啉类生物碱（如血根碱和白屈菜红碱）的药用植物，博落回的基因组草图包含22328个预测的蛋白编码基因，在这些基因中发现了16个代谢基因在功能上参与了血根碱和白屈菜红碱的生物合成，为生物工程研究苄基异喹啉生物碱的代谢途径提供了知识基础。新穿心莲内酯是一种具有抗炎和抗病毒活性的二萜类化合物，在穿心莲中含量很高，通过整合Illumina短读测序、PacBio长读测序和高置信度测序平台报道的穿心莲基因组草图总共包含了25428个蛋白编码基因。基于对基因组和转录组测序数据的综合分析，确定了编码二萜合成酶，细胞色素P450单氧酶，2-氧化戊二酸依赖性双加氧酶和UDP依赖性糖基转移酶的基因可能与二萜内酯生物合成途径有关。除了上面介绍的大规模功能基因组学研究之外，在某些药用植物（如丹参）中也进行了包括基因过表达和定向诱变在内的大规模转基因实验。

有几种基于基因组的生物信息学分析的基本工具：PLACE和PlantCARE都是能够扫描查询基因启动子区域内潜在顺式元件的Web服务器。WebLogo是基于网络的用于氨基酸或核酸序列保守性分析的应用程序，用易于理解的图形序列徽标表示通过多序列比对检测到的共有序列，对于发现潜在保守序列（如基因组区域内的蛋白质结合位点）十分有用。基于Web的工具PlantTFcat对于全基因组转录调节因子的全基因组鉴定和分类具有很高的覆盖率和准确性。综上所述，以上工具可以用于基于基因组的药用植物转录调控机制研究。

3. 转录组学研究

3.1 转录组范围分析

分析植物基因的时空表达模式可为研究人员提供有关功能研究的提示。在早期阶段表达序列标签（EST）数据经常用于药用植物的转录组研究，但是EST测序数据集的覆盖范围有限，很难追踪表达较弱的基因。基于探针杂交的微阵列技术为基因发现和表达分析提供了更高的覆盖范围。新一代测序技术的出现使研究人员能够以前所未有的产量和深度研究药用植物基因的转录活性，基于新一代测序平台进行多个测序项目以检查草药基因的组织或器官特异性表达模式，还研究了不同发育阶段或治疗点的转录动力学。对5年，12年和18年的人参根进行了转录组范围内的分析，为人参皂苷生物合成机理研究提供一些有价值的线索。

迄今为止已经对数十种药用植物进行了转录组学的研究。测序和微阵列分析数据在多个数据库中公开提供，例如GEO（基因表达综合数据库），SRA（序列读取档案），ArrayExpress，MPGR，HMOD，DsTRD（丹参转录资源数据库）和GarlicESTdb（大蒜EST数据库）（表1），此外还有几种用于植物转录组基础研究的通用工具（表2）。

对于基于微阵列的差异表达基因检测有几种基本软件包（如SAM微阵列的重要性分析）。但是在许多情况下，基于微阵列的研究需要进行meta分析，例如通常对独立的阵列数据集进行水平meta分析以揭示在相同的植物物种中不同生物学条件下的基因表达模式。在另一种情况下应将微阵列数据与表型组学，基因组，表观基因组和/或蛋白质组学数据结合起来进行分析。为此提供了一些工具包用于微阵列meta分析。iArray（集成阵列分析）是兼容跨平台和跨物种微阵列数据分析的软件包，它提供了一些用于阵列数据分析（包括数据预处理，共表达分析，差异表达分析，功能和转录注释以及图形可视化）的功能模块。BRBArrayTools是另一个用于微阵列数据meta分析的集成软件包，它支持微阵列表达数据，转录组测序数据和meta分析的拷贝数数据，提供简单的操作界面并生成图形结果输出（如热图，层次聚类和KEGG通路）。转录组测序数据分析有两个条件：首先，如果基因组可用于药用植物，则TopHat和Cufflinks的组合或HISAT，StringTie和Ballgown的新近发展组合将对转录组测序阅读比对，完整转录组装配和比较基因表达分析有用。其次，在大多数情况下所研究的非模型植物缺乏基因组信息。在这种情况下应使用Trinity或SOAPdenovoTrans进行从头转录组组装。使用Bowtie或Bowtie 2（两个用于序列作图的有效工具）进行RNA序列读取比。与Bowtie相比，Bowtie 2特别适合将长测序读数（长于50 nt）与长参考序列比对。基因调控机制研究的另一个关键是全转录组化学修饰图谱（称为表观转录组学），用R语言开发的PEA工具包为植物表位转录组分析提供了一系列有效的解决方案，包括基因集的测序短序列匹配，模体识别和功能富集分析。

3.2 共表达，网络和功能分析

具有相似表达模式的基因通常在转录水平上受到协调调节，表明这些共表达的基因可能与功能相关的途径有关，尤其对于药用植物涉及次级代谢基因共表达网络的研究。小花紫草中的共表达分析发现了20种编码紫草酸/绿原酸生物合成的酶的功能基因和48种编码紫草素产生的酶的功能基因。根据转录组测序数据，在穿龙薯蓣中构建了一个由15个子网络组成的加权基因共表达网络，其中由4665个基因组成的4个子网络可能参与薯蓣皂甙生物合成的调控。

目前仅有少数几个与药用植物共表达网络有关的数据库。例如除了带注释的基因家族和miRNA的序列信息外，croFGD还为用户提供了基因共表达网络的信息和用于识别功能子网络的工具。最初构建AraNet是为了存储拟南芥的功能基因网络，最近更新的AraNet v2具有更好的基因组覆盖率（约占编码基因组的84％）和注释准确性，AraNet v2中还添加了28种非模式植物物种（如大豆和葡萄）的协同功能基因网络。还有一些用于网络构建和功能分析的有用工具。Cytoscape是一个开源软件环境，其核心功能是可视化呈现相互作用或调控级联反应，例如蛋白质-蛋白质相互作用（PPI）和遗传调控关系。将插件与多个实用程序集成在一起可以扩展Cytoscape的功能，例如可以将诸如表达谱和化学修饰的几个关键特征集成到图形网络中。在线服务agriGO是一种用于对植物基因集进行基因本体富集分析的工具，其更新版本agriGO v2.0共支持13种药用植物的功能富集分析，这种功能分析有助于研究人员研究在药用植物中共表达的基因组的生物学作用。两个R软件包WGCNA（加权相关网络分析）和INfORM（网络响应模块推论）可用于基因共表达网络分析。WGCNA软件包为用户提供了网络构建，相关模块检测，功能基因选择，拓扑属性计算，数据模拟和可视化等6个主要功能。INfORM也是从某些网络中识别具有生物学意义模块的综合工具，新开发的INfORM应用程序为非专业用户提供了直观的图形界面。

3.3 ncRNA发现和功能研究

转录组测序数据的另一种用途是植物ncRNAs（如miRNAs和lncRNAs）的发现和功能分析。药用植物miRNAs已被证明在器官发育和次级代谢中具有关键的调控作用。一些证据表明植物源的miRNAs可以被传递至哺乳动物系统，并执行特定靶标的跨生物界的调控。一些报告显示了植物miRNAs在治疗癌症和抑制甲型流感病毒感染中的价值。已通过全转录组研究在丹参，洋地黄，银杏和人参中鉴定了lncRNAs，其中一些lncRNAs被报导与应激反应或小干扰RNA（siRNA）的产生有关。一些lncRNAs被发现是特定miRNAs的下游靶标，这使得基因调控网络比以前认为的要更复杂。

最近建立了一个针对药用植物的miRNA数据库，最新版本的MepmiRDB（药用植物microRNA数据库提供了从29种药用植物中鉴定出的miRNAs的序列表达和靶标信息。MepmiRDB的构建依赖于几种生物信息学工具：首先，基于在miRBase中注册的绿色植物的成熟miRNAs和药用植物的sRNA-seq数据，进行基于序列同一性的搜索以鉴定药用植物中的保守miRNA候选物。其次，基于转录组测序和sRNA-seq数据，可以使用miRPlant和miRDeep-P等计算工具预测新的针对特定物种的miRNAs。然后，RNAshapes和RNAfold均可用于检查预测的miRNA前体的二级结构，因为大多数前体可形成发夹状结构。与本地安装的RNAshapes不同，RNAfold是用于二级结构预测的在线服务，它独立于本地机器存储器并且能够处理小于10sRNA-seq000 nt的查询序列。PmiRDiscVali是用于植物miRNA鉴定的另一个有用的软件包，可以通过PmiRDiscVali的输出图形表示miRNA前体二级结构和sRNA分布模式。基于降解组测序数据检测到的处理信号将标记在成熟miRNA编码区的末端。由PmiRDiscVali提供的三行可见证据可以帮助用户对miRNA候选物的可靠性做出判断。第三，psRNATarget是一种用于植物sRNA靶标的流行工具，可以进行miRNA靶标预测。TAPIR是另一种用于鉴定miRNA靶标的在线服务它还可以用于预测靶标模拟物。如上所述，一些植物内源性miRNA与跨生物界调控有关。IIKmTA可用于发现哺乳动物系统中的草药miRNA靶标。最后基于降解组测序数据，可以使用CleaveL或PARTA验证预测的miRNA-靶标对，经过验证的miRNA与靶标的相互作用形成了可通过Cytoscape绘制的调控网络。

除了用于miRNA研究的计算工具外，一些软件包对于其他ncRNA种类的鉴定和功能分析也可能是有价值的。例如基于转录组装配和sRNA-seq数据，可以使用NATpipe大规模鉴定天然反义转录物和相关的siRNA。人工miRNAs（amiRNAs）和合成反式siRNAs（syn-tasiRNAs）是有效的转基因工具，可用于植物中靶向基因的抑制。P-SAMS是一个提供应用程序用于简化和自动化设计amiRNA和syn-tasiRNA的网络工具。尚未公开与药用植物lncRNAs相关的数据库，但是有几种生物信息学工具可用于ncRNA鉴定，例如用于发现lncRNAs的PLncPRO和用于环状RNA（circRNA）预测的PcircRNA-finder。

4. 蛋白质组学研究

4.1 定性和定量分析

大多数蛋白质编码基因的功能由其蛋白质产物来实现，通过蛋白质组分析对基因产物进行鉴定和定量分析对于研究人员深入了解药用植物发育和代谢过程的机制尤为重要。相关研究采用2D聚丙烯酰胺凝胶电泳系统地分析长春花的蛋白质组，结合质谱鉴定了几种参与生物碱生物合成的蛋白质（如异胡豆苷合酶和色氨酸合酶）。菌根真菌定殖刺激铁皮石斛种子发芽，基于对转录组和蛋白质组学数据的综合分析研究了兰花种子共生发芽过程中的分子变化。蛋白质的生物学功能不仅取决于其线性氨基酸序列，还取决于其结构。此外蛋白质的稳定性和活性可能受翻译后修饰（如磷酸化，乙酰化，巴豆酰化和琥珀酰化）的影响。迄今为止，已经进行的一些关于蛋白质结构翻译和蛋白质修饰谱的研究将为药用植物发育或代谢过程的机制提供见解。

很少有针对药用植物的蛋白质组学数据库，但是蛋白质知识库（如UniProt和dPfam）可能对药用植物蛋白的鉴定和功能注释有用。PPI是复杂生物网络的核心模块。此外一种新蛋白的未知功能可能是部分的从其相互作用模式中推断出来的。在这方面可以研究药用植物中鉴定出的蛋白质之间的潜在相互作用。基于直系同源分析的非模型植物蛋白使研究人员能够在药用植物中构建PPI网络。因此存储模型植物PPI信息的数据库，例如BioGRID（相互作用数据集的生物学通用存储库），STRING（相互作用基因检索的搜索工具），IntAct，PAIR（预测拟南芥相互作用组资源）和PRIN（预测水稻相互作用组网络）可能有用。

5. 代谢组学研究

5.1 代谢物分析和基于代谢物的鉴定

与动物和微生物相比，植物可以产生更多的生物活性代谢产物，一些植物代谢物（如生物碱，花青素，类黄酮，奎宁和萜类）已被证明具有巨大的药用价值。迄今为止已经应用多种分析技术（包括气相色谱-质谱法，液相色谱-质谱法，傅立叶变换-红外光法，核磁共振，毛细管电泳-质谱法和液相色谱-光电二极管阵列法）对植物代谢产物进行鉴定、注释和定量分析。除了鉴定药物成分外，代谢组学研究对于药用植物材料的质量评估也很重要。例如通过超高效液相色谱与飞行时间质谱联用的非靶向代谢组学方法鉴定了15种能够区分不同金钱榕的糖基化黄酮标记物。对金钱榕基于化学分类的分析结果与基于基因组的分类学研究高度一致，对于给定的各种金钱榕，化学标记的稳定性不受植物的地理位置和生长条件的影响。从这个角度来看，代谢标记物是药用植物鉴定的有效工具之一。

5.2 生物信息学辅助的代谢途径和药物成分研究

了解与植物代谢有关的调控级联反应是药用植物遗传改良和代谢工程的第一步，接下来介绍有助于绘制特定代谢途径的数据库和软件。MPGR为用户提供14种药用植物的基因组信息和与这些植物中发现的生物活性成分相关的丰富信息（包括这些活性成分的化学结构，关键酶和生物合成编码基因）。HMOD是一个可容纳来自多种药草的多种组学数据的综合数据库，它包含与代谢组学研究相关的两个功能模块：（1）“途径”模块提供与药物成分（如硫代葡萄糖苷，甜菜碱，咖啡因和异黄酮）相关的生物合成途径和催化酶的信息，连接到KEGG通路数据库；（2）“代谢组学”模块收集并总结了已发表的有关药用植物的代谢组学研究，包括研究机构，材料和方法以及研究结论。据报道长春花可以合成具有药学重要性的萜类吲哚生物碱，CathaCyc数据库为用户提供390条途径，涉及1347种与长春花中萜类吲哚生物碱及其代谢前体的合成有关的酶。通过转录组测序数据分析得出并通过柱状图可视化参与长春花代谢的酶编码基因或其他关键调控因子的表达模式。PathPred是功能强大的Web服务器，可用于预测给定化合物的多步合成路径。基于结构相关化合物可能共享通用途径的假设，通过对KEGG化合物数据库的相似性搜索来补充给定化合物化学反应的预测，但是这种基于相似性的方法可能不会破解某些衍生物的专门途径。

代谢组学研究的最终目标之一是将特定的植物化学成分与其治疗价值联系起来。但是许多传统处方是从植物原料的混合物中制备的，导致一组具有不同化学性质的代谢物与相同的药理学指标相匹配。因此报告药用植物生物活性化合物公共数据库的建设应该是向传统医药工业发展的第一步。已有数个可容纳从药用植物中鉴定出的生物活性成分的化学结构和/或治疗价值的储存库（表1），例如SACPD（沙特抗人类癌症植物数据库），MAPS（药用植物活性，植物化学和结构数据库），DIACAN（抗糖尿病和抗癌药用植物数据库），AromaDb，NeMedPlant，IMPAPT，Phytochemica，SerpentinaDB，InDiaMed，KNApSAcK和HIT。传统中药数据库@Taiwan提供了从药用植物中分离出的2万多种纯化合物的2D和3D结构信息用于传统中药研究。TCMGeneDIT通过文本挖掘收集了有关疾病、传统中药靶基因、靶基因相关信号通路和PPI的信息，从而推断中药对基因表达的调控作用。随着代谢组学数据可用性日益增加，在过去几年中已经建立了不仅仅限于传统中药的更全面的数据库。CMAUP（有用植物的集体分子活性）数据库提供了从5645种植物中鉴定出的47645种成分的信息，包括分配给234条KEGG途径的646种治疗靶标。NPASS（天然产物活性和物种来源）是另一个数据库，它存储了与8636个目标（包括2946个蛋白质，1352种微生物和1227个细胞系）相关的35032个天然产物，包含446552个天然产物-靶标对的定量活性记录。TarNet是一个收集有关特定生物途径的天然产物-蛋白质相互作用和PPI信息的数据库，通过将查询基因或蛋白质映射到PPI数据库帮助研究人员构建与特定疾病相关的网络。

6. 综合组学研究的工作流程：石斛兰研究为例

以上内容分别介绍了药用植物组学研究的最新进展，包括表型组学，分类学，基因组学，转录组学，蛋白质组学和代谢组学（图1）。但在许多情况下（如植物鉴定和植物代谢机制研究）应对多种组学数据进行综合分析来实施研究任务。目前已对具有药用和观赏价值的石斛兰属植物进行了数项组学研究，本研究将以石斛兰为例提出一种生物信息学辅助的药用植物综合组学研究工作流程。

如图2A所示，3个石斛兰种包括铁皮石斛（Dof），霍山石斛（Dhu）和黑毛石斛（Dwi）具有如植物高度和叶片形状等可区分的表型，然而很难区分自然界中分布的数十种石斛兰。每个石斛兰种的形态和生理数据都应记录并存储在MPID等公共数据库中，这些数据集有利于对于分类学研究和植物鉴定，但是某些表型特征可能会受到环境因素的影响，传统上又仅将某些石斛兰属植物的干茎用作药材，这两种情况都将干扰基于表观数据的植物材料鉴定。开发多种类型的DNA标记物是对石斛兰属物种进行分类和鉴定的强大工具（图2B）。MMDBD是药品的DNA条形码数据库，可容纳39种石斛兰的DNA标记信息并与新数据提交兼容。

已经发布了Dof的基因组草图（图2B），可通过NCBI FTP网站或HMOD数据库进行访问。HMOD为用户提供了“GBrowse”工具来搜索特定的基因组位置或带注释的基因模型。近年来通过双链RNA介导的基因沉默、基于CRISPR/Cas9的基因编辑或基因过表达对石斛兰进行了大规模的功能研究。依靠Dof的基因组可用性可以使用生物信息学工具进行大规模功能分析，例如PlantCARE可用于发现启动子区域内的顺式元件；PlantTFcat可用于转录调节基因的识别和分类；WebLogo可以用于发现保守序列基序；agriGO v2.0可以用于基因功能富集分析。

石斛兰的药用和经济价值激发了对基因调控机制越来越多的研究。全转录组分析使研究人员能够获得石斛兰基因时空表达模式的全局视图，公共数据库（如HMOD，MepmiRDB，GEO和SRA）中已有数十种石斛兰的转录组测序（包括转录组测序，sRNA测序和降解物组测序）数据集（图2C）。根据Dof的基因组信息，“HISAT + StringTie + Ballgown”软件包可用于转录组组装和基因表达谱分析。最近针对3种石斛兰物种（包括Dof，Dhu和Dwi）进行了转录组测序实验，通过将转录组测序定位到Dof基因组上发现Dwi的映射比远低于Dof和Dhu，表明与Dwi相比，Dhu可能与Dof更紧密相关。

基于石斛兰的转录组测序数据，可分别使用PLncPRO和PcircRNA_finder预测lncRNA和circRNA（图2C）。分别使用PmiRDiscVali和NATpipe在整个转录组范围内搜索miRNAs和天然反义转录物衍生的siRNA；psRNATarget可用于预测sRNA靶标；CleaveLand可用于基于降解物组测序数据的靶标验证；Cytoscape可用于绘制由ncRNA-靶标对构成的基因调控网络（图2C）。

对于石斛兰的蛋白质组学研究，蛋白质参考数据库（如UniProt和Pfam）可用于注释石斛兰蛋白质编码基因。此外BioGRID，STRING和IntAct有利从石斛兰蛋白质组中鉴定PPI（图2D）。

石斛兰的药用价值归因于其次生代谢产物（如石斛碱和多糖）。根据基因组学，转录组学和蛋白质组学研究的数据可以从KEGG通路数据库推断出与石斛兰和多糖的生物合成有关的某些功能基因（如酶编码基因和关键调控因子），还可以使用PathPred预测相关的合成途径（图2E）。

已有几种R软件包可用于多种组学数据类型的综合分析，并在最近的综述中进行了总结。R包mixOmics是用于组学数据整合与生物学模型预测的。mixOmics具有许多优势：它与单个和多个组学数据集分析都兼容；为用户提供新颖的稀疏变量从而可以进行特征选择；提供了多个关键功能以供用户使用图形输出来展示其所选功能。

综上所述，以代谢组学研究为中心通过整合不同类型的组学数据提出了针对石斛兰的研究框架（图2）。我们提出以下观点：（1）应通过综合分析表型组学，基因组学和代谢组学数据来对石斛兰中的植物材料进行鉴定；（2）对基于多组学数据的次生代谢机制研究为基于分子育种和/或生物工程的石斛兰质量提升铺平了道路。

图2 石斛兰属基于多组学数据集成研究的工作流程

研究包括了石斛兰属的三个物种，即铁皮石斛（Dof），霍山石斛（Dhu）和黑毛石斛（Dwi）。（A）表型组学和分类学研究，根据图片，3个石斛兰属物种具有明显的形态特征，例如植物高度和叶片形状。（B）基因组学研究，包括基因组测序，DNA标记物开发和功能基因组学分析。（C）转录组学研究，包括基因表达图谱，ncRNA发现，miRNA靶标识别和网络构建。（D）蛋白质组学研究，包括功能蛋白的鉴定和定量和PPI网络构建。（E）代谢组学研究，包括途径预测和验证和基于代谢组学的分子育种和生物工程。石斛兰物种的精确鉴定需要对表型，基因组学和代谢组学数据进行综合分析，此外，工作流程中引入特定的数据库（红色突出显示）和生物信息学工具包（紫色突出显示）。

结论

高通量技术和相关分析工具的广泛应用极大加速了组学研究的进展。本文总结了专门针对药用植物组学研究的最新成果，在公共数据存储库和计算工具的帮助下建议将基于多组学数据的集成方法用于药用植物研究（如植物鉴定和代谢机制研究）。有关药用植物的组学研究仍处于早期阶段，应该从许多方面做进一步的研究。首先，越来越多的证据表明了表观遗传修饰对基因表达的影响，可以进行表观基因组和表观转录组测序以研究表观遗传修饰对药用植物次生代谢途径的影响。其次，对新型ncRNAs（如lncRNAs和circRNAs）的发现和功能分析将为药用植物的基因调控网络作出贡献，可以建立针对药用植物的ncRNA数据库（如MepmiRDB）。第三，几个以前发布的不再可用的数据库对药用植物研究具有价值，鼓励相应的研究团队重新激活这些数据库。当前可用的生物信息学资源也应定期维护并不断更新。

原文链接： https://academic./bib/advance-article-abstract/doi/10.1093/bib/bbz132/5627745?redirectedFrom=fulltext

清新树木分割线