【原】【LorMe周刊】利用基因组分箱法处理宏基因组数据中的病毒

LorMe青年 2022-04-01

展开全文

作者：王硕，南京农业大学博士在读。主要研究利用噬菌体防治土传病害。

周刊主要展示LorMe团队成员优秀周报，每周定期为您奉上学术盛宴！本期周刊为您介绍一种处理宏基因组学病毒群落的新方法，原文于2022年发表在《Nature Communication》上。

导读

宏基因组学技术的发展促使研究者在人体肠道中发现越来越多的病毒序列，帮助人们认识到肠道微生物对健康的重要性，但目前尚不清楚人体肠道中的病毒群落及其与胃肠道细菌的相互作用。本研究作者基于深度学习的宏基因组分箱算法与配对的宏基因组和宏病毒组数据集相结合，开发了PHAMB法，这种方法可以直接从大量宏基因组数据中分箱数千个病毒基因组，同时将病毒基因组转化为准确的病毒种群。为了验证该方法的可靠性，作者将该方法应用于人类微生物组计划2（HMP2）数据集，PHAMB从1,024个病毒群中恢复了6,077个高质量基因组，并确定了病毒-微生物宿主的相互作用。PHAMB可以应用于阐明现有和未来宏基因组数据中病毒的生态变化。

主要结果

一、从宏基因组数据中分箱和组装病毒种群的框架

作者使用VAMB生成宏基因组分箱，直接识别同种病毒基因组簇和跟踪一组样本中的种群（图1a），并将COPSAC数据集和Diabimmune 数据集作为训练和测试的标准。作者首先开发了一个随机森林（RF）模型来区分病毒和细菌基因组箱。RF模型的线下面积（AUC）为0.99，验证集上的马修斯相关系数（MCC）为 0.91（图1b），表明该模型能够非常有效地分离细菌和病毒簇。原因很可能是一个病毒评分低的序列不会导致对整个分箱的错误预测。与根据CheckV的单片段评估相比，该方法为Diabimmune和COPSAC数据集恢复了200个（190%）和771个（95%）高质量（HQ）分箱（图1c，d）。作者发现一小部分HQ片段在分箱过程中丢失，代价是恢复的基因组数量净增加。接下来，作者在两个纯病毒数据集和一个包含细菌、质粒和病毒的混合数据集研究了VAMB的病毒分箱性能以及模拟数据集的预测性能。混合数据集中，VAMB在具有>0.9恢复率和>0.9精度的分箱中比MetaBAT2表现出色，而所有模拟病毒基因组只有50%以上。在VAMB捕获的大多数小病毒基因组具有高召回率和精度，表明基因组大小对分箱性能的影响较小。具有高AUC的多个单片段病毒预测因子的MCC分数低，这意味着在给定阈值处的预测不是很准确（图1e）。相比之下，RF模型显示出高AUC（0.93）和MCC（0.87）。

图1 从宏基因组数据中分箱和组装病毒种群的框架

二、识别未从宏病毒组中鉴别的病毒基因组

将从宏基因组数据集获得的病毒种群与各自的宏病毒组进行比较后，作者在物种（ANI>95）水平和菌株（ANI>97）水平上恢复17~36%和9~28%的HQ病毒（图2a）。在宏基因组中恢复的宏病毒组病毒比例远高于预期，说明很大一部分肠道病毒种群可以从宏基因组数据中重建。作者还发现在病毒富集过程中可能会丢失很大一部分病毒种群或病毒种群不以诱导形式呈现，因为它们是整合的原噬菌体（图 2b）。作者估计在COPSAC数据集和宏病毒组中发现的病毒子集分箱的平均完整性更高（图2c）。作者发现91.4%的病例中，每个与COPSAC数据集病毒高度相似的病毒分箱都不包含不相关的片段（图2d）。仅考虑多片段的情况下，作者计算出碱基对的平均分箱纯度为97.4%，意味着平均2.55%的基因组未与相应的MVX病毒对齐。这表明大量宏基因组数据集中存在污染，或者是更完整的病毒。作者根据模拟数据进一步研究了污染程度，其中87.6%的病毒分箱精度为 1。对于多片段分箱，作者计算出的平均箱纯度为 94.5%，说明大多数分箱存在较低程度的污染。

图2 对宏基因组进行分箱可识别未从宏病毒组中识别的病毒基因组

三、重建 HMP2 IBD 肠道宏基因组学组的病毒组

作者将该方法应用于由27名健康对照、65名CD和38名UC患者组成的 HMP2 IBD 数据集。从数据集中，作者恢复了577个完整、6077个HQ、9704 MQ（中等质量）（图3a）和 122,107个LQ（低质量）的病毒分箱。还观察到基因组大小>200 kbp的较大病毒或巨型病毒的基因组完整性增加，并且单片段和病毒分箱恢复的相似病毒长度和分布都与CheckV质量等级相关（图3b）。即使在具有超过100个的样本特异性病毒分箱集群中，ANI中位数也始终很高（图3c）。群间ANI在接近属水平时要低得多，表明该方法能够在样本中识别和聚集接近菌株水平的病毒基因组。病毒种群653对应crAss噬菌体，在包含916 个crAss样基因组的HMP2 数据集中占据253个。作者使用全部916个分箱生成基于大终止酶亚基（TerL）的系统发育树，并根据它们的分箱病毒群发现病毒基因组的位置高度一致（图 3d）。病毒种群653形成了一个单系进化枝，除了一个分箱，而其他crAss样簇都是单系的。这表明无参考分箱产生了分类准确的病毒簇，在样本中聚合了高度相似的病毒基因组。

图3 重建人类肠道宏基因组群的病毒组

四、从病毒种群和MAG中探索病毒与宿主的相互作用

为了进一步扩展病毒宿主预测，作者在HMP2数据集的MAG和病毒种群之间进行了all-vs-all比对搜索，寻找原噬菌体。然后通过结合CRISPR间隔区和原噬菌体搜索，将分别来自拟杆菌门、厚壁菌门、放线菌门和变形菌门[WX1]的93.6%、74.4%、82.5%和65.0%的MAG与至少一种病毒连接起来。作者估计CRISPR间隔区和原噬菌体物种水平的宿主预测纯度为94.5%和75.6%，证实大多数肠道噬菌体的宿主范围狭窄。属于粪杆菌属和拟杆菌属的MAG似乎是热点，因为 99.7%至98.7% 可能与HQ病毒分箱相关，分别对应123和230个不同的病毒种群（图5a）。例如，在丰富的共生体如普通拟杆菌（簇216）中，作者观察到在多个样本中存在多种与病毒一致随时间推移的噬菌体信号（图4b）。当对包含580,383个细菌基因组的综合CRISPR间隔数据库进行类似搜索时，916个crAss样分箱中的512个被注释为拟杆菌属细菌。这些发现表明，在同一环境中，从拟杆菌CRISPR-Cas系统中提取的CRISPR间隔子并不经常靶向crAss样噬菌体。

图4 从病毒种群和 MAG 中探索病毒与宿主的相互作用

五、分箱的病毒种群富含在温和噬菌体中发现的蛋白质

使用病毒-宿主连接图和病毒蛋白质序列的基础上，作者根据预测的宿主属对蛋白质注释进行了排名。这些蛋白质高度富集了与病毒结构蛋白相关的注释。例如，在高达约60%的病毒中发现了Lambda阻遏蛋白，这表明数据集富含温和噬菌体（图5a）。TonB结构域还编码一个已建立的免疫显性表位[WX2]，这表明病毒群体在由其宿主表达时携带产生免疫的受体。逆转录酶蛋白也被大量检测到。这些蛋白质是噬菌体多样性产生区域中的已知模块，可导致特定病毒基因的高变异性。接下来，作者将病毒预测分数较低、CRISPR间隔物靶向预测分数更高、具有至少一个病毒标志基因的大于10 kbp的暗物质群体（与任何已知基因组都不相似的RF预测分箱的部分）注释为“病毒样'（图5b）。当对这些群落的读取丰度进行分层时，作者发现它们分别解释了样本中总读取丰度的2.77%、2.04%和17.7%（图5c）。此外，作者发现从至少40%不同疾病状态的患者中检测到5%的HQ和3.7%的病毒样人群。例如，在41%的队列中观察到HQ病毒种群簇653（图5d）。在98%的个体中观察到1338个病毒样种群，但与任何参考基因组的相似性较低（图5e）。然而，将暗物质箱标记为病毒时应谨慎，因为它们可能会不完整、受污染或包含编码病毒共享蛋白质的可移动遗传元件。

图5 病毒蛋白和暗物质宏病毒组

结论

作者开发了一种利用宏基因组数据分箱处理病毒基因组的方法。将该方法结合不同的模型与其它方法进行比较后，发现RF模型是最适合处理混合有机体组装数据集分箱的方法。接下来，作者利用该方法进一步对宏基因组数据中的病毒群落进行分析，发现这种方法可以识别在宏病毒组中未鉴别的病毒基因组并且利用这种方法重建了 HMP2 IBD 肠道宏基因组的病毒群落。最后，作者从病毒种群和MAG中探索了病毒与宿主的相互作用并且发现分箱的病毒种群富含在温和噬菌体中发现的蛋白质。通过上述研究，作者认为这种方法可以应用于现有和未来的宏基因组数据处理。

论文信息

原名：Genome binning of viralentities from bulk metagenomics data

译名：利用基因组分箱法处理宏基因组数据中的病毒

期刊：Nature Communication

发表时间：2022.02

通讯作者：Simon Rasmussen

通讯作者单位：哥本哈根大学