分享

病毒与癌症

 闲书5mg7dd8c1w 2018-12-05

六种病毒相关癌症的基因组特征识别了

肿瘤免疫微环境的变化和改变的遗传机制


Genomic characterization of six virus-associated cancers identifies changes in the tumor microenvironment and altered genetic programming


这篇文章主要讲的是作者想要利用TCGA等基因组数据集,进一步了解病毒如何影响不同癌症类型的肿瘤免疫反应,所以将计算工具应用于TCGA和其他基因组数据集,明确病毒感染如何形成6种病毒相关肿瘤类型的肿瘤免疫微环境和遗传结构。在所有癌症中,微环境的细胞组成因病毒状态而有所差异,与病毒阴性肿瘤相比,病毒阳性肿瘤通常导致可溶细胞渗透加剧。通过对这些患者渗透性T细胞受体库的分析显示:在多种癌症中,EB病毒感染与受体多样性降低有关,表明抗原驱动了克隆T细胞反应。除此之外,作者获取到了与病毒相关并且在转录组发生变化的组织特异基因的表达特征,这些特征成功预测了独立数据集中的病毒状态,并且与预测得到的患者预后的免疫和增殖相关特征也有关联。总的来说,这些分析表明病毒在不同肿瘤中有不同的作用,这对免疫治疗也有相应影响。

免疫系统反制点抑制剂在治疗癌症方面取得了显著的成果,这些药物可以启动强大的抗肿瘤免疫反应,诱导缓解并延长多发性恶性肿瘤患者的生存时间,但这些疗法的反应率很低,因此需要识别能够应答患者的生物标志物。肿瘤突变负载已被确定为此类生物标志物之一,具有高突变负载的肿瘤更容易表达且能够被适应性免疫系统识别为非自身的免疫原性新抗原。这种关联在肿瘤类型中得到了验证,高突变肿瘤比低突变肿瘤产生更高的应答率,而且在肿瘤类型中,应答患者的突变负载明显更高。由于有这些相关性,不难猜想肿瘤微环境中抗原的其他来源在免疫治疗反应方面可能具有类似的功能。

病毒感染是肿瘤抗原的来源之一,有7种病毒被公认是致癌的,它们分别是乙型和丙型肝炎病毒(HBV和HCV),人乳头瘤病毒(HPV),人疱疹病毒4,也就是EB病毒(EBV),人类T细胞嗜淋巴细胞病毒I型(HTLV-I),梅克尔多元癌细胞病毒(MCV)和人疱疹病毒8(HHV8)。我们知道HPV、HTLV-I、EBV、MCV和HHV8通过表达其基因组编码的致癌蛋白,直接参与肿瘤发生。相反,HBV和HCV参与间接致癌作用,能引起感染器官的慢性炎症。与新抗原一样,这些病毒表达的蛋白质被免疫系统识别为外源蛋白,在某些肿瘤类型中,感染与免疫活动增强有关。因此,免疫系统反制点抑制剂为这些癌症提供了潜在有效的治疗选择。

目前,一些研究已经对来自TCGA的数千个肿瘤样本中病毒感染的发生进行了描述。基于基因组的免疫谱分析最新技术使得可以系统地描述大群体患者的肿瘤微环境。也有使用基因表达信息来推断肿瘤微环境中不同免疫细胞类型渗透水平的方法。也可以使用原始RNA-seq测序数据来分析来自大量肿瘤数据集的TCR和B细胞受体库。这些方法都可以进行大规模分析去检测关联程度。作者将这些工具应用于TCGA和其他数据集,以确定病毒感染如何影响六种肿瘤类型的免疫反应,分别是膀胱尿路上皮癌(BLCA),宫颈鳞状细胞癌(CESC),结肠直肠腺癌(COADREAD),头部和颈部鳞状细胞癌(HNSC),肝细胞肝癌(LIHC)和胃腺癌和食管癌(STES)。作者首先测试了CD8+ T细胞,B细胞,NK细胞和巨噬细胞的渗透水平如何根据病毒感染状态而变化。然后对大量肿瘤数据进行TCR测序,以确定病毒感染与克隆性T细胞反应的相关程度。为了将研究扩展到包含病毒感染信息的数据集之外,作者选用了一个基因特征来预测研究中每种肿瘤类型的病毒感染状态。然后,作者在功能上描述该特征并将其应用于生存-元分析,可以用来验证关于病毒感染如何影响癌症特异性患者预后的多数据集一致性。

数据集的来源

作者从先前研究中下载病毒丰度信息,获取了来自GDAC FireHose的2341个RNA-seq基因表达信息,随后对TCGA RNAseqV2数据进行免疫渗透得分计算。从Genomic Data Commons legacy archive中下载TCGA样本的原始RNA-seq配对末端读段,使用Bowtie2将RNA-seq读段与人参考基因组hg19比对,体细胞突变注释格式文件来自GDAC Firehose。从先前的出版物下载了TCGA样本的MANTIS微卫星不稳定性得分。其他基因表达数据以及相关病毒感染和存活信息来源于GEO以及PRECOG编号为GSE40774、GSE6791、GSE55550、GSE39366、GSE65858、GSE49288、GSE62232、GSE44001的数据。认为病毒显示≥100 RPHM的所有TCGA样本认为是被该病毒感染。

免疫渗透得分和T细胞受体谱的计算

CD8+ T细胞、B细胞、NK细胞和巨噬细胞的免疫渗透得分是按照之前描述的方法使用四个验证过的标记来计算;使用来自R GSVA包的单样本基因集富集分析,利用已验证过的一组基因标记来计算其他免疫细胞的富集得分;使用TRUST在TCGA RNA-seq读段上进行T细胞受体谱分析,利用每个样本每千次映射TCR读段的克隆类型来估计TCR克隆类型多样性;使用ESTIMATE R包计算ESTIMATE免疫得分。

病毒感染基因表达特征的推导与应用

作者设计病毒感染基因表达特征来获取TCGA肿瘤类型中病毒阳性和病毒阴性患者之间转录组范围的差异基因表达活性,为了定义该特征,构建了转录组中每个基因的逻辑回归模型,其中把患者的病毒感染状态作为反应变量,基因的表达水平作为预测变量。为确保该特征能高精度地获取病毒阳性和病毒阴性样本之间的差异,把潜在的混杂因素,包括阶段,年龄,等级,淋巴结转移状态和微卫星不稳定状态作为模型中的协变量。用于每个基因的模型如下公式化,其中Y是患者的病毒感染状态(1表示阳性,0表示阴性),X1是所考虑基因的表达,X2到Xn是n-1个协变量:

从该逻辑回归模型中,可以得出每个基因的β系数,β系数表示该基因在病毒阳性样本与病毒阴性样本相比是上调还是下调,以及每个基因的表达水平和病毒感染状况之间的关联p值。然后使用这些统计数据将最终的病毒感染基因表达特征定义为一组基因的特异性分布,这能表明基因表达水平与患者病毒感染状况之间关联的大小和方向(上调或下调)。在上调的权重分布中,β系数> 0的所有基因的p值用-log10转换,其余设置为0,而在下调的权重分布中,将β系数<0的基因用-log10转换,其余设置为0。最后得到>10的数字被设定为10,这样可以避免出现异常值,然后将所有数字重新调整为0到1之间,以获得最终的权重特征。

计算病毒感染得分

为了计算患者的病毒感染得分,将这些特征与患者基因表达数据集一起输入到具有分类表达(BASE)算法的 the Binding Association中。BASE的原理是通过检查每个输入标记的权重,具有高上调权重基因的高表达患者和具有高下调权重基因低表达的患者被赋予该特征的较高得分,而偏离该模式的患者被分配较低得分。为了评估特征的准确性,按病毒感染得分对每位患者进行排名,然后进行迭代过程,其中每位患者在排名列表中的得分被用作阈值,通过该阈值将患者分类为病毒阳性或病毒阴性。对于每个迭代,计算得到了分类的敏感度和特异性,然后使用这些数字计算AUC。置信区间由AUC分布确定,AUC分布是从各自数据集的200个样本中计算出来的。

统计分析

利用R中“glm()”函数进行Logistic回归建模以获得病毒特征,使用R glmnet包完成正则化逻辑回归建模。对于两类生存比较,根据样本是否高于或低于病毒中位数得分,将样本分为高组和低组,使用R survival包的对数秩检验计算生存分布之间的差异显著性。Cox比例风险回归用于模拟病毒得分作为连续变量和患者生存之间的关联,对于Meta分析,将来自Wilcoxon秩和检验或Cox比例风险模型的p值转换为z分数,然后通过Stouffer方法将z得分转换成meta-z得分。

作者由此得出以下结果:

(1)病毒感染与肿瘤微环境改变有关。下图A中,6种瘤类型有5种显示感染与CD8+ T细胞浸润水平升高相关,CESC和HNSC表现出显著差异。B细胞和NK细胞具有类似趋势,B细胞中,其BLCA,CESC和HNSC有显著差异,NK细胞也是如此,其CESC, HNSC和STES在病毒阳性样本中有显著升高。相反,在比较HNSC样本时发现巨噬细胞的丰度明显降低。一组独立的免疫基因表达特征显示了类似的结果,同时也表明病毒阳性的COADREAD和STES样本中具有更高水平的免疫抑制性T调节和骨髓源性抑制细胞。

 

接下来作者研究了病毒的类型如何影响这些关联,将感染特定病毒的患者与患有相同癌症的病毒阴性患者进行比较(下图B)。在CESC中,许多病毒与升高的渗透水平相关,最常见的病毒HPV16与更高水平的CD8+ T细胞,B细胞和NK细胞相关。在HNSC中,也表现出显著的HPV16感染,观察到CD8+ T细胞,B细胞和NK细胞渗透增加以及巨噬细胞渗透减少。在STES中,样本最容易被EBV感染,EBV阳性样本中CD8+ T细胞和NK细胞水平显著升高,B细胞渗透水平降低。令人意外的是,这些相关性在HBV感染的LIHC中是相反的,HBV阳性样本显示出显著较低水平的CD8+ T细胞和NK细胞渗透。这些样本还表现出HLA-I类基因的表达降低,表明这些抗体中抗原呈递机制的丧失。综上可知,不同家族的病毒以不同的方式改变着它们所感染样本的肿瘤微环境。

 

 

为了证实免疫渗透的病毒相关变化不是由于新抗原丰度的改变,作者比较了非沉默突变负载如何因普通病毒状态和特定病毒感染而不同。大多数情况下突变负载与病毒感染无关。然而在HNSC中,发现病毒感染与明显较低的突变负载有关。也在STES和LIHC中观察到类似的趋势,在STES中,EBV感染与较低的突变负载有关,而在LIHC中,HBV感染与较高的突变负载有关。突变负载和免疫渗透之间的这些反向关联表明:基于病毒的免疫渗透差异不是因为新抗原丰度导致的,也表明了病毒相关免疫的编辑过程。

(2)MSI扰乱了病毒相关的免疫渗透差异。MSI是一种与DNA错配修复途径缺失导致的突变负载显著升高相关的疾病,在结直肠癌,胃癌和子宫内膜肿瘤类型中尤为普遍,并且已被证明与高水平的CD8+ T细胞渗透有关。作者假设病毒阳性和病毒阴性的COADREAD和STES样本之间免疫渗透的差异可能因基于MSI的免疫渗透差异而扰动。在COADREAD中,MSI样本显示出比病毒阴性或病毒阳性MSS组更高的CD8+ T细胞渗透水平(如下图)。在MSS样本中,与病毒阴性对应物相比,病毒阳性组的CD8+ T细胞渗透和非沉默突变负载有适量增加。在STES中,这些关联不那么显著,而在MSS组中,与病毒阴性样本相比,病毒阳性样本表现出不显著的更高水平的CD8+ T细胞渗透和更低的突变负载。这些结果表明MSI状态在COADREAD和可能在STES中扰乱了基于病毒的免疫关联。但与其他癌症不同,病毒阳性COADREAD中免疫渗透的增加可能与新抗原丰度增加有关。

(3)EBV感染与T细胞受体多样性降低有关。在本研究中使用TRUST从每个TCGA肿瘤类型的大量RNA-seq读段中调用TCR特异性读段。在所有肿瘤类型中,TCR读段丰度与基于表达的CD8 + T细胞渗透程度密切相关。此外,感染和未感染样本之间TCR读段丰度的差异与之前的发现基本一致,表明渗透分析所选择的计算方法之间拥有一致性。将每个患者TCR谱的多样性定义为每千个TCR读段的独特克隆型数,并比较每个肿瘤中感染和未感染样本之间该度量的差异(下图A)。多数情况下,各亚组间差异并不显著。然而,在STES中,感染EBV的样本表现出显著较低水平的TCR多样性,表明了抗原驱动的T细胞反应。汇总了各种病毒在癌症类型中的关联,并使用meta-Z-score方法确定了显著性(下图B)。EBV仍然是与TCR多样性水平不同相关的唯一病毒。这些结果表明,EBV蛋白的存在可以在不同的肿瘤类型中诱发克隆性T细胞反应。

为了验证这些发现,作者获得了来自先前研究的MiTCR TCR分析软件计算的TCR多样性指标,并比较了这些指标中的每一个如何在感染特定病毒的样本和没有感染的样本之间变化,结果与先前的一致。EBV感染的STES样本的TCR均匀性适度降低,这表明了克隆性T细胞反应的发生。MiTCR和TRUST结果相互增强,提供了与病毒感染相关的T细胞动态改变的有力证据。

(4)组织特异性病毒感染基因特征可重复预测感染状态。为了解决研究病毒感染如何与不同临床变量相关联的问题,作者创建了一个可以预测病毒感染状态的基因表达特征,为了设计这个特征,应用了先前开发的方法,该方法基于基因表达水平能够在广义线性模型中区分病毒感染患者与未感染患者的程度。在病毒感染样本和未感染样本之间存在更显著差异的基因在特征中的权重大于未明显区分两组样本的基因。为了减少混杂对该特征产生的影响,每个基因的模型针对年龄,阶段,等级,淋巴结转移状态和MSI状态进行调整。

作者首先将此方法应用于TCGA HNSC数据集,比较任何病毒呈阳性的样本与所有病毒呈阴性的样本。将特征应用于TCGA HNSC数据集,以计算每位患者的病毒感染得分,并使用这些得分来分类样本是病毒阳性还是病毒阴性,得到了分类准确度为0.92的AUC值(下图A)。为了确认这种效能不是TCGA数据集中过度拟合的结果,作者将TCGA得到的特征应用于一系列额外的微阵列数据集,该特征也保持了极好的准确性。这种效能与正则化逻辑回归模型的效能相当,但数据集之间的一致性更高。

为了检查基于特征的过程是否可用于对其他肿瘤类型进行分类,作者在另外两种癌症CESC和LIHC中获取并测试了特征,其中有适当的测试数据集用于验证。每种肿瘤类型的特征在相应数据集中表现出高准确度的分类效能,这些证据表明了我们可以从多种肿瘤类型的表达信息推断出病毒状态。

考虑到病毒感染与不同肿瘤类型间免疫渗透增加之间的关系,作者假设可以使用来自不同肿瘤类型的特征来预测病毒感染,以一种组织不可知的方式成功预测感染状态将意味着在病毒感染后肿瘤类型之间具有共同的生物学特性。从六种病毒相关的TCGA肿瘤类型中的每一种中获得病毒感染特征,然后使用AUC评估每种特征在跨组织分类中的情况(下图B),结果发现每个特征在其相应的组织类型中分类效能最佳。然而还确定了四种高精度AUC的跨组织预测,BLCA特征在CESC中表现良好,CESC特征在BLCA和HNSC中表现良好,以及 STES特征在HNSC和CESC中表现良好。

(5)病毒感染基因特征与增殖和免疫功能相关。在功能上,病毒感染与诱导增殖相关的表达过程和免疫渗透增加有关。因此,为了更好地描述由病毒特征检测出的信号,作者检测了每个特征对单基因增殖标记、细胞增殖标记KI67(MKI67)和多基因ESTIMATE免疫标记的权重(下图C)。发现MKI67在BLCA,HNSC和LIHC中的权重最高,其权重对应于病毒感染的癌症中显著更高的增殖率。此外,CESC,COADREAD,HNSC和STES特征中至少40%的ESTIMATE基因的权重水平与病毒感染样本中显著较高的免疫渗透水平相关,在BLCA和LIHC中,该数字分别为10%和4%。考虑到病毒感染得分受显著基因的影响比不显著基因的影响更大,这些结果表明CESC,COADREAD,HNSC和STES特征主要受免疫基因的影响,而BLCA特征检测到免疫和增殖信号的组合,LIHC特征主要是以增殖为主的,还证实了来自这些癌症的病毒阳性样本更有可能对免疫疗法产生反应。

 


(6)表达推断的病毒状态与癌症的存活差异相关。有两种肿瘤类型,即HNSC和BLCA,它们在组织特异性病毒得分和患者存活率之间表现出显著的Meta关联。在HNSC中,该得分与患者预后延长一直相关。然而在BLCA中,这种趋势形成反差,BLCA特异性病毒评分可重复地与较短的存活率相关联。为了确定这些关联是否是由每个组织各自的病毒特征获得的免疫或增殖相关过程引起的,作者将每个肿瘤类型的一个数据集中的样本二分为特征高和特征低组,然后检测MKI67的表达和免疫得分之间的差异。在HNSC中,发现与特征性低组相比,特征性高的患者表现出显著更长的存活时间(下图A)和显著更高的ESTIMATE免疫评分(下图B)。然而这些组的MKI67表达水平没有差异(下图B)。为了确认这些关联的有效性,将其复制到另一个缺乏生存信息但具有金标准病毒感染信息的HNSC数据集中。结果表明,HNSC病毒感染可通过诱导肿瘤免疫反应而延长患者的生存表型。在BLCA中,特征性高患者表现出显著更短的存活时间(下图C)以及更高水平的MKI67表达和ESTIMATE免疫特征评分(下图D)。这一发现表明,BLCA中的病毒感染可诱导免疫渗透增加和细胞增殖增加,然而病毒感染与较短生存期之间的关联表明,肿瘤细胞扩散的能力超过了免疫系统控制肿瘤发展的能力。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多