分享

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分 纯生信文章

 漠藩 2020-06-26

大家好~今天给大家带来一篇肿瘤免疫相关的6分+纯生信文章。为什么选择这篇文章带给大家呢?因为范文不仅用了非常简单的GraphPad Prism作图软件和GEPIA数据库就完成了,并且最重要的是利用了TCGA、GEO以及CCLE三大数据库分析并验证,思路清晰,逻辑链条完整,最关键的临床意义也相当明确。这篇文章2020年3月发表在“Cancers”上,题名为“Metabolic Plasticity in Ovarian Cancer Stem Cells ”,全文共包含8个Figure和5个Table。接下来我们一起挖掘这篇“方法简单,套路神仙”的纯生信文章套路吧~

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

研究背景

本篇范文研究的疾病——卵巢癌(OvCa)是女性第五大常见癌症。早期诊断为局限性疾病的妇女的五年生存率超过90%,但确诊时为第三期或第四期时,生存率急剧下降。OvCa尽管最初对化疗有反应,但仍有近75%的患者出现化疗抵抗性疾病复发。复发被认为是由于次优切除和残留的具有化学抵抗性的肿瘤细胞的存在,它们具有独特的适应环境、代谢、免疫和药理学提示的能力。

虽然肿瘤干细胞(CSC)克隆可能具有相同的遗传特征,但越来越多的证据表明克隆内存在显著的异质性。活化的CSC亚群可以进行表型转换,进入更增殖的上皮样状态,并伴有代谢向有氧糖酵解、氧合酶、脂肪酸氧化(FAO)和谷氨酰胺分解的转变。

数据解构

“联”——分子相关性分析及互作关系验证

作者选取了GEO数据库的两个包括卵巢癌的球状体和其亲本细胞的OCSC 数据集——GSE28799和GSE64999。

之前有小伙伴问到过关于如何筛选数据集,为什么通过原文中的关键词总是找不到文中应用的数据集呢?今天我来给大家解答一下。在一篇生信文章中,最重要的就是样本信息。数据集千千万,如何选择是关键~

数据集的选择

首先,我们要确定研究的科学问题。疾病一般不会变,都是各位的研究领域,如果发个1-2分的文章灌灌水,那么选择与疾病相关的几个包含正常样本对照的数据集就可以了。那如果想冲一冲上三分五分,选择数据集上我们就要花费很多的精力啦!成年人的世界就是付出的永远比得到的多,磨刀不误砍柴工,哈哈~言归正传,到底如何选择呢?答案就是——大面积撒网,重点捕捞。重点又来啦!第一步,限定关键词。小编这里建议大家不要过多使用限定词,真的会错过一万年。我们的关键词只要包含“Disease”、“normal”以及我们研究的特殊方向就可以了,比如疾病亚型、相关药物、特定基因、位点突变等。随后我们选择“Homo sapiens”及“Expression profiling by array”,如下图所示:

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

这也就回答了一开始的问题,为什么根据已发表文章中的关键词检索总是找不到源数据集呢?因为作者筛选数据集时就不是通过限定关键词检索到,极大可能是“挨个看、挨个试”。要想得到符合预期的数据,是需要用很多数据集进行分析和验证的,只有结果有意义才能说得上是好的数据集。如果一定要只选择两到三个数据集就可以得到完美的数据,那可能真的要靠运气咯~

(公众号解螺旋服务号免费医学科研直播,后台回复“直播”免费领资源观看)

总之筛选GEO数据集的主要原则有以下几点:

①多个数据集均围绕所要研究的临床问题展开,如样本的分组、分层等保持一致;

②包含比例恰当的疾病样本和正常样本做对照;

③确定样本类型(组织、细胞、外周血等),保证样本同源;

④ 数据平台很关键。如果条件允许,我们尽量选择GPL570等芯片平台,如果多个平台则需要使用R语言去除批间差。

接下来我们进入正题:

第一步:OCSCs标记之间的相关性

筛选到合适的数据集后,作者首先在转录水平上确定不同的OCSC标记在患者肿瘤中是否相互关联。这里使用了GEPIA 对TCGA中的样本数据进行相关性分析,发现CD44转录本与OCSCs的标记物SOX2、NOTCH1、OCT4/POU5F1、ALDH1A1显著相关,但与CD24、CD117/KIT、CD133/PROM1或NANOG不相关(Fig.1A)

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

随后,为比较OCSCs和其亲代细胞是否具有同样的性质,作者从GEO数据库中选取了来自OVCAR3细胞系GSE28799和GSE64999,同样进行了相关性分析。结果表明与亲代OVCAR3细胞相比,来自OVCAR3球型干细胞的CD44、CD24、CD117/KIT、CD133/PROM1、ALDH1A1和SOX2显著上调。在OCT4 / POU5F1 NANOG上未发现明显变化。对GSE64999数据集的进一步分析证实,ALDH1A1和SOX2显著上调,但其他假定的OCSCs的标记没有上调(Fig.2B)。

Ps:这里介绍一下GSE64999数据集鉴定了在卵巢癌干细胞在成球条件下进行体外培养的分化过程中受调控的基因表达谱分析。GSE28799数据集包括3份亲代OVCAR-3细胞的复制培养物和3份干细胞样球状细胞衍生的培养物。证明球状细胞(SDC)与亲代OVCAR-3细胞相比,具有自我更新的潜力,SDCs还显示出更高的侵袭性,迁移潜力以及对标准抗癌剂的增强抗性。可见作者选取的数据集真的是别有一番用心~首先这两组细胞系类型基本一致,均为OCSCs及其亲本细胞,并且GSE64999包含未分化和分化的球状体;研究的临床问题也一致。可以想象为了找这两个验证数据集,作者团队也是煞费苦心了。总之,选择数据集是关键,这决定了我们后续以何种变量进行分组,可以做什么样的分析。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

第二步:——构建分子交互网络

STRING protein-protein interaction web工具对这些OCSC标记的相互作用进行建模,基于NOTCH1、SOX2、OCT4、NANOG、CD117和CD133之间具有实验证据支持的互作关系预测;发现CD44与耐药标记物ABCB5相关(Fig.1B)。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

“靠&圈”——功能富集以及临床变量相关性分析

为了研究这些具有相关行的细胞标记与临床问题是否有联系,作者为此分析了:

① CD44的转录本与糖酵解标记之间存在正相关;

② TCGA数据库中分析NOTCH1、CD133、CD44、CD24和ALDH1A1与三羧酸循环(TCA)酶显著正相关;

③ 卵巢癌干细胞中的OXPHOS与OCSCs表面标志物间的相关性分析;

④ OVCAR3-OCSCs在CD36、ACACA、SCD和CPT1A中也显著升高,CD44、CD133和ALDH1A1与脂质代谢酶呈正相关;

⑤ TCGA数据库中OCSC标记物与谷氨酰胺代谢酶之间存在正相关。

并且在“圈”——功能聚类这一层面与其他生信分析中分子的GO/KEGG/GSEA富集分析不同的是,该研究通过细胞表面标记与相互作用的各种酶和复合物的标记进行富集分析,将分子间的互作关系与临床表型相联系。

1

OCSCs标记与糖酵解的相关性

作者首先比较了参与糖酵解的酶在OCSCs及其亲本细胞中GSE28799和GSE64999的表达情况。发现与亲本OVCAR3细胞相比,在OVCAR3球样来源的OCSCs中,葡萄糖转运体SLC2A1、己糖激酶1 (HK1)和丙酮酸脱氢酶激酶1 (PDK1)显著上调(Fig.3A)。而在GSE64999中未分化和分化的球状体的糖酵解酶没有显著差异(Fig.3B)。到此,作者已分析得到与亲本OVCAR3相比,OVCAR3-球状体的OCSC标记物和糖酵解酶总体呈正相关趋势。CD44、CD24与HK1、PGK1呈显著正相关。NOTCH1与HK2呈显著正相关。其他标记均与葡萄糖转运体或糖酵解无显著正相关。在GSE64999未分化的球状体中,OCSC标记同样没有表现出糖酵解的富集。CD44与SLC2A6呈正相关,CD24与PHGDH呈负相关。NOTCH1与糖酵解酶或糖酵解没有任何显著的相关性(Fig.3C-D)。

随后作者利用TCGA数据库分析病人的肿瘤,发现CD44、NOTCH1的表达和葡萄糖转运蛋白及糖酵解酶表现出正相关性(Fig.3e和Table 1)。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.3 GSE28799和GSE64999中糖酵解标志物的表达。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

Table 1.在TCGA和GEPIA诱导的卵巢癌标本中,CSC转录本的表达与葡萄糖转运体转录本以及参与糖酵解的关键酶之间的Pearson相关性研究。红色表示显著正相关,蓝色表示显著负相关。

2

OCSCs标记物与三羧酸(TCA)循环的相关性

我们都知道TCA循环是多种分解代谢和合成代谢途径整合的枢纽,其中就包括了糖酵解、糖异生、线粒体电子传递链、脂肪酸和胆固醇合成以及谷氨酰胺代谢。

于是作者分析了在GSE28799数据集中,TCA循环酶在OVCAR3干细胞及其亲本对照中的表达情况。发现乌头酸酶1 (ACO1)、异柠檬酸脱氢酶(IDH1)、IDH3A、琥珀酸-辅酶a连接酶(SUCLG2)和苹果酸脱氢酶2 (MDH2)显著上调,而苹果酸酶2 (ME2)显著下调(Fig.4A)。在GSE64999中,分化和未分化的OCSCs的TCA循环酶的转录本没有发现显著差异(Fig.4B)。在GSE28799中,ovcar3干细胞中酶转录产物和OCSC标记的表达存在相关性,与TCA酶呈正相关趋势。NANOG与10种酶呈正相关,且仅与CS显著相关。ALDH1A1与9种酶呈显著正相关。CD117/KIT与6种酶正相关,且仅与IDH2和MDH2显著。其他因素表现为积极,但不显著与TCA酶的关系。CD44和CD24表现出相似的5个正相关模式和6个负相关模式,与ME2呈显著负相关。而CD133与IDH3B、SOX2与IDH2呈显著负相关。POU5F1/OCT4和NOTCH1与关键TCA酶均无显著相关性(Fig.4C)。在GSE64999中,未分化和分化的球状体中CSC转录本与TCA转录本的表达呈更负的趋势。之后作者对每个有意义的分子标志进行相关性分析(Fig.4D)。通过对TCGA数据集中OCSCs标记与TCA酶的分析和相关性分析发现NOTCH1与所有TCA酶呈正相关,与除SUCLG1/2外的所有酶均有显著相关性(Fig.4E)。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.2 TCGA中OCSC标记与TCA酶的相关性研究。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.4 OCSC模型中TCA标记的表达

3

卵巢癌干细胞中的OXPHOS

在葡萄糖饥饿状态下,这些OCSCs处于完全静止状态,并下调大多数代谢活动,同时维持OXPHOS结构。CSCs可能表现出高度的糖酵解或OXPHOS表型,表型之间的代谢转换具有可塑性,这不仅取决于癌症类型和环境线索,还取决于葡萄糖饥饿或OXPHOS封锁。由此,作者进一步研究了卵巢癌干细胞中的OXPHOS与OCSCs表面标志物间的关系。发现OVCAR3-OCSCs(源自成熟的上皮卵巢癌细胞系的癌症干细胞)主要在复合物I、III、IV和V中显示了电子传递链的富集,进一步支持了对氧化磷酸化(OXPHOS)表型的依赖(Fig.5)。同时,作者还利用CCLE数据库,证实了OCSC的标记CD44、POU5F1/OCT4和NOTCH1的转录本表达呈显著的负相关。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.5 电子传递链(ETC)复合物在GSE28799和GSE64999中的表达

并且还发现OCSC表面标记之间的相关性和关键酶在两个GEO数据集的OVCAR3-OCSCs模型中存在正相关性的趋势,其中NANOG与ALDH1A1表现出显著相关性。然而,OCSC标记物的转录量与复合物II、III、IV和V的转录量之间存在不一致的正负相关性,CD24和CD44与复合II酶呈阳性但不显著的相关性(Fig.6A-B)。并在TCGA数据库中验证了肿瘤患者的OCSC标记物与酶的转录本的相关性模式(Fig.6C和Table 3)

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章
这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Table 3 TCGA数据库中CSC转录本的表达与ETC中涉及的关键酶的转录本之间的Pearson相关性

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.6 OCSC标记和其他复合物的转录的相关性

4

OCSC标记物与脂代谢的关系

脂质代谢在本质上与葡萄糖和氨基酸代谢途径结合,以满足CSCs日益增长的生物能量需求。因此,脂类相关通路对CSCs的维持至关重要。于是作者分析了两个GEO数据集,发现与亲本OVCAR3相比,OVCAR3-OCSCs中CD36、ACACA表现出显著增加。未分化与分化的OCSC模型的转录本分析显示SCD在未分化OCSCs中呈上升趋势(Fig.7A-B)。随后作者又分析了OCSC标记与脂质转运蛋白和酶的相关性。发现NOTCH1、NANOG、OCT4、ALDH1A1和CD117与脂质代谢标记的相关性高于CD44、CD24、CD133或SOX2。CD44、CD24与脂肪酸结合蛋白4 (FABP4)呈显著负相关。OCT4与CD36呈显著正相关,与ACACA呈负相关。NANOG与ACACA呈负相关(Fig.7C-D)。这些数据表明OCSC表型的获得与脂质代谢特征的富集有关,因而进一步支持OCSCs独特的代谢表型和“代谢可塑性”。这可能解释了OCSCs在脂肪丰富的腹膜TME中存活的能力,导致最佳或次最佳手术和化疗后复发。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Table 4 TCGA中OCSC标记物与脂质转运体及脂质代谢关键酶的相关性研究

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.7 脂质代谢转运蛋白和酶在OCSC模型中的表达

5

谷氨酰胺代谢提供氨基酸、核苷酸和脂质生物合成所必需的碳和氨基氮。谷氨酰胺分解是一种合成代谢过程,可促进低能大分子的产生。有研究表明,OCSCs也利用谷氨酰胺代谢来治疗耐药,谷氨酰胺分解与OvCa患者较差的生存率显著相关。为了探究OCSCs与谷氨酰胺代谢这一表型的相关性,作者又找到了谷氨酰胺代谢相关酶。通过分析GSE28799中OCSCs及其亲本细胞中谷氨酰胺代谢相关酶的表达,发现OVCAR3球样来源的OCSCs中谷氨酰胺转运体SLC1A1和GLS的表达显著上调(Fig.8A)。相比之下,GSE64999中未分化和分化的球状体的谷氨酰胺代谢酶无显著差异(Fig.8B)。随后又比较了分子间的相关性(Fig.8C-E)。并在TCGA数据库中验证OCSC标记和谷氨酰胺代谢酶之间的正相关性(Table 5),在CCLE数据库及GEO数据集的实验模型中验证谷氨酰胺代谢对OCSCs和OvCa细胞生长而言是必不可少的。

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Table 5 TCGA中OCSC标记与谷氨酸转运体及谷氨酸/谷氨酰胺代谢关键酶的相关性研究

这是什么神仙思路?只用GraphPad和GEPIA就搞定6分+纯生信文章

▲ Fig.8 谷氨酰胺/谷氨酸代谢转运蛋白和酶在OCSC模型中的表达

全文总结

本篇范文的图表形式并不算很丰富,但选题创新点,临床相关性强,研究的临床问题丰富,论述充分。以化疗耐药为主要临床问题,论述残留的癌症干细胞(CSCs)具有适应几种代谢和信号通路的功能,这是今后开发新的靶向治疗的主要挑战。作者在转录水平上确定不同的OCSC标记在肿瘤中的相关性,并通过构建分子的PPI网络模型,根据实验证据预测互作关系,分析挖掘OCSC标记与耐药标记物间的相关性。

再来看看文章种用到的数据来源

①基因表达谱:选取同时包括了卵巢癌的球状体和母细胞的GSE28799和GSE64999两个数据集;

②OvCa细胞系数据:来自Broad Institute Cancer cell Line Encyclopedia (CCLE)网络平台,并进行了类似的分析。

本篇范文重点在于各种相关性分析,利用的分析方法和工具:

① 采用Holm-Sidak多重t检验分析OCSCs及其亲代细胞中标记物及代谢途径中涉及的酶的差异表达,皮尔逊相关分析法分析对不同群体的OCSC标记与代谢酶转录本的相关性,均采用GraphPad Prism 7.0进行;

② 通过GEPIA进行TCGA数据库种基因间相关性分析,利用Excel制作相关性条形图。

两个数据集不仅可以相互佐证,并且在GSE64999还包含了未分化与分化的球形细胞,能够用于亚组分析。多个数据库的联合使用不仅分析了细胞标记间的相关性、临床意义及功能聚类。更加巧妙的验证了在不同数据库的细胞模型中,这些分子标记间的相关性,且在模型系统之间存在差异。最后作者将数据模型系统与患者标本进行适当的整合和验证,这不仅可以弥补在OCSCs代谢编程方面的知识空白,而且有助于设计针对休眠、耐药和CSCs代谢可塑性的新策略。全文思路清晰,逻辑链完整,值得我们深入学习!最后还是要感慨一下,分子间的相关性与临床变量或者表型融合到一起,真的是体现创新性的绝佳套路~

10天领悟3分SCI套路

点击下方

解螺旋服务号

免费参加

—END—

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多