分享

有手就会的scRNA-seq |3.质控思路

 新用户4064dVjo 2025-02-21 发布于北京

单细胞系列如约进行!前面一期我们详细认识了Seurat对象(有手就会的单细胞转录组第2期:认识Seurat对象),接下来我们终于可以对它进行操作啦,首先是数据分析前重要的一步——质控,我们将会分几期来讲解里面的内容,今天给大家整体“俯视”质控思路:细胞&基因质控!



往期回顾:

(一) 单细胞测序带脑学习版

单细胞测序 | 第1期. 单细胞测序:揭开生命奥秘的钥匙
单细胞测序 | 第2期. 下游数据质控知多少
单细胞测序 | 第3期. Seurat之PBMC分析标准化流程
单细胞测序 | 第4期. 写文章时需要用到的单细胞转录组测序原理
单细胞测序 | 第5期. 单细胞测序文件面面观
单细胞测序 | 第6期. 10X genomics 上游分析-cellranger介绍
单细胞测序 | 第7期. 10X genomics 上游分析-cellranger应用

单细胞测序 | 第8期. 一文打通单细胞测序研究思路

单细胞测序 | 第9期. Zenodo一个宝藏公共数据库和单细胞的不解之缘

单细胞测序 | 第10期. 生物信息学必须了解的数据库

单细胞测序 | 第11期. 不会还有人不知道这个免费一年的云服务吧!?

单细胞测序 | 第12期. 单细胞分析数据下载、导入和合并
单细胞组学 | 第13期. 单细胞测序中竟然存在双细胞?
单细胞组学 | 第14期. 想发单细胞测序文章?这一步必学!
单细胞组学 | 第15期. 一份强烈推荐收藏的细胞周期校正宝典!
单细胞组学 | 第16期. 不可不知的单细胞流程
单细胞组学|第17期. 找到Cluster的领头羊
单细胞组学|第18期. 单细胞注释不再是烦恼!
单细胞组学第19期. 单细胞数据分析的核心环节,必学!
单细胞组学 | 第20期. 美无极限——卷起来的UMAP图美化方案
单细胞组学 |  第21期. 点亮数据星空——Dotplot图绘制技巧揭秘
单细胞组学 |  第22期. 单细胞转录组基础分析流程详解
单细胞组学 | 第23期. 单细胞数据分析的灵魂,学起来!
单细胞组学 | 第24期. 找到属于你的细胞亚群!
单细胞组学 |第25期. 单细胞亚群细分
单细胞组学|第26期. 一个函数搞定单细胞富集分析!

单细胞组学|第27期. 想发高分?干湿结合才是王炸!

单细胞组学 | 第28期. 拟时序分析,看这里!

(二) 单细胞测序有手就会版

1. 单细胞思路 | 第1期 必学习的最常规的单细胞思路!

2. 单细胞思路 | 第2期 单细胞中的资源库

3. 单细胞思路 | 第3期 找到靶点分子后可以直接测序!

4. 单细胞思路 | 第4期 预测标志物,单细胞和疾病稳稳联系

5. 有手就会的scRNA-seq | 第1期.数据导入

6. 有手就会的scRNA-seq | 第2期.认识Seurat对象


TS

01

 质控是什么

质控(Quality Control)顾名思义,质量控制,在单细胞转录组中指的主要是从细胞和基因两个层面进行过滤,以确保数据的可靠性和后续分析的准确性。大致包含基因数目、Count数目、线粒体基因比例、双细胞去除、细胞周期矫正等等。


TS

02

为什么进行质控

在我们进行单细胞测序的整个流程中,从取材、提取单细胞悬液、质检到上机测序等等过程中难免存在损伤、污染、技术噪声或其他因素,导致低质量细胞、双细胞等产生,而这些细胞会影响后续分析的准确性。因此,质控的目的是通过过滤低质量细胞和基因,保留高质量的细胞和基因,确保数据的可靠性。

下面是一些高分文章里面的质控标准:

我们可以发现
质控标准相对简单,一般仅涉及几个最基础的条目,体现质控的不会特别严格的特点,以免将有意义的细胞群过滤掉
②质控标准个性化,不同文章选用的阈值不太一样,要根据数据情况调整。
③质控的重要性,除外上面展示的文章,其余大多数单细胞测序文章也都有这一环节,可以说其必不可少,也是我们要牢牢掌握的。

TS

03

质控怎么做

1、Feature

在单细胞转录组分析中,Feature指的是基因。每个细胞都会检测到一定数量的基因表达,这些基因就是该细胞的 Features。一般受到损伤的细胞检测到的基因数较少,而双细胞由于两个细胞的基因表达被合并,因此检测到的基因数量会显著增加,因此通常会设定基因数在某个范围以筛选高质量细胞。

2、Count

Count表示每个细胞中检测到的总分子数,通常基于 UMIUnique Molecular Identifier计数。一般当细胞损伤、死亡等问题导致RNA降解,检测到的nCount数会减少,而双细胞或污染则会导致其过高。不过许多文章更倾向于结 nFeatures、线粒体基因比例等指标进行质控,而不对nCount进行限制,因为nCountnFeature一般来说是线性关系,而nFeature的高低在反应细胞状态上可能更具有特异性,因此仅采用nFeature

3、线粒体比例

线粒体基因比例表示每个细胞中线粒体基因的转录本占总转录本的比例。细胞损伤、应激状态下可能会偏高,不过在特定的细胞类型例如心肌细胞、肝细胞等本身线粒体基因表达就较高,要注意甄别。

4、代码实现质控

Seurat对象中,nFeaturenCount以及percent.mt都在meta.data中。

而如果是新的Seurat对象是没有percent.mt的,需要运行以下代码:

Seurat_obj <- PercentageFeatureSet(Seurat_obj, pattern = "^mt-"
#如果样本为人,则是"^MT-"

最后进行质控的代码如下:


Seurat_obj  <- subset(Seurat_obj,
subset = nFeature_RNA>200 
& nFeature_RNA<4000 
& percent.mt<20)  
#需要根据数据动态调整
Tips

我们还应该注意在前期创建Seurat对象的时候使用的代码

seurat_obj <- CreateSeuratObject(
counts = data, 
project = sample_name,
min.cells = 3,
min.features = 200)

这里面其实也对于细胞和基因进行了质控!min.cells = 3代表某基因最少在3个细胞中表达,否则则去除该基因;min.features = 200代表该细胞至少表达200个基因,否则去除该细胞。

Summary


本期我们介绍了质控的基本内容,并介绍了最常用的细胞和基因的质控中的相关指标以及质控范围,下一期我们将继续介绍质控的其他部分,双细胞的识别!下一期不见不散!

这就是本期的全部内容啦,你学会了吗?后续我们将继续开始为大家分享单细胞转录组学相关内容。大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出。希望我们能一起成长,共同进步,让医学科研有迹可循!
/ / /

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多