做单细胞数据分析的时候,我们经常会从公共数据库,或者从别人那里得到一个seurat对象,有些人可能想从这个seurat对象中提取原始的表达矩阵,自己再从头分析一遍。那么今天小编就讲讲怎么实现,我们以SeuratData这个包里面自带的pbmc3k这套数据为例。 我们先来安装相关的R包 #安装Seurat包,删掉下面一行#,然后运行 #install.packages("Seurat")
#加载Seurat包 library(Seurat)
#安装devtools包,删掉下面一行#,然后运行 #install.packages("devtools")
#安装SeuratData包,删掉下面一行#,然后运行 #devtools::install_github('satijalab/seurat-data')
#加载SeuratData library(SeuratData)
#查看已经安装的单细胞数据集 AvailableData() 你会发现pbmc3k这套数据已经安装了,这是一套包含2700个细胞的pbmc样本单细胞测序数据 如果发现这套数据还没有安装,可以运行下面代码来安装。 #安装pbmc3k数据集,如果已经安装过,可以跳过 InstallData("pbmc3k") #加载pbmc3k数据集 pbmc <- LoadData("pbmc3k") pbmc 下面就是pbmc这个seurat对象的一些详细信息,包含2700个细胞,13714个基因。 原始的单细胞表达矩阵保存在pbmc[["RNA"]]@counts中,每一行是一个基因,每一列是一个细胞,如果counts数是0,就用一个.来表示。 接下来我们就可以导出这个矩阵到文件中,我们来比较两种方法。 方法一、使用data.table包里的fwrite函数 这里用到了我们前面提到过的☞【R语言】data.table让你的读取速度提升百倍 #方法一、使用data.table包里的fwrite函数 #install.packages("data.table") library(data.table) #利用system.time记录运行时间 system.time({fwrite(x = as.data.frame(pbmc[["RNA"]]@counts), row.names=T,file = "counts.csv")}) 导出所用的时间如下 方法二、使用普通的write.csv函数 #方法二、使用普通的write.csv函数 #利用system.time记录运行时间 system.time({write.csv(file="counts2.csv",as.data.frame(pbmc[["RNA"]]@counts),quote = F)}) 导出所用的时间如下 通过比较我们可以发现,两种方法导出的矩阵文件是一样的,但是fwrite的速度要快不少。 参考资料: 为了方便大家交流学习,共同进步,我特地创建了微信交流群 |
|