由环境或邻近细胞破损或者凋亡细胞释放的外源 RNA可能会混入测序数据中,因此影响数据的准确性。针对这一问题常用工具有SoupX、Decont X(R语言)、CellBender(Python环境)等。
其原理是:通过分析空液滴中的 RNA 表达,估计环境 RNA 的表达谱,然后从每个细胞的表达矩阵中扣除环境 RNA 的贡献。
SoupX在众多文献中被使用,也推荐大家运用到自己的数据中。
经典引用文献:
1.https://github.com/constantAmateur/SoupX GigaScience, Volume 9, Issue 12, December 2020, giaa151, https:///10.1093/gigascience/giaa151
2.Genome Biol 24, 140 (2023). https:///10.1186/s13059-023-02978-x
此外还有同样使用R语言的Decont X,操作方法也很简单,大家可以在下方教程中进行学习。相比较而言,Soup X更适用于10X Genomics数据以及有背景液滴数据(未过滤的原始数据)的情况。
1.https:///packages/devel/bioc/vignettes/decontX/inst/doc/decontX.html