搜索

分享

QQ空间 QQ好友新浪微博微信

（三）零基础大数据挖掘实例讲解——找差异分子案例实践

微笑如酒 2017-07-05

展开全文

先来解答下上期几个问题。

首先文章中用到了芯片或测序数据一般杂志都要求上传原始数据到公共数据库，只有生成一个数据集编号才能发表文章。当然如果别人发表的文章用

到了你的数据，那必须要引用你的编号。所以有些数据集未见其对应的发表文章，是因为上传者的文章还在审稿中。

那么文章在审稿中还没有发表前，会不会有别的团队下载数据抢在你之前发表文章呢？这个问题其实也不用担心，因为在上传数据后可以设置一个保护时间，在这个保护时间内是不对外公布的。

其次，别人下载你的数据一般用于整合分析或进一步验证和补充其研究内容，所以一般不会影响你文章发表。

我们继续还原开篇文献（PMID: 25712376）的分析流程，当我们收集和整理完数据集后如何解读其信息和下载哪些数据用于分析？

这是文中最终纳入的三个研究：

分析中发现文章一个笔误:GSE35396应为GSE35306。

一般用于后续分析要收集三个文件：

1.基因表达数据，
2.平台注释文件，
3.实验设计即样本分组信息。

1. 基因表达数据
√原始数据 cel或txt
√矩阵数据 txt
2. 平台注释文件 txt
3. 实验设计即样本分组信息以GSE35306数据为例。

其中平台注释信息的页面。

收集这三部分数据：

这样一个研究所有要用到的数据就收集完成了，用于下一步的分析。

（1）首先解释下芯片的原始数据。cel文件是affy芯片公司平台的检测后产生的原始文件，而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司，而我国还没有自主开发的基因芯片检测仪器和平台，国内都是这两家公司的代理商，所以钱都被国外赚走了。

(2)矩阵数据txt是标准化后的基因表达数据。行就是代表一个样本编号，列就是代表一个探针号。值就是表达信号值，一般是取对数的（以免值太大）。

（3）平台注释信息，就是所有探针号对应的注释信息，你要知道这些探针号代表的基因是什么，否则怎么筛选出差异基因。

（4）样本的分组信息。只有知道样本的分组信息才能进行统计，没有比较就没有差异。

这期就到这里，下期将对这些收集好的数据进行分析，一步一步还原出分析过程。

点公众号菜单里科研攻略-数据挖掘，查看完整系列~

作者简介

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：微笑如酒 > 《生信》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

微笑如酒

关注对话

TA的最新馆藏

你到底是NPC，还是King of the world？
实验技术(九)：史上最全的20种细胞死亡方式及检测方法
跨省救护车送来的这位患者，一开始只是腰疼伴呕吐，查下来竟然如此要命！
[转] “抽丝剥茧”式学习葡萄胎（一）
[转] 病理测试39 诊断完全性水泡状胎块之P57
教学能力比赛中的教学策略图、教学评一体化模式图、课程思政融入图、岗赛课证图分享

喜欢该文的人也喜欢更多

热门阅读换一换