先来解答下上期几个问题。 分析中发现文章一个笔误:GSE35396应为GSE35306。 1. 基因表达数据 其中平台注释信息的页面。
收集这三部分数据: 这样一个研究所有要用到的数据就收集完成了,用于下一步的分析。
(1)首先解释下芯片的原始数据。cel文件是affy芯片公司平台的检测后产生的原始文件,而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司,而我国还没有自主开发的基因芯片检测仪器和平台,国内都是这两家公司的代理商,所以钱都被国外赚走了。 (2)矩阵数据txt是标准化后的基因表达数据。行就是代表一个样本编号,列就是代表一个探针号。值就是表达信号值,一般是取对数的(以免值太大)。 (3)平台注释信息,就是所有探针号对应的注释信息,你要知道这些探针号代表的基因是什么,否则怎么筛选出差异基因。 (4)样本的分组信息。只有知道样本的分组信息才能进行统计,没有比较就没有差异。 这期就到这里,下期将对这些收集好的数据进行分析,一步一步还原出分析过程。 点公众号菜单里科研攻略-数据挖掘,查看完整系列~ |
|