今天写一篇回答,总结一下目前的想法。 先说两个趋势: 趋势1: 农业的数据分析以后会越来越重要,因为分子数据的落地,包括分子标记辅助、GWAS和GS的应用,特别是基因组选择(GS)的落地,使得育种的效率大大提升,以后使用数据去育种将不再是纸面上冠冕堂皇的话,而是事实。 趋势2: 新兴的机器学习、神经网络等算法将会进入到育种数据分析中来,这一块的应用,还是要育种从业人员自己学习掌握,至少会调包,靠别人不如靠自己,要拥抱新技术,使用新技术。 痛点在哪里? 现有的教育环节中,对这一块涉及极少,我们学习的生物统计都是基于线性模型的,T检验+方差分析+回归分析,甚至连聚类分析和主成分分析都没有包含,而育种中的数据分析框架主要是混合线性模型+贝叶斯+机器学习,这些内容很偏,但是也很深。学起来相当吃力。 统计是个拦路虎,编程则是道中狼,很多统计不需要细究会用就行,而会用就需要会编程,Excel和SPSS那种鼠标点点点的已经out了,R和Python以及Julia才是王道,编程+Linux系统是标配,对于非计算机背景的我们,确实很头大。 另外一个就是数量遗传学,如果打开植物的数量遗传学、玉米的数量遗传学,什么F1群体、F2群体、BC1群体,各种方差分解,公式推导,都是老掉牙很繁琐的东西,一学就放弃,一看就头晕。动物的数量遗传学则是矩阵运算、贝叶斯抽样一看就是劝退的内容。明明是贴地气的农学,却要和高大上的金融肩并肩。 应该怎么做? 我读研究生时,本科时学习的生物统计早已经还给了老师,两眼一抹黑,我的学习路径是这样的,将一些弯路去掉,给出最快的路径。 1,通过Python语言学习编程,入门编程。后面的机器学习和神经网络是个非常好的平台。 2,通过R语言学习生物统计,包括传统方差分析、回归分析,也包括聚类、主成分和混合线性模型。 3,通过遗传评估软件学习数量遗传学,我是学习ASReml软件,也可以是BLUPF90,DMU等软件,软件的说明文档是上好的学习教程。 注意: 学习的过程,先要跑起来,然后再理解。切记看书百遍不动手,敲代码重演结果,看报错调整代码很重要,在实践中成长。 资源推荐: 编程+统计+数量遗传学,可以通过一个包含数据+R代码+原理解释的GWAS教程达到目的,上手一个项目,比着敲代码,一举多得。下面是我精心整理的学习资料,有我编写的GWAS学习教程,有我收集的入门数据分析资源,有我推荐的最新版R语言电子书,以及我翻译整理的统计遗传学分析导论。 这些资料的特点是:代码,数据,理论介绍都有包括,值得拥有: 想要有人带的小伙伴,毕竟老司机带,不迷路,更快到达! 扫码加入知识星球:
|
|