白介素2说:大家好,我是白介素2 近期微信改版乱序推送,我邀请大家及时添加星标,否则这可能是大家最后一次看到我们的推送了。 添加星标!添加星标!添加星标哦!(方法可以看下面这个动图) 如有感兴趣的内容欢迎在留言区给我留言。 本文作者大可,四川大学华西医院肿瘤中心科研搬砖工,研究兴趣包括机器学习在高维组学问题中的应用,预测模型的开发与验证。已发表多篇生信和机器学习相关sci文章。 编辑审校:白介素2 在Cory Leismester所著的《精通机器学习:基于R(第2版)》一书中,机器学习的定义为: “机器学习是使用数据对模型进行的训练,它针对某种性能指标形成决策。” 近年来,基于数据库或真实世界的与机器学习相关的临床或基础文章如雨后春笋般涌出,层出不穷。对于临床研究来说,机器学习可以帮助他们建立对于特定疾病的临床预测模型,用有限的临床数据预测患者疾病的发生发展模式和预后。此外,结合数据可视化方法(例如nomogram),机器学习还可以成为生信和临床挂钩的的一座桥梁,让生信分析所筛选出的组学数据(例如mRNA,LncRNA等)能真正的应用于临床,服务于临床。 目前,许多肿瘤相关的期刊目前对基于数据库的机器学习文章还是相对友好的,同时 ,机器学习结合生信文章在近两年呈上升趋势,在生信分析已经相对泛滥的今天,机器学习也许能给生信开辟一条新的道路。 R语言是一切生信相关分析的基础。因此,如果想入门机器学习,必须先入门R语言。目前市面上有很多R语言的教程,其实随便挑一门,学习R语言的基础知识,已经够了。在这里,我推荐一门课,一本教材。 一门课程 课程是医咖会推出的免费医学生R语言教学课程 [免费医学生R语言教学课程] https://www./video_detail/14/ 这门课由三位老师讲解 吴丽雯,匹兹堡大学生物统计学博士 傅贝贝,海德堡大学生物信息学博士 王九谊,阿姆斯特丹大学生物统计学博士 这门课包括R语言的下载安装,常见的数据清洗,和基本的R语言数据分析和绘图。共计6小时。若时间实在不够,想尽快进入机器学习阶段的学习,学习完第二部分-数据的查看和整理即可。 一本教材 教材我推荐由 罗布·卡巴科夫撰写的**《R语言实战》**作为课程的辅助。这本书详细的介绍了数据清洗,数据处理,R语言绘图,重要的统计学方法实现(很重要)以及机器学习的一些入门方法。实用性贯穿整个R语言的学习流程。 好了,当你看完或看了一部分上述的材料,自认为对R语言的一些基础语法有所了解后(以每天三小时学习时间来算,大概可能需要你4-5天左右的时间),就可以开始下一流程了💪 在这里,我重点推荐这一篇南京大学计算机系教授,ACM杰出科学家周志华老师所著的**《机器学习》**。此书在序章部分浅显形象的语言将机器学习的过程比喻成挑西瓜的过程,因此又被业界称之为西瓜书,拯救了一代又一代机器学习入门困难患者。 如果读者对这本书依然有恐惧症,或希望尽快入门实践,我强烈建议起码要看完此书的绪论部分和第二章模型评估和选择部分,这是一切机器学习的基础。如果只看前两章,我觉得理想的学习时间是1周左右。 当了解了基本概念和流程后,我们就可以正式开始机器学习的实战了。在这一阶段,我推荐由Cory Leismester撰写的《精通机器学习:基于R(第2版)》 此书对于理论部分的讲解虽然没有周志华老师《机器学习》一书详细**,但重要的是此书内含全套可靠高效的机器学习代码,可以说是难得的宝藏**。我建议读者在学习的同时,一定要上手实操,复现代码。值得一提的是,虽然此书并不是特地为医学领域的初学者撰写的,然而此书所举的大部分实例是与医学相关或可以运用于医学领域的。即使是对机器学习有所了解的读者,在此书中依然可以发现一些有用的技巧和窍门。在这里,我推荐读者花费2周以上的时间阅读,实操此书,以期收获最多的机器学习知识。 如果你完成了以上两本书的学习,那恭喜你,你已经走入机器学习这条康庄大道了,去看看最近几年用到机器学习发文章的paper,是不是感觉很简单,快去试试吧! |
|