在Google、Amazon、Facebook、Uber、Airbnb等公司成功的背后,有这样一批人:他们可以将大量的数据变为有价值的金矿,例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。没错,他们就是被誉为「今后10年IT行业最重要的人才」—— Data Scientist(数据科学家)。 《大数据时代》联席作者Kenneth Cukier在Ted上的热门演讲:《Big data is better data》,告诉你大数据驱动技术和设计的未来,以及大数据的「好」与「坏」。 (视频时长16”,建议在WiFi环境下观看)
要理解数据科学家是做什么,首先要理解人尽皆知却总被误读的大数据:大数据不是大量的数据,而是复杂的数据。 那么,数据科学家在工作中是怎样解决问题的呢? 分享两个共享经济的典范:Airbnb和Uber——在运用大数据方面的经验。 1、Airbnb 在Airbnb,工程师要解决这样一个问题:如何让用户了解一个自己从来没去过的地方?如何知道哪个地方最适合自己的旅行? Airbnb拥有海量的独有数据,包括旅游地、用户评论、房源描述、社区信息等,Airbnb还有一支队伍去各地和当地人交流,搜集所有的相关历史数据。Airbnb的数据科学家是这样运用数据的: (Airbnb accommodations (red) and traditional accommodations (blue) in San Francisco)
2、Uber 缩短开着空车去接下一位乘客的时间和乘客等待的时间是Uber的车主和乘客的共同需求,他们希望这些时间越短越好。为此,Uber的数据科学家建立了「Location-based demand models」。 (Uber heatmap in San Francisco) 每天实时更新的热点地图(Heatmaps)可以有效帮助车主缩短空载时间,同时帮乘客减少等待时长。下一步,这张图甚至可以预测,这样车主会知道提前去哪里等待可以载到更多的乘客。
虽然数据科学三十年前就诞生了,但是数据科学家却是几年前刚出现的一个新词。在《数据之美》一书中,我们可以看到Facebook的数据科学家的起源: 在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了「数据科学家」这种角色。 所以,用一句话总结「数据科学家」的定义: 运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。 数据科学家有哪几种类别? 为了更好地阐释数据科学家,我们将它分为三类:
作为一名数据科学家,一般需要编程和数据库、数学&统计、交流和可视化、领导力和软技能:四个方面的技能。
2、数学、统计和数据挖掘 3、数据可视化 4、领导力和软技能 总之,数据科学家之所以被称为「科学家」,而区别于「数据工程师」和「数据分析师」,其根本在于对数据有极端敏锐的直觉和本质的认知,对问题和业务有深入的洞察和理解,因而能够解决复杂数据带来的问题。 |
|