对于大部分职场人士来说,当他们拿到一份日报、周报或者月报时,第一反应是去看整个报告的结论,其实这是大错特错的! 你们是否遇到过这样的情况:当自己花了很多时间在解读一份数据分析报告的时候,突然发现原来该报告中的某些数据是错的!这个时候你们有什么感受?是不是想把这个报告的作者骂一顿? 我之前在参加很多企业的工作例会的时候,类似的场景是经常出现的,主要原因就是:大家根本没有意识到在解读数据报告的第一步,其实应该是去检查数据报告中是否有错误或者不客观的数据。 商业报告解读和数据分析动作的第一步永远是数据的清洗和整理。有些人可能会说:“我的数据是从公司系统导出来的,没有问题,肯定是真的!”或者说:“我的数据是某个权威机构发布的,也不会有问题的!”,说这种话的人一般是太年轻了,这是一个多么痛的领悟过程!我曾经在数据分析师的圈子里做过一个调查:数据分析师的十大伤心事件,排在榜首的就是这一条。 ![]() 建议大家在阅读本文后,可以拿出你公司的一些数据报告再看看,确认一下数据是否准确、客观,做一次深度的练习。 具体可以包括以下内容:
虚假的数据还会来源你日常的工作和生活中,和客户的谈判,和领导的交流,和闺蜜的窃窃私语......这里面有大量的信息需要我们去进行有效的判别。例如男/女朋友彻夜未归,你也许去判断 TA 的解释是否是真实,也属于这个范畴。所以我们可以从日常工作/生活的方方面面去锻炼自己识别假数据和信息、不客观数据和信息的能力。一个人能力的高低,从某个方面来说是取决于他对数据和信息处理能力的高低。 回到本文的主题《如何解读数据报告》,现在大家已经知道:解读数据报告的第一步是判断报告中数据的真假,一般来说数据报告的真假识别有两种方法逻辑法和数字规则法,本文先讲逻辑法。专业的数据清洗整理方法不在我们这个课程的范畴内,感兴趣的小伙伴可以自行研究。 逻辑法包括看数据报告中的: 01 极值极值法有包括极大值和极小值,有时候助理给你的报告多输入了一位数字或者点错了小数点都很容易看出来的,在常态报告中这样的数据会显得特别突兀,比较容易看出来。极值法主要是针对报告中容易出现的低级错误的一种判断方法,大家常加练习把它变成一种看报告的习惯。 02 平均值这是一种比较大众化的方法,平均值在我们的工作中无处不在,也可以说无孔不入。平均值判断数据真假的方法是两个层面:
首先请大家看这张图,你能在 30 秒内找到问题错误的数据吗?为了迷惑大家,数据比较多,其实平时你们看的数据报告也差不多这样的数据量吧? ![]() 相信眼尖的小伙伴很快就能看出其中的问题,全国的销售同比增长和全国的退货率这两个数据是错误的,所有区域的这两个数据都小于全国平均数据,这怎么可能呢?这就是总体平均值大于个体平均值的情况,偶尔在一些奇葩报告或助理手抖的时候也会出现,如果你曾经遇到过,那就恭喜你中奖了。 然后平均值有误导的现象还是比较普遍的,并不是所有数据都适合用平均值指标的。例如全国平均工资这个数据,每年的春夏之交时,有关部门都乐此不疲地公布这个数据,然后很多人都吐槽说自己的工资被增长了。是的,平均值有自己的适用范围,当个体数据呈现正态分布(知识点,大家可以自行展开学习)的时候才更有效,由于我们的工资收入两极分化实在太严重,平均值会有误导,有被富豪们拉高的趋势。 再举一个极端的平均值的例子,假定某个公司有两个员工,月工资 8000 元和 6000 元,当然平均工资就是 7000 罗。有一天老板激励这两个员工说:“下个月开始我们公司要提高平均工资水平,平均工资必须达到 1.5 万元!”,这两个下属高兴死了,坐等涨工资。然而过了一个月,老板请来了一个 CEO,月工资 3.1 万元,三个人的平均工资正好 1.5 万~ 再说一个可能是真实的案例,若干年前当房价如火箭般蹿升时,某位官员却说要在一年内将 XX 城市的房价降下来,并且一年后当地的房价真的“如愿以偿”地降下来了,背后的秘密就是平均数!因为之前的数据只是算城区的平均房价,现在却把郊区的房子也加入了数据池,这样的平均房价想不降都难! 这些把戏都是数据的常见处理伎俩,所以在解读数据报告的时候我们不能简单的只看平均值,有的时候还必须要看中位数、众位数。如果对方只是给到你平均值,也一定要问一下这个平均数包括哪些对象(人货场逻辑,未来课程详细阐述),企业平均工资是否包含 CEO?企业平均同比增长是否剔除一些异常值。 03 中位数中位数是指一组有序数据里最中间的数字,例如 7,10,100(奇数个),中位数为 10。如果是 7,10,20,100(偶数个),中位数为 15(中间两个数字 10 和 20 的平均值)。当数据两极分化严重的时候,中位数比较能反应数据真实的一面,更靠谱一些。在我的一个数据产品《年度目标制定模板》中,采用了上市公司财报数据作为参考,其中同比增长用平均值就有问题,有些公司由于发生了重组等状况,同比增长数据大的可怕(也可能有基数太小的原因),所以我一律采用中位数作为参考值。 例如 2017 年第一季度所有上市公司的平均同比增长率是 167.3%,然而中位数只有 17.4%的同比增长,显然后者更有意义。 04 众位数指一组数据中出现次数最多的数字,它比较反应大多数的状况,所以叫众位数。善于数据忽悠的 HR 会在招聘的时候用平均工资,在给老板汇报工作的时候用中位数或众位数工资,以达到不同的目的。 再把平均值、中位数、众位数再做一个梳理,在平均工资这个指标上,这三个指标大概呈现如下图的排列()。如果你想报喜不报忧,你会选择汇报哪个数据? ![]() 当然统计局只公布平均工资其实还有一个技术问题,计算平均工资只需要企业提供工资总数和员工人数即可,但是要统计中位数、众位数则需要企业提供完整的职员收入明细,这其实是有难度的,没有想象中那么简单。 对于以上四个方法,如果只是一份数据报告通过肉眼或者简单的计算就可以得出这四个数据。但当数据量比较大的时候,例如数据超过 1 万行以上,肉眼就不管用了,此时可以借助 Excel 自带的函数处理:
05 异常值对业务丰富的人来说,看数据报告的时候是有第六感的,有些数据从逻辑上不能马上判断是否正确,但是内心感觉里就是认为这个数据有问题。例如下图是各分公司 HR 提报给总部的离职率数据,表面上看这些数据没有问题。但是对于老江湖的你,可能一眼就能看到那特别扎眼的 7.9% 和 7.8%,因为在你的企业有个规定:月离职率大于或等于 8% 的,要扣分公司 HR 经理的绩效奖。所以,懂了吧? ![]() 当然这只是怀疑,属于疑似有问题,不代表真正有问题。但是关键的 KPI 数据这道槛,确实是很多数据要通过做手脚来绕开的动力。例如企业规定:零售卖场月目标完成 90~99% 营业员按 2% 提成,100-110% 按 4% 提成,那 100% 的完成率就是一个关键点,如果你本月拼死拼活只能完成 98%,你会怎么做?(可以想想你知道的那些招儿)所以当某个店铺最终完成 100% 或 101% 的时候,你就可以有理由怀疑一下了。 06 重复值一个数据报告中出现多次重复的数据,可能是碰巧,也可能是做表的时候忘了删除,还可能是有鬼。例如下面这经典的一个神样的数据:我国城镇登记失业率,它竟然 12 个季度没有任何变化,都是神奇的 4.1%。数据来自于统计局公告。 ![]() 重复数据如果出现在同一个图表中比较容易识别,另外还有两种情况的重复,就需要考验读图者的记忆力或知识储备了。
所以数据报告解读关键的第一步是识别报告中数据的真假,千万别忘了。你可以在互联网搜索数据报告(例如在百度文库或在我微博中也有分享一些)来练习这一部分的内容,当然基本层面还是要在日常看报告时就逐渐养成数据鉴别的习惯。 |
|