分享

如何判断数据的真假

 zonge 2023-08-21 发布于湖北

对于大部分职场人士来说,当他们拿到一份日报、周报或者月报时,第一反应是去看整个报告的结论,其实这是大错特错的!

你们是否遇到过这样的情况:当自己花了很多时间在解读一份数据分析报告的时候,突然发现原来该报告中的某些数据是错的!这个时候你们有什么感受?是不是想把这个报告的作者骂一顿?

我之前在参加很多企业的工作例会的时候,类似的场景是经常出现的,主要原因就是:大家根本没有意识到在解读数据报告的第一步,其实应该是去检查数据报告中是否有错误或者不客观的数据。

商业报告解读和数据分析动作的第一步永远是数据的清洗和整理。有些人可能会说:“我的数据是从公司系统导出来的,没有问题,肯定是真的!”或者说:“我的数据是某个权威机构发布的,也不会有问题的!”,说这种话的人一般是太年轻了,这是一个多么痛的领悟过程!我曾经在数据分析师的圈子里做过一个调查:数据分析师的十大伤心事件,排在榜首的就是这一条。

图片
你中枪了几条?

建议大家在阅读本文后,可以拿出你公司的一些数据报告再看看,确认一下数据是否准确、客观,做一次深度的练习。

具体可以包括以下内容:

  1. 公司内部的各种商业报告,日报、周报、月报、营运报告、销售报告、商品报告,以及生产报告等,都需要进行审核和检查。
  2. 来源于外部渠道的行业相关报告,统计数据,平台数据等。比如你的客户提供给你的竞争对手数据。
  3. 互联网上的一些数据和信息。相信大家有共识:互联网上假数据泛滥。其实很容易理解,很多互联网的数据都是基于 PR 为目的来发布的,不是为了给你看真实的数据,而是为了打广告,从而获得关注、传播和流量。例如以前的双 11 购物节,各大品牌公司纷纷公布自己的实时销售数据,但其实这些数据背后都是经过各种处理、加权、筛选后才给大家看的。
  4. 信息也需要甄别真假。我们重视数据,但往往忽略了对信息的判断。在互联网时代数据是一种信息,信息背后也是数据,它们是互相交融的。在互联网上也充斥着这种虚假的信息。例如微博、朋友圈经常有人发丢失的小孩,丢失的准考证,传言谁又收购了谁,谁又即将破产等等,其实这里面很多都是虚假的信息。

虚假的数据还会来源你日常的工作和生活中,和客户的谈判,和领导的交流,和闺蜜的窃窃私语......这里面有大量的信息需要我们去进行有效的判别。例如男/女朋友彻夜未归,你也许去判断 TA 的解释是否是真实,也属于这个范畴。所以我们可以从日常工作/生活的方方面面去锻炼自己识别假数据和信息、不客观数据和信息的能力。一个人能力的高低,从某个方面来说是取决于他对数据和信息处理能力的高低

回到本文的主题《如何解读数据报告》,现在大家已经知道:解读数据报告的第一步是判断报告中数据的真假,一般来说数据报告的真假识别有两种方法逻辑法数字规则法,本文先讲逻辑法。专业的数据清洗整理方法不在我们这个课程的范畴内,感兴趣的小伙伴可以自行研究。

逻辑法包括看数据报告中的:极值平均值中位数众位数空值重复值异常值等。

01 极值

极值法有包括极大值和极小值,有时候助理给你的报告多输入了一位数字或者点错了小数点都很容易看出来的,在常态报告中这样的数据会显得特别突兀,比较容易看出来。极值法主要是针对报告中容易出现的低级错误的一种判断方法,大家常加练习把它变成一种看报告的习惯。

02 平均值

这是一种比较大众化的方法,平均值在我们的工作中无处不在,也可以说无孔不入。平均值判断数据真假的方法是两个层面:

  1. 总体的平均值大于个体的平均值
  2. 平均值有误导,报告中不适合用平均值

首先请大家看这张图,你能在 30 秒内找到问题错误的数据吗?为了迷惑大家,数据比较多,其实平时你们看的数据报告也差不多这样的数据量吧?

图片
你花了几秒找到错误的数据?

相信眼尖的小伙伴很快就能看出其中的问题,全国的销售同比增长全国的退货率这两个数据是错误的,所有区域的这两个数据都小于全国平均数据,这怎么可能呢?这就是总体平均值大于个体平均值的情况,偶尔在一些奇葩报告或助理手抖的时候也会出现,如果你曾经遇到过,那就恭喜你中奖了。

然后平均值有误导的现象还是比较普遍的,并不是所有数据都适合用平均值指标的。例如全国平均工资这个数据,每年的春夏之交时,有关部门都乐此不疲地公布这个数据,然后很多人都吐槽说自己的工资被增长了。是的,平均值有自己的适用范围,当个体数据呈现正态分布(知识点,大家可以自行展开学习)的时候才更有效,由于我们的工资收入两极分化实在太严重,平均值会有误导,有被富豪们拉高的趋势。

再举一个极端的平均值的例子,假定某个公司有两个员工,月工资 8000 元和 6000 元,当然平均工资就是 7000 罗。有一天老板激励这两个员工说:“下个月开始我们公司要提高平均工资水平,平均工资必须达到 1.5 万元!”,这两个下属高兴死了,坐等涨工资。然而过了一个月,老板请来了一个 CEO,月工资 3.1 万元,三个人的平均工资正好 1.5 万~

再说一个可能是真实的案例,若干年前当房价如火箭般蹿升时,某位官员却说要在一年内将 XX 城市的房价降下来,并且一年后当地的房价真的“如愿以偿”地降下来了,背后的秘密就是平均数!因为之前的数据只是算城区的平均房价,现在却把郊区的房子也加入了数据池,这样的平均房价想不降都难!

这些把戏都是数据的常见处理伎俩,所以在解读数据报告的时候我们不能简单的只看平均值,有的时候还必须要看中位数、众位数。如果对方只是给到你平均值,也一定要问一下这个平均数包括哪些对象(人货场逻辑,未来课程详细阐述),企业平均工资是否包含 CEO?企业平均同比增长是否剔除一些异常值。

03 中位数

中位数是指一组有序数据里最中间的数字,例如 7,10,100(奇数个),中位数为 10。如果是 7,10,20,100(偶数个),中位数为 15(中间两个数字 10 和 20 的平均值)。当数据两极分化严重的时候,中位数比较能反应数据真实的一面,更靠谱一些。在我的一个数据产品《年度目标制定模板》中,采用了上市公司财报数据作为参考,其中同比增长用平均值就有问题,有些公司由于发生了重组等状况,同比增长数据大的可怕(也可能有基数太小的原因),所以我一律采用中位数作为参考值。

例如 2017 年第一季度所有上市公司的平均同比增长率是 167.3%,然而中位数只有 17.4%的同比增长,显然后者更有意义。

04 众位数

指一组数据中出现次数最多的数字,它比较反应大多数的状况,所以叫众位数。善于数据忽悠的 HR 会在招聘的时候用平均工资,在给老板汇报工作的时候用中位数或众位数工资,以达到不同的目的。

再把平均值、中位数、众位数再做一个梳理,在平均工资这个指标上,这三个指标大概呈现如下图的排列()。如果你想报喜不报忧,你会选择汇报哪个数据?

图片
图片来自于网络

当然统计局只公布平均工资其实还有一个技术问题,计算平均工资只需要企业提供工资总数和员工人数即可,但是要统计中位数、众位数则需要企业提供完整的职员收入明细,这其实是有难度的,没有想象中那么简单。

对于以上四个方法,如果只是一份数据报告通过肉眼或者简单的计算就可以得出这四个数据。但当数据量比较大的时候,例如数据超过 1 万行以上,肉眼就不管用了,此时可以借助 Excel 自带的函数处理:

  • 最大值MAX
  • 最小值MIN
  • 第 n 大LARGE
  • 第 n 小SMALL
  • 平均值AVERAGE
  • 中位数MEDIAN
  • 众位数MODE

05 异常值

对业务丰富的人来说,看数据报告的时候是有第六感的,有些数据从逻辑上不能马上判断是否正确,但是内心感觉里就是认为这个数据有问题。例如下图是各分公司 HR 提报给总部的离职率数据,表面上看这些数据没有问题。但是对于老江湖的你,可能一眼就能看到那特别扎眼的 7.9% 和 7.8%,因为在你的企业有个规定:月离职率大于或等于 8% 的,要扣分公司 HR 经理的绩效奖。所以,懂了吧?

图片
懂了吗?

当然这只是怀疑,属于疑似有问题,不代表真正有问题。但是关键的 KPI 数据这道槛,确实是很多数据要通过做手脚来绕开的动力。例如企业规定:零售卖场月目标完成 90~99% 营业员按 2% 提成,100-110% 按 4% 提成,那 100% 的完成率就是一个关键点,如果你本月拼死拼活只能完成 98%,你会怎么做?(可以想想你知道的那些招儿)所以当某个店铺最终完成 100% 或 101% 的时候,你就可以有理由怀疑一下了。

06 重复值

一个数据报告中出现多次重复的数据,可能是碰巧,也可能是做表的时候忘了删除,还可能是有鬼。例如下面这经典的一个神样的数据:我国城镇登记失业率,它竟然 12 个季度没有任何变化,都是神奇的 4.1%。数据来自于统计局公告。

图片
神奇吧?

重复数据如果出现在同一个图表中比较容易识别,另外还有两种情况的重复,就需要考验读图者的记忆力或知识储备了。

  1. 和以往的报告重复。作为销售主管上个月你汇报给经理的客户拜访率是 45%,本月的月工作总结仍然是 45%,这就值得怀疑你根本没有去改 PPT 数字的动作,都在敷衍。
  2. 和其他人的报告重复。作为销售人员,有些报告互相借鉴是常事,但是你可以借鉴报告的形式,但是千万别借鉴报告中的数据啊,这很容易被你们的老大看穿的。一个真事儿:当年我在做快消管一个城市的时候(long long ago,九几年的事情),一个同事就“借鉴”了我的一份销售月报,当然他把其中的一些数据也“借鉴”过去了。后果是他被警告,我被批评,我多冤啊?!

所以数据报告解读关键的第一步是识别报告中数据的真假,千万别忘了。你可以在互联网搜索数据报告(例如在百度文库或在我微博中也有分享一些)来练习这一部分的内容,当然基本层面还是要在日常看报告时就逐渐养成数据鉴别的习惯。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多