分享

数据是如何坑人的? 图片上传中...... 开篇直接看案例:现有两个广告素材 A和 B,要测一下它们谁更能吸引用户转化,评比的指标是转化率(...

 wupin 2022-05-17 发布于湖北

图片上传中......

开篇直接看案例现有两个广告素材 A和 B要测一下它们谁更能吸引用户转化评比的指标是转化率转化率=转化数/曝光数

为保证试验公平它们都设置了相同的预算额度并且都在中午12点开始投放然后到晚上12点同时关闭

这样跑了半天两组广告的预算也都基本花完了结果发现 A一共曝光6500次转化了70个用户转化率是 1.077% B一共曝光6200次也转化了70个用户转化率是1.129%

看到结果后广告投放师小李就认为 B素材的转化率更高

这时营销总监老王却说到目前为止我更愿意相信 A要高一些小李一脸蒙为啥啊

老王解释道即使是相同的广告在不同的时段也会有不同的转化率一般来说下午的转化率是低于晚上的因为大部分人白天都有事情不太容易被转化而到了晚上大家都有空了所以更容易被转化

小李又问你说得对但跟这次投放试验有啥关系呢

老王继续说我刚从后台看了素材的来量情况——A素材下午转化50个曝光5000次晚上转化20个曝光1500次 B素材下午转化20个曝光2200次晚上转化50个曝光4000次其实不管是下午还是晚上A的转化率都是更高的而你之所以认为 B更高主要是因为 B在晚上才跑出了量——它捏的'软柿子比较多你就误以为它更厉害

看到这里可能你还有点蒙是啊如果拆开来看确实 A更高但合并看总数的话又是 B更高那这到底该怎么看呢

坑1辛普森悖论

上文的现象就是典型的辛普森悖论 Simpson's Paradox——在某个条件下的两组数据分别讨论时都会满足某种性质可一旦合并考虑却可能导致相反的结论

这是在其他领域的工作中也会经常遇到并且经常会坑人的一个现象

几乎每一家公司上司都会让下属对业务层面的各种数据进行汇总然后呈报给自己并自以为了解了总体的情况

不过谷歌的一位数据大牛曾说过汇总的数据往往就是一坨屎没有任何意义

为什么这样说

抛开专业的数学分析如果用最通俗的语言来解释我认为就是20头猪就是20头猪50棵树就是50棵树但如果你硬要把它们加起来20+50=70这个70是毫无意义的什么都代表不了汇总的数据除了象征性地汇报工作往往并无其他意义

为什么说是象征性的

因为如果汇报工作是为了指导决策那很可能会把人带进坑里

就像上文广告素材的案例如果营销总监想偷懒只看最后的结果那他很可能就误判了广告素材的优劣更严重的甚至会导致后续投放的素材都沿着坏素材的方向去优化

所以在真实的情况中如果一定要就此盖棺论定确实是 A要高一些当然更科学的做法是继续试验并通过加大预算和严控时段来减少偶然性以及不同性质的数据占比的差距除了广告投放辛普森悖论还经常出现在各种各样的数据统计活动之中——需要算比率的统计基本都会出现比如转化率留存率合格率负债率投资回报率等等

那么如何才能避免汇总数据可能带来的坑呢

关键记住8个字不同性质拆开来算

坑2误把相关当因果

啤酒与尿布的故事大家应该都听过——通过相关性分析商家发现啤酒的销量与尿布的销量呈高度正相关于是他们在陈列上让啤酒和尿布离得更近以此来提高销量当然这完全是个不切实际的杜撰的故事杜撰者是 Teradata公司的一位经理——估计是营销经理为了说服商家购买他家的数据服务编的软文

而这里想说的重点是相关性分析

如今不管是传统行业还是互联网行业数据已成为企业内部最重要的资产之一

而各家公司的数据分析师几乎每天都会做的一件事就是分析各个因素之间的相关性并以此来找到增长方法

比如游戏公司发现用户玩游戏时间越长留存往往越好所以就重点提升新用户的游戏时长以此大幅提升留存

再比如便利店通过监测发现人们逆时针环顾店内的时间占比越大人均消费就越高所以在装修和陈列上就尽量引导人们逆时针行走因为右撇子的人更多而一般逆时针环店能让更多商品出现在人右侧这样拿东西更方便也就拿得更多了

不可否认的是通过相关性分析确实能找到很多有效的增长方法

不过过于迷信相关性有时会带来相反的结果比如某社交 APP想提高留存

他们发现用户发消息的条数与留存的相关性系数是最高的不仅如此他们还发现消息条数超过500的用户群体与没有超过500的用户群体留存情况出现了断崖式的差异

于是为提高留存团队就提出假如我们设法提升新用户发消息的条数尽量使之超过500就可以明显提高留存了

再于是他们就通过设置阶段性有奖任务发消息到一定条数就会触发获奖提示并告知下一个有奖任务将所有新用户的消息条数都给拉了上去并基本超过500

然而最后的结果却是虽然整体的短期留存上去了但整体的长期留存反而下降了

为什么会这样其实这就是典型的误把相关当因果甚至是因果倒置——不是因为条数多所以才留存好而更多是因为留存好所以条数才多

上述的方案虽然短期能通过利益提高留存但对真正愿意使用产品的用户来说获奖提示可能是一种打扰另一方面利益的刺激会带动更多非目标用户羊毛党下载和使用 APP拉低用户质量所以长期留存就降了

而最终关于留存的优化方案其实是在广告方面因为该 APP是重点参考 Instagram来做的特点在于图像相关的功能但此前的广告只是模糊地说了好玩有趣没有突出具体的功能和使用场景所以造成用户预期与产品不符留存就不高的情况

有趣的是在之前数据分析的结果中广告与留存的相关系数并不算很高

坑3只信看得见的数据

如果说上述两个坑分别是因为对数据和业务不够理解才掉进去的那么第三个坑可能就是越理解数据和业务就越容易掉进去

数据最大的问题是它只能显示有数据的信息而不能显示没有数据的信息

克莱顿·克里斯坦森将这两种信息分别称作积极数据与消极数据

积极数据是指有结构可量化的数据比如销量销售额留存率转化率复购率利润率付费率性能指标市场规模等能规范地被整理到 Excel里的数据都是积极数据

而消极数据就是指那些没有清晰的结构也很难被发现和量化的数据比如用户使用产品背后的动机情感观念习惯以及这些因素跟随时代的变化等

从业务诞生的那天开始企业就会掌握越来越多的积极数据比如哪些产品卖得最多哪些产品利润最高复购率如何顾客年龄如何分布市占率是多少……

而随着积极数据的增多它对企业内部的影响也会越大——销售部会根据不同产品的销量和利润去影响生产规划品牌部会根据品类在网络上的关键热词去调整产品卖点投放部会根据老用户的属性精准投放新用户客服部也会根据用户反馈给产品提优化建议……

好像一切都会正向发展并慢慢沉淀为经验

不过一些经验之外的东西也在酝酿和发生着

以电商为例当阿里和京东根据自己的增长经验扩充更高客单价的品类抢夺更高净值的人群设立专门的打折促销日并战略性地放弃低端市场的时候拼多多却突然冒了出来并且只用几年用户量就全国领先阿里和京东其实都没有错但拼多多是凭什么那些低线的用户为什么不用淘宝却要用拼多多因为更便宜为什么拼多多更便宜因为它有很多作坊货山寨货

那为什么这些作坊货山寨货要去拼多多

一方面是其他平台不让卖另一方面是拼多多的拼团模式能让他们薄利多销——跟在线下去赶集一样

是的对于低线的用户包括商家来说拼多多才是首个把他们线下购物的场景搬到线上来的APP——不管是组团购物砍价还是买卖山寨便宜货本来就是他们线下的日常

至于淘宝和京东对他们来说则更像城里的商场——去的次数也不多而且对他们来说但凡贵的东西要看到实物才踏实

为什么拼多多能看准这个市场机会还发明了社交电商这个新物种

其实对于低线用户来说购物本身就是社交——大家一起上街买东西遇到熟悉的商贩砍砍价你买一斤花生他送你两颗枣你帮隔壁大婶带点葱隔壁大婶帮你带点盐既有商品交易也有情感往来——这就是拼多多洞察到的关于用户购物的消极数据

所以所谓的帮砍拼送社交电商本来就来源于生活来源于对那些消极数据动机情感观念习惯等的洞察拼多多只不过是把它们搬到了手机上让它更容易发生而已

至于阿里和京东毋庸置疑他们的核心团队一定是既懂电商业务又精于数据分析的

不过这么专业的团队为什么没有在拼多多之前把握市场机会

这里的原因是多方面的

企业要增长团队要成长自然更愿意把注意力放在利益更大的地方——更高净值人群更高客单价产品更高频的产品等等其实现在的拼多多也一样

另一方面如泉涌喷的积极数据也很自然地将内部注意力集中于产品和指标如如何提升物流效率如何提高广告收入如何提高用户活跃度等等

就这样在利益和数据的驱动下他们会越来越了解自己的用户并为其提供越来越好的产品和服务与此同时他们也会越来越清楚谁不是自己的用户——那些低线的人就不是典型的电商人群我没什么精力去关注他们

不过正是这种因数据导致的慢慢被固化的偏见才导致市场被分化被占领甚至被颠覆

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多