大数据是一个既传统又时髦的名词。说它传统,因为从人类用数字计量开始,早已把数据融入我们的生活中,身高、体重、视力等等都和数据相关。说它时髦,是因为近几年围绕大数据开发的新产品和新技术,如IP影视剧火热、AI技术井喷等都和它息息相关。 随着智能手机的普及,电商追求流量、企业开发新品、商家促销设计等都把大数据放在活动项目之初,甚至到了“无数据,不成立”的地步。大数据,真的面面俱到吗? 大数据来路有痕,归途无影 以一年一度的奥斯卡为例,人们愿意相信,根据观影的好评度、票房的数据统计等大数据分析,我们是可以预测奖项的。也正如之前预测的那样,2018年第90届奥斯卡开幕和落幕,《水形物语》《三块广告牌》等热门影片不出所料斩获了多项大奖,这正是大数据的魅力所在。 然而,现实并不是都可以实现统计和预测的。在2018年奥斯卡颁奖的同时,号称“东方野兽”的西伯利亚寒流却意外地持续横扫欧洲,威力由北欧直至地中海岸,暴风雪甚至造成56人死亡。寒流如此凶猛,这让拥有丰富气象大数据的预测部门始料不及。 现实告诫我们,在结果发生之前,数据是存在的,但却不是万能的,更不是近乎完美的,有时候甚至大相径庭。能够采集的数据,都已经发生,是过去,来路有痕,但未来的数据,今天未知。对气象部门而言,用昨天的温度推测今天的温度,两者之间或有关联,但换个领域,用昨天的彩票中奖号码推测今天的中奖号码,两者之间却不会有任何联系。差别在哪?时间和逻辑。 过去发生的历史是有价值的,但由过去的大数据推断尚未发生的未来,这种由此及彼的关联性和逻辑性,却不是大数据能够提供的。好比开庭审判,大数据可以帮助提供多样证据,但罪名是否成立,还得靠法官和法庭对证据的综合分析,才能公正地宣判。 大数据偏执循环,无力创新 前不久有新闻说,有人发现用自己的账号在经常使用的旅游网站订酒店是380元,换个手机就变成了300元,“杀熟”成了无良商家的秘密武器。暂且抛开商家的商业道德,仅从技术层面解释,软件数据已经将该熟客认定为“价格不敏感者”,顾客曾经消费380元房间,大数据认为顾客偏爱这个价位,高于或低于该价位匹配度不高,于是投其所好,继续推荐,这就是大数据的简单循环,老百姓说的“一根筋”。 不单是旅游APP,经常上淘宝、京东等平台购物的顾客也会发现,不同登录人打开的首页内容是很不一样的。假如上次浏览衬衫,下次再打开,铺天盖地的衬衫链接和图片迎面而来,不管你已经买了还是没买,一次又一次的强制循环推介。看新闻APP也是,上次多看了两眼体育新闻,下次会有更多的体育新闻让你应接不暇,哪怕是你点错链接,误操作而打开的,大数据也会认为你是认真的,矢志不渝地推介下去。 这些都如经济学中的马太效应,因为多而多,因为少而少,大数据的最后结果只会将过去发扬光大,却不会改弦更张,另起炉灶。大数据留给了互联网包括声音、图片、视频、文字等在内的海量数据,可谓应有尽有,却不会自主生成一部电影、一篇小说。正如经济学鼻祖亚当·斯密提出分工创造价值理论,大数据的分工职能在于记录和计算数据,在单维轨道上不断迭代升级,而实现单维空间的突破,完成多维空间的组合,这些是大数据最欠缺和无助的,而这恰恰是人类生命体的职能分工范畴,即创新。 直面静冷,无视动感 很多人直观面对企业会计报表,第一感觉是枯燥乏味,毕竟数据是冰冷的,静静地躺在那里,毫无声息,企业CFO的职能之一就是把财务数据信息转化为企业运营状态信息,供决策者使用。教师的存在也是如此。学生面对教材上文字冰冷的罗列,茫然无措,只有搭配上抑扬顿挫、声情并茂的讲解才能获得真知(从这一点讲,在线教育并不能替代课堂教育)。总结来说,大数据可以提供剧本、台词和角色,但无法塑造一个立体感的灵魂。 我们常惊讶于沙画艺术家的精妙绝伦,能够用几把沙子画出连贯的场景,讲述一个完整的故事。其实,每粒沙子就是一个数据,数据的整合只有在艺术家的创作中才能体现非凡的价值。否则,沙子还是沙子,成为不了艺术。因此,动态条件下的数据能够创作更大的价值空间。 再举个例子,20年前,冯小刚导演的《甲方乙方》《不见不散》等喜剧电影深受欢迎。20年后,冯小刚导演的《1942》《芳华》这样的悲情影片也有极好的口碑。那么,从大数据的分析,喜剧和悲情电影会是同一批观众吗?答案是:会的!因为,当年的嘻哈青年20年后已人到中年,早已深刻体会到生活的沉重和艰辛。而这些,是冰冷的大数据计算不出来的。因为从数据上看,喜剧和悲情剧面对的是完全迥异的两个细分人群。只有把数据与时间、空间相结合后的四维动态演绎,才能透析市场真实的演进和隐藏的商机。 微观最优,宏观不及 为了精准投放广告,电视台曾经推广了数字机顶盒,通过机顶盒数据的采集,电视台能够精准地知道,观众在什么时间打开电视,看什么节目,看多久。据此再投放广告,能够让广告企业收益最大化。但事实并非如此,原因在于机顶盒能够统计开机、关机和节目收视率,但无法统计收看电视的人是谁;是主动看,还是被动看;是购买者,还是使用者;是看了广告买,还是看了后决定再也不买了。这样的收视率统计,只能反映广告播出了多少,至于广告效果的宏观总账永远是个谜。 因此,我们知道,数据在很多时候只能反映单一的、局部的数量效果,对整体的、宏观的体系顾及不到,简单的数据分析有时候甚至得出误导的结论。还是以电影为例,有数据表明:2017年票房第一的《战狼2》,观众观影时消费的冷饮数量,要远远超过2016年的前票房冠军《美人鱼》,因此得出结论,激烈的战争场面能够极大提升消费者对冷饮的需求。但把背景放大会发现,美人鱼上映时是春节正月初一,而《战狼2》是7月底,暑期卖的冷饮比春节多,正常得不能再正常了。可见,微观的数据再完备,脱离宏观的框架,也显得毫无意义。 市场经济是理性经济,而每个经济个体都是在自身的利益最大化假设前提下,做出最符合自身利益的行为判断,大数据也是基于此逻辑的数理分析,给出最优化的建议。然而,每个人的最优化,合并在一起,未必是宏观的最优化。假设每个人听从个人专属的智能设备的数据分析结论来行动,那么大数据给董存瑞的建议应该是“爆炸当量巨大,生命有危险,撤”;给雷锋做好事时的建议应该是“只有成本,无收益,拜拜”。一味地相信大数据的结论,忽视大数据产生的背景和假设前提,最终的微观结论极可能导致一叶障目,置宏观整体和公共利益于不顾,出现“公地悲剧”。因此,如何规避大数据的微观片面化,是一个值得时刻警惕和思考的问题。 依赖系统,局限自我 大数据的精准和高效是人类无法超越的,这毋庸置疑。但即使是再先进的数据库、再高能的计算机,甚至胜过阿尔法狗数倍,也都依赖一定的物理系统本身,比如存储设备、电能消耗、数据采集和输出工具等,也得通过互联网和手机信号的收集和整理形成数据源。一旦离开这些条件,大数据就无能为力。 假如阿尔法狗和柯洁对弈时停电了,后果可想而知。再比如以GPS手机定位为例,当驴友深入无信号地带,再高能的导航定位装置也只能废弃,只能靠人对自然环境的经验来判断方位。所以说,数据对物理环境的依赖决定了其只能按照自有体系运行,而一旦脱离原有体系,数据则无能为力。 换种场景,当我向谷歌或百度提出一个没有原数据或解决方案的问题时,比如问人类怎么才能飞向火星并返回?大数据只能告诉我:第一,过去没有人曾飞向火星;第二,更不可能返回。但这并不意味着,从此人类就放弃飞向火星的梦想,仍然有马斯克这样的开拓者创造着一个又一个尝试飞向火星的大数据,突破原有系统认知并不断创新。 大数据是工具,可以增大我们胜算的概率,提升我们工作的效率,让我们享受更美好的生活。大数据也是屏障,无原则的依赖和信任,会让我们故步自封,更可能南辕北辙。我们可以用大数据计算出来何时的月亮最大最圆,但却计算不出来,那时的你会和谁一起花前月下,那时你的生活是否幸福美满,因为这些需要个人的机缘,更需要你去努力创造。(来源:《销售与市场》杂志管理版2019年01期) |
|