分享

【漫话统计】大数据认知的误区

 文武不全 2017-02-28



之一:数据分析统称为大数据分析

【问题】时代赋予了数据分析工作者重要的使命,同时也给数据分析的应用提出了严峻的挑战。然而,为了应对这一挑战,人们就会做出许多的工作来显示应对挑战的能力,其中一个重要的表现就是,凡事数据分析都冠上“大数据”这一概念,凸显人们已经对大数据有所把控。


【分析】


  我们先来看一个案例:有两个年轻人,在谈恋爱的过程中,将一年来的热恋过程较为详细地做了一个分析总结。热恋分析报告如下:


  我们的感情,在团队领导的亲切关怀下、在同事们的支持和帮助下,一年来正沿着健康的道路蓬勃发展。这主要表现在:


  第一,我们共通微信568次,平均每天1.56次。其中你给我的信239次,占42.1%;我给你的信占57.9%。每次微信联系平均0.25小时,最长和最短的分别达1.35和0.09小时。


  第二,约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%;我主动约你60次,占61.3%。每次约会平均3.8小时,最长和最短的分别达6.4和1.6小时。 

  

  第三,我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。


  以上充分证明一年来,我们爱情的主流是互相了解、互相关心,是平等互利的。当然,我们二人虽然都是积极的,但通过以上的大数据分析看出,发展还不太平衡,积极性还存在一定的差距。相信在新的一年里,我们一定会发扬成绩、克服缺点、 携手前进,开创我们爱情的新局面。


  这两位年轻人说:“看,我们也在利用大数据分析,的确产生了效果。”像类似的案例很多,将简单的统计分析,特别只是应用了描述统计的简单思路,来误导大数据的应用,这是绝对错误的。


之二:大数据时代到处可以获取大数据资源

【问题】大数据时代高度发达的网络技术,使得承载数据资料的个人电脑、手机、平板电脑等智能产品随时可见,数据资料的来源范围在不断拓展。以此,很多人认为大数据资源随时可得,给大数据分析带来极大的便捷,但事实也并非如此。

【分析】


  经常有人问:“你们数据挖掘研究中心从事海量数据分析十多年了,一定积累了大量的大数据资源,如今对大数据研究和应用很火热,我们也开始从事大数据研究工作,能不能给我们一些大数据呢?让我们也做一些分析。”我说:“我们数据挖掘研究中心‘没有’数据”。我这里所说的没有数据是带引号的。实际上,我们数据挖掘研究中心有好多类型的海量数据资源,但是这些资源的获取,是在框架性协议的支撑下获得的,不会公开发布(只发布研究成果),数据资源很难得到共享。


  这里需要明确,随着“互联网 ”行动的实施,不仅现代化行业储存了大量的数据,传统行业和部门也产生了大量的数据,同时这一现象渗透到了自然科学和社会科学的各个领域,比如金融、保险、医疗、移动互联网、环境保护等。然而,不同行业和不同部门产生与储存的数据资源,难以共享,更不可能公开。每个企业的大数据分析,主要是为本企业的发展而服务。这样就出现一种奇葩的现象——“数据孤岛”。矛盾的显现就在于此,网络生活越来越普及,为了支持各种网络服务,遍布全球的数据处理中心每一分钟都在传输着大量的数据,全球数据量正以平均年增长率50%的速度增长,而当前数据总量的80% 都是产生于最近两年,可是这一现象我们看不到,更无法获得这些大数据资源。


之三:成立大数据机构就占领了大数据研究和应用的阵地

【问题】国务院印发《促进大数据发展行动纲要》,提出将全面推进我国大数据发展和应用,加快建设数据强国,以此促进了我国大数据产业和市场的发展。然而,人们为了以示占领大数据产业发展这一高地,纷纷成立各类大数据研究和应用机构。

【分析】


  工信部在制定的《大数据产业“十三五”发展规划》中提出,支持大数据技术和产业创新发展,提升大产业支撑能力,培育新业态新模式,将大数据产业发展提升到国家发展的战略。易观智库发布的《中国大数据市场年度综合报告2016》显示,2015年我国大数据市场规模达到105.5亿元,同比增长39.4%。预计未来3—4年,市场规模增长率将保持在30%以上。这么大的市场规模,为了占领大数据产业发展这一高地,各行各业纷纷行动。


  2015年8月31日(国务院印发《促进大数据发展行动纲要》)之前,我国省、市级成立了三个“大数据管理局”,即是“广东省大数据管理局”(2014年2月26日)、沈阳市大数据管理局(2015年6月1日)、“成都市大数据管理局”(2015年8月筹建)。我们以9月1日作为节点,发现在节点之前,以超前的思维和理念成立了三个大数据管理局,而节点之后,各个省、市纷纷成立大数据管理局。可以考虑这个节点会有多么大的推动作用!


  2016年8月份笔者做了一个调查,第一期34所985高校中,有44.11%成立了有关大数据的研究机构,其中在2014年(包括本年)之前成立的只有5所大学,2015年(包括本年)之后成立的有10所大学。除此之外,各级高等学校相继成立了不同类型的大数据研究机构。深入的了解一下,这些研究机构都在做什么呢?很少几所高校与企业和公司合作研发大数据产品,大部分高校的大数据研究机构重点放在人才培养方面。



  我们再来看看不同行业对大数据的认知情况,现代化行业拥有自己的大数据研发机构,例如阿里巴巴、百度、京东、腾讯等,传统行业也在根据实际的需求,陆续成立大数据研究机构。不论是现代化行业,还是传统行业,根据自身的特点,本着为企业服务的目标,开展大数据的研发工作。


  随着大数据市场规模的不断扩大,我国大数据产业生态体系的建设也在不断完善,但实现大数据产业化的关键在于亟待解决数据公开性、数据标准等多重应用难题。这些问题的解决可归一为:如何构建大数据资源共享平台。然而,各级政府成立“大数据管理局”、高校和科研部门成立“大数据研究机构”、企业和部门成立“大数据研发和应用机构”,目前这些机构的目标是一致——大力推进大数据产业发展,但是在实现这一目标的过程尚欠一致,笔者把它称为“机构孤岛”。如何将不同类型的大数据管理、研究、应用机构构建到一个或几个不同层次的共享平台呢?这是推进大数据产业发展,面临的重要挑战。


  本文篇幅所限,不对各方面问题展开分析,希望有识之士来共同探讨这些问题。(作者  厦门大学统计学院 朱建平)


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多