配色: 字号:
大数据及其产业发展方向与趋势(3)
2022-05-08 | 阅:  转:  |  分享 
  
大数据及其

产业发展方向与趋势(3)

胡经国



四、从历史变革中认识和发展大数据



链接:ARM

ARM(AdvancedRISCMachine)处理器是英国Acorn有限公司设计的低功耗、低成本的第一款RISC(微处理器)。ARM处理器本身是32位设计。但是也配备有16位指令集;一般来讲,比等价32位代码节省达35%,却能保留32位系统的所有优势。AdvancedRISCMachine直译为:“先进的RISC机器”。

链接:RISC

RISC(ReducedInstructionSetComputing,精简指令集计算机指令微处理器。微处理器RISC处理器。这样一来,它能够以更快的速度执行操作(每秒执行更多百万条指令,即MIPS)。因为,计算机执行每个指令类型都需要额外的晶体管和电路元件;计算机指令集越大就会使微处理器更复杂,执行操作也会更慢。许多微芯片



⑵、大数据管理应用需要产业支撑

从产业角度看,大数据产业大体上可以分为两类:一类是“技术变成产业”,就像当年数据库管理系统变成数据库产业。当真正的大数据处理芯片和计算架构形成时,也将会形成一类新的产业。另一类是各个企业、机构甚至个人。以后,我们很多“个人”都可以变成大数据的拥有者。

千万不要小看这一点。在20多年前,很多机构包括中央部门,其数据库量级是以G为代表的;而今个人都可以拥有T量级的数据。这样的企业、机构、个人,如何使数据管理应用成本更低、效率更高,这需要产业的支撑。因此,谁能为这些“个体”的大数据应用提供便利,谁就会在发展过程中形成增值的发展基础。

⑶、大数据应用的主要问题

然而,从应用的角度看,大数据最重要的含义不在于上述技术和产业,而在于所有企业、机构和个人如何将大数据变成我们提升能力、提升竞争力、提升生活质量的源泉。那么,在这个命题上,当前大数据应用的主要问题是什么?

第一个问题是数据有没有用、能不能用,能不能变成提高劳动生产力和提高市场占有率、提高创新能力、降低成本提升效率的源泉。这是社会进步的根本所在,也是大数据的本质所在。

所以,不管是企业还是机构,在讲大数据应用的时候,首先要解决的问题是“大数据能贡献什么价值”,然后通过这样的分析再去看大数据在哪里,怎么才能得到。

五、中国大数据市场发展十大预测

有关专家表示,IDC(InternetDataCenter,互联网数据中心)一直把大数据、云计算、移动和社交这四个主题当做未来IT发展的主要方向。IDC在大数据方面已经做了大概多年的研究。IDC中国从2011年开始对大数据市场做了深入的研究。

IDC对大数据的定义是“4V”,其含义是:高容量的数据、数据类型多样化、持续性不断刷新的数据以及为用户带来最终的价值。

1、大数据IT市场的4个层面

IDC认为,大数据的整个IT市场主要包括以下4个层面:

⑴、IT基础架构层面

包括:服务器、存储、网络、I/O等方面的硬件设施以及相关的基础架构软件;

⑵、上层数据的组织和管理;

⑶、更上层数据的组织;

⑷、更上层分析和挖掘的市场

包括:对最终用户提供的最上层的决策支持、数据展现的市场。

2、关于中国大数据市场发展的十大预测

大数据市场到底有多大?2010年,全球大数据以及相关的硬件、软件和服务市场大概是30亿美元以上的市场。曾经预测,在2015年整个市场将超过170亿美元,平均增长速度每年超过50%。大数据不仅仅是在数据分析领域;目前来看,它已经逐渐开始影响到数据中心、移动以及包括社交网络等在内的其他相关的主题市场。IDC总结了对全球以及中国大数据市场的研究。提出了未来在中国可能成为大数据市场发展的十大重点方向。下面就是IDC对未来中国大数据市场发展的十大预测。

⑴、Hadoop会有一个很明显的商业化过程

第一个预测是,未来Hadoop会有一个很明显的商业化过程。可以拿一头大象比较一下另外一个很熟悉的动物小企鹅。Linux市场和Hadoop市场有非常相似的发展过程。大概在十几年前,90年代初,当Linux项目刚刚开始的时候,经历了几个过程。从项目开始到Linux社区的成立,总共经历了大约三四年的时间。而我们看到,Hadoop项目自2006年提出到现在基本上确立也是经历了三四年时间。Linux的生态环境以及主流的商业方案的形成,基本上是在2000年左右。可以预测,Hadoop这头大象可能会和企鹅跑得一样快,甚至更快。在2010年到2011年之间,Hadoop的生态环境已经形成;很可能在2013年甚至在今年,就会形成非常主流的Hadoop商业化的打包产品,并不断地推向市场。

⑵、部分早期Hadoop项目面临种种挑战

第二个预测是,在Hadoop发展非常快的前提下,很早期的Hadoop项目也将面临着种种挑战。这头大象在跑的过程中也会遇到一些障碍和挑战,值得我们在未来给予关注。

①、有比较明确的行业应用目的的项目

首先,看这头大象在初始的时候,是不是完全为了验证概念或者完全做试验开发项目。如果有比较明确的行业应用目的,那么可以说这个项目在未来有比较好的发展。有一些完全属于验证概念的项目就会受到一些挑战。

②、可以继续推广项目

在项目实施初期,是不是使用了一些关键案例,可以让项目继续推广。

③、适合用Hadoop环境的项目

再就是,项目开发是否是适合用Hadoop的环境;而不是针对传统数据库就可以解决的市场,若后者非要用Hadoop来实现反而是背道而驰。

如果说这三个方向都能够非常适合,那么Hadoop项目可能会继续走下去。但是,有一些早期项目可能会被优胜劣汰,留下来的都是精华的Hadoop项目。

⑶、开源软件带来更多相关市场机会

第三个预测是,Hadoop是完全开源市场。开源市场很可能只是一个完全免费的市场,难以给厂商带来更多的机会。这些厂商不会投入很大的力量在这一方面。因为,它拿不到什么绩效。既然我们所有的水都是免费,为什么还要买瓶装水呢?这完全可以告诉大家,与免费竞争并不是不可能的;另外,在免费市场带来的机会,绝不仅仅是免费的一小块市场。Linux市场在过去几年间的增长速度为每年百分之十几。但是,它带来的基础架构软件、系统管理软件、开发应用软件(比如说数据库、开发工具和应用软件)市场,包括Linux服务器硬件市场的增长,将会在未来几年达到几倍之多。所以说,开源软件的发展其实会给很多相关市场带来更多的机会和增长。

⑷、大数据推动软件公司之间的并购

第四个预测是,大数据会带来更多软件公司之间的并购。大数据软件市场的生态系统,有很多类型的软件厂商,包括传统的关联数据库厂商以及多维展现做分析的软件厂商;对Hadoop分析包括管理、包括Hadoop应用的厂商。在这里面,有很多我们熟悉的公司,也有很多不熟悉的小公司。这些我们不太熟悉的公司很可能在未来被大公司所并购。我们看到,这个市场没有一个公司能够覆盖整个市场规模。所以,未来几年将会看到很多并购发生。

⑸、大数据应用市场迅速增长

第五个预测是,在应用(Appliance)市场,包括传统的数据仓库(DataWareHouse),还有非关系型数据库应用(NoSQLAppliance),未来有两个发展方向:一个是更为开放的架构,通过开放的架构降低自己的成本。另外一个是有很多企业级厂商会采购很多打包的产品,实现它的功能。这种ApplianceServer实际上就是未来的发展趋势之一。

⑹、大数据应用将逐渐向更多行业发展

第六个预测是,未来几年大数据应用将逐渐向更多行业发展。现在,大数据主要应用于传统的互联网和电信等方面,大数据都集中在互联网;联通、电信都在着手做很多大数据应用的开发。

比如说,在一些智慧城市项目中已经有了大数据应用的实施。另外,能源方面通过仿真的分析和应用来寻找能源挖掘的地点,也将涉及到大数据的一些应用。还有,制造业上下游的产业链以及金融业的金融分析和预测,都将使大数据应用深入到更多的行业。

所以说,未来几年,用户将了解大数据,在行业方面对数据流的监测和分析将有更多的需求。

⑺、大数据创造新的细分市场

第七个预测是,大数据创造新的细分市场。我们原来一直讲云计算时代,未来可能会有DataService(数据服务)。其实IDC也是做这个工作的,把数据当做服务提供。未来可能有一些专业的数据带来做一些数据服务工作。用户开始把数据创造出来以后,交给我;我有一个分析平台和专业知识,帮助你分析数据背后的信息;然后再把结果返回给你。我们可能会出现数据代理。

在未来数据多种多样的情况下,可能有一些统一的信息访问平台的细分市场。此外,还有一些市场,比如说社交方面。社交将从传统的SocialMedia(社交媒体)发展到Socialytic(社交分析应用)。也就是说,社交分析会更多地和企业内部的管理系统相结合,形成真正的无缝的社交分析。

现在,与大数据市场相关的人才还非常短缺。未来几年大数据市场一定会有更多的培训市场机会,甚至高校会开展数据分析的课程,会有专门的数据分析工程师的出现。当然,还可能有些市场是我们根本没有想到的。

⑻、打包的大数据行业分析应用出现

第八个预测是,打包的大数据行业分析应用出现。从传统概念来讲,大数据太复杂了,无法形成打包好的分析应用。但是,在未来几年中,某一个行业的应用会形成一定的共性,将会有厂商根据行业的分析应用,打包好一些分析应用,将基于大数据的分析应用推广到行业方面。这不仅需要做数据分析的专长,也需要很多行业方面的专业专长。将会有很多行业的ISV(IndependentSoftwareVendors,独立软件开发商)加入到大数据行列中,基于大数据平台开展他们的应用开发。

⑼、大数据将推动基础架构向横向发展

第九个预测是,大数据将推动基础架构向横向发展(或横向扩展)。这是因为,从比较传统的数据处理方式和大数据处理方式来讲,我们发现在处理结构化和非结构化数据方面,它们的存储方式不一样。更多的大数据采用分布式存储的方式更加有效率。在对数据进行处理的时候,因为大数据的类型比较复杂,数据量比较大,可以通过分布式的处理方式,把应用复杂分散到分布式系统的各个节点上。传统的数据处理是用运算能力非常强、CPU主频非常高的一台机器来处理;而不像大数据这种用多个节点、多个CPU核数来处理。这代表了大数据时代发展方向从Scale-up(纵向发展或纵向扩展)转向Scale-out(横向发展或横向扩展)。

⑽、中国将成为全球最重要的大数据市场之一

第十个预测是,中国将成为全球最重要的大数据市场之一。我们来看几个数字:中国人口数是全球第一;2011年中国GDP是全球第二;7000万台PC的出货量和9000万台智能手机出货量。这都是全球第一的出货量。这也就造就了全球第一互联网用户数和全球第一互联网移动用户数。创造数据的规模远远超过全球其他各个国家。即使一些发达国家,由于没有这么多人口,没有这么多的互联网和移动互联网的用户。所以,数据量的产生也难以和中国相比。2011年,中国服务器出货量达126万台,全球第二。

上述数据表明,无论是客户端还是企业级,中国都是非常重要的市场。这势必产生新模式来让全球认识中国的重要性。拿一个过去的例子来比较,为什么华为和中兴在通信领域获得了这么大的成功,并不完全是因为他们的低价冲击了其他市场,而是因为华为和中兴有中国人口基数的通讯量。它的交换机能够适应中国十几亿人的通话量。所以,其产品在任何一个国家都能获得成功;而国外的相关产品未必适合中国大规模的通话量。

由此可以推广到大数据市场,在中国大量数据处理所产生的解决方案可以适用于其他任何一个国家;而其他国家推出的解决方案未必适用于中国。可以期待,在大数据市场方面,中国企业能够获得更多的成功。

大数据给市场带来的将是更广泛的机会。对于中国来说,这个市场是非常有前景的,值得大家高度重视。另外,各行业的客户和开发商也应该在大数据市场方面抓住机会,借助自己的优势创造更多的价值。

六、大数据在2020年

IDC(互联网数据中心)和EMC(IT存储硬件解决方案提供商)发布的标题为“2020年的数字宇宙”的报告预测了从2012年开始8年间的大数据发展状况。下面是其中的一些有意思的亮点。

1、到2020年,数字宇宙将会膨胀到40000EB或40万亿GB(也就是说,到2020年,每个男人、女人和孩子可以均摊到5200GB以上)。从2012年到2020年,数字宇宙的膨胀率大约是每两年翻一番。

2、到2020年,在数字宇宙中,将近40%的信息都可能会被云提供商“触摸到”。也就是说,一个字节在从源端到目的端的途中,都有可能在云中的某个地方被存储或者被处理。或许,还有15%的信息将会始终驻留在云中。

3、在数字宇宙中,需要加以保护的数据占比,会比数字宇宙自身的膨胀率还要快;将从2010年的不到1/3增长到2020年的40%。

4、2012年,在需要保护的信息中,只有约一半受到了保护。到2020年,这种状况可能会略有改善。某些需要更高安全性的信息,会比数字宇宙本身增长的更快。但是,这依然意味着,未受保护的数据量也将会以26%速率增长。

5、到2020年,在数字宇宙中,大约1/3的数据(超过13000EB)将具有大价值;但是只有当其被标签、被分析时这种价值才会显现。2012年,我们认为在数字宇宙中23%的数据(或643EB)对于大数据来说会是有用的;如果它们被标签和分析的话。然而,技术总是超越需求。实际上,在可能有用的数据中只有大约3%的数据被标签;而被分析的数据则更少。



链接:“被标签”

数据标签是通过对数据信息分析得到的高度精炼的特征标识,方便机器或人对数据的识别。数据标签建立是通过对数据物理表进行梳理,将业务专家的经验与数据物理表结构融合而成。数据标签能够提供统一业务化的标签给下游使用方,而不是直接提供原始数据表。数据标签具有指标口径一致、节省计算资源、便于全局优化的特点。



在电网规模和数据量急速增长的环境下,传统存储的关系型数据库、数据集成及整合分析方式已经无法满足业务应用的需求。为了满足电网监控应用需求,需要引入数据标签技术来解决目前的技术瓶颈。基于数据标签开展电力业务数据辨识、数据治理、数据加工,相较于传统数据存储和治理模式,能够大幅提高电网监控业务智能化水平。

给文本数据打上丰富的业务分类标签是文本大数据分析的重要基础工作。分析师可以在多维数据标签的基础上,进行高复杂性的分类与统计,从结果中洞察业务趋势及可能存在的问题。





2016年5月30日编写于重庆

2019年12月10日修改于重庆

2022年5月8日修改于重庆

5







献花(0)
+1
(本文系胡经国图书...原创)