腾讯科技讯 11月30日消息,中科院计算所所长孙凝晖在今天召开的2012 Hadoop与大数据技术大会上表示,大数据在未来很可能会成为一个新的行业,互联网这个行业本身就是一个具有大数据的特征的行业。
孙凝晖同时指出,大数据本身也超越了互联网行业,不仅仅是在网络,生物基因本身也是大数据,各个物种的基因数据产生以后也会产生很多的学术价值、商业价值。
“如果说20世纪是一个石油为王的时代,21世纪就是一个数据为王的时代,21世纪数据的价值有可能等同于20世纪的石油。”孙凝晖还如此表示。
2012 Hadoop与大数据技术大会于11月30-12月1日在北京举行,本届大会通过技术应用审视大数据技术生态系统的现状和发展趋势,围绕大数据处理、信息 检索、内容挖掘、自然语言理解、数据可视化、计算广告学、地理信息系统等相关技术主题进行探讨。腾讯科技作为大会战略合作门户及官方指定微博平台全程直 击。
以下为中科院计算所所长孙凝晖发言实录:
孙凝晖:各位嘉宾、各位朋友大家上午好!
很高兴我和百度的范丽女士作为大会的共同主席来欢迎大家参加我们在互联网和大数据领域的一个非常大的一年一度的盛会。大家也注意到,Hadoop In China大会今年改了名字加了大数据这个比较热的词。大数据是继云计算和物联网之后成为第三个非常热的词。
在今年计算机学会也成立了这样一个大数据专业委员会,看到了大数据在未来很可能会成为一个新的行业。互联网这个行业本身就是一个具有大数据的特征的行业,Hadoop就是在互联网这个行业处理大数据的一个非常好的工具。
但同时大数据本身也超越了互联网行业,不仅仅是在网络,生物基因本身也是大数据,各个物种的基因数据产生以后也会产生很多的学术价值、商业价值。所以大会的组织者把这两个大的行业放在一起,看看能不能擦出一些火花产生更多的机会。
在今年有很多的学术会议大家讨论大数据的时候有一个比喻和美好的希望,如果说20世纪是一个石油为王的时代,21世纪就是一个数据为王的时代,21世纪数据的价值有可能等同于20世纪的石油。
如果是这样,每个人都会有非常大的想象的空间,今天看到的互联网服务对大数据的处理和挖掘还远远不够,我们会有更多的有价值的数据从海量的大数据里发掘出来,产生很多新的商业形态、新的企业和新的服务。
另外一方面,我们如果把大数据和石油行业对比的话,今天还非常地初级。
如 果对比一下,数据勘探技术还很落后,工具还非常,粗浅,Hadoop算是最好的工具了,跟石油的勘探技术相比还差得很多,我们在理论和技术的积累上还很 弱,不知道大数据的几个基本的原理和算法是什么最基本的操作是什么,不像数据库有基本和完整的理论体系,也没有成套的工具,需要我们产学研共同努力来发展 理论和技术。大数据就像石油采矿一样是充满机会的,这是和原来的互联网服务还有很大的不同。如果大数据这样一个大海洋里探矿专业也很多,前一阵子热播的 《温州一家人》,温州人到陕北采矿,也很惨也可能跳楼和妻离子散但也可能获得大的丰收。Hadoop跟大数据给每个人都带来了启示和困惑。我希望通过我们 一起的努力把这样一个非常热的方向发展成真正的富矿和很大的富有创新的空间,也祝愿在两天的会议中都有很好的收获。谢谢大家!
从2012年开始,我们将从大陆时代,移民进入大数据时代。
麦肯锡公司提出的大数据时代到来的观点,引起了全球广泛的反响。多家机构认为,“大数据”将会成为贯穿2012年的一条全新投资主线。
作为特指的大数据,按EMC的界定,其中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量;同时这些 数据来自多种数据源,以实时、迭代的方式来实现。IBM把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化 (Velocity)。大数据通常与Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题联系在一起。
作为泛指的大数据,则指向了定制化、差异化、个性化方向的竞争力。例如美国奥巴马总统委员会的科技顾问Stephen Brobst所说:“过去3年里产生的数据量比以往4万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发 展的当务之急,而常规技术已经难以应对Pb级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新 数据型态的企业,方能打造可持续的重要竞争优势。”
我们原以为已经进入数据时代,其实真正的数据时代从2012年刚刚开始。标志性的区别就在于,以往的数据只是结构化的数据,是非个性化的数据;而进入2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上,这意味着个性化数据时代的到来。
异质性、个性化,这才是数据的真正本质。而那种一模一样的数据,与长相相同的麦当劳、铁锹一样,仍属于过去的时代。
在真正的数据时代,网商将不再奔向数据趋同的淘宝商城,而将涌向提供个性化竞争力的AaaS(分析即服务,analytics-as-a-service),扑向3V的怀抱。
淘宝目前每天活跃数据量已经超过50TB,共有4亿条产品讯息和2亿多名注册用户在上面活动,每天超过4000万人次访问。“大数据”的作用,就是把这 些数据采集进数据仓库中,然后用分布式的技术框架(Hadoop),对非关系型数据进行异质性处理(NoSQL),通过数据分析与挖掘,发展一对一的商业 智能,从中产生让网商因小而美、不再打价格战的企业和个人竞争力;让中国产生不再依靠“中国制造”,而转向“中国创造”的国家竞争力。
大数据时代,还会使一些具有数据核心技术的企业面临新的机会。IBM希望提供端到端、整体的大数据解决方案,机器人“沃森”在人机大战中获胜就是其中的成 果。眼看已经不行的惠普,随着对数据分析仓库供应商Vertica的收购,俨然有了追随Teradata的资本。只要愚蠢的投资人不再多事,就有可能咸鱼 翻身。更不用说EMC占对了内存计算的要津,抢得大数据和云计算的先机。几家欢乐几家愁,就看数据有没有。
我个人以为,大数据并不像某些人说的,是云计算之“后”的又一浪。而就是云计算本身。因为都是数据的大规模集聚与定制化分布的结合。
我们来到了一个人类新的分水岭,由此要把农业文明的分散化,与工业文明的集中化,在大数据中融为一体,集天地之精华,释放出无穷的能量,达到信息时代的“光明顶”。