为什么说大数据工程师会在2017年越过越滋润？

heii2 2017-04-16

展开全文

　　作者｜Matt Turck

　　译者｜大愚若智

　　数据生态系统在2017年终于实现了火力全开。本文为大家提供了一个有关大数据领域详细的“国情咨文”，以及投资机构针对这一行业的见解和关键趋势。本文最初发布于Matt Turck博客，经原作者授权由InfoQ中文站翻译并分享。

　　写在前面

身为数据极客，在2017年应该能感觉很幸福。

去年，我们曾经问过大家“大数据还是个值得关注的大事吗？”，并注意到由于大数据更像是一种“系统化工程”，因此在企业的接受速度方面要落后于整个业界的炒作。大数据技术用了多年时间进行演化，才从一种看起来很酷的新技术变成企业在生产环境中实际部署的核心企业级系统。

2017年，我们已经很适应这样的部署阶段。“大数据”这个词正在逐渐淡出我们的视野，但这种技术本身还在飞速扩张。各行各业的各种轶事和证据证明相关产品越来越成熟，在越来越多的财富1000强企业内开始投入实用，很多初创公司借助这些技术快速实现了收入增长。

与此同时，宣传炒作的泡沫开始毋庸置疑地转向了这个生态系统中机器学习和人工智能等领域。过去几个月来，人工智能领域涌现出一种“大爆炸”式的集体意识，这一情况与几年前大数据技术的“遭遇”相差无几，不过发展速度更快。

从另一个角度来看，2017年也是激动人心的一年：望穿秋水的IPO。今年头几个月，大数据领域的初创公司在这方面活动频频，并得到了公开市场的热切欢迎。

总的来说，数据生态系统在2017年终于实现了火力全开。与以往每年一样，我们将通过一年一次的大数据领域回顾为大家提供一个详细的“国情咨文”，将我们针对这一行业的见解总结为关键趋势奉献给大家。

开始吧！

　　上层趋势

　　大数据 + 人工智能 = 全新技术栈

任何风险投资机构有幸看到的各种宣传都能证明，2016年，每家初创公司都在变身成为“机器学习公司”，“.ai”已成为必备的域名，而“等等，我们会通过机器学习技术解决这个问题”已经开始普遍出现在各类集资活动的演示文稿中。

围绕人工智能的报道、座谈会、新闻邮件，以及微博层出不穷，很多早已在关注机器学习技术的人，他们的反应就好像发现自己当地的某个品牌突然开始了全球化扩张：一方面，倍感骄傲；但另一方面，就好像面对派对上姗姗来迟又装腔作势的人那样表现出明显的厌烦之情，同时做好了不可避免会感到失望的心理准备。

虽然很容易认为这些趋势的发展非常和缓，但该领域所经历的演变是不可避免，并且影响深远的：机器学习正在快速成为很多应用程序中最重要的组件。

我们正在见证一个新技术栈的涌现，在这个技术栈中，大数据技术被用于处理数据工程方面的核心挑战，而机器学习技术被用于从数据中提取出价值（以分析见解或操作等形式）。

换句话说：大数据提供了渠道，人工智能提供了我们需要的智能。

当然，这种共生关系并不是什么新事物，但只有少数人有幸能够真正实现。

这些技术正在真正开始变的“民主化”。“大数据 + 人工智能”已经成为很多现代化应用（无论面向普通消费者或企业的应用）的默认技术栈。大量初创公司和一些财富1000强企业都在使用这种新的技术栈（例如JP Morgan的“Contract Intelligence”应用）。

通常来说，云计算是这个“板凳”的第三条腿，但也并非总是如此。这一领域的发展也受到各大云计算巨头的推动，这些巨头们正在举行一场公开的战争，争先恐后地开始提供机器学习云（下文将详细介绍）。

短期来看，是否可以认为民主化会促进人工智能技术的商品化？实际上从技术角度来说，人工智能依然很难。虽然很多工程师正在争先恐后地培养有关人工智能技术的技能，但至少到目前，全球范围内深入钻研这一领域的专家依然很少。

不过这种民主化的趋势至少不会“开倒车”，机器学习技术迟早会从竞争优势“进化”成为一必备要素。而这种趋势对初创公司和大企业都产生了深远的影响。对于初创公司：除非你所开发的人工智能软件是最终产品，那么将你自己称呼为一家“机器学习公司”这样的做法很快将变的毫无意义。对于大型企业：如果目前你还没有积极主动地制定“大数据 + 人工智能”的战略（自行实现或与其他供应商合作），那么你们很快会面临被淘汰的境地。关于大数据，这样的说法已经持续多年了，但随着以大数据技术为基础诞生的人工智能技术飞速发展，这一天只会更快速地到来。

　　企业的预算：逐利

过去多年来，在我们与大数据技术的买家和卖家的交谈中，我们发现财富1000强公司中，越来越多的预算被用于对核心基础架构进行升级，以及与数据分析有关的技术，大家都对大数据技术给予极大关注。很多分析机构也认同这一结论：IDC预计，到2020年，大数据和分析市场将从2016年的1300亿美元市场规模增长至2030亿美元。

在大数据技术方面，财富1000强公司的很多买家正变的越来越成熟和理智。过去多年来，他们已经进行了充分的研究调研，现在已经准备好全面部署了。不仅技术型行业，目前很多行业均是如此。这种飞速变化的趋势还得到了老技术自然淘汰周期的进一步助推，对于大型企业，通常每隔几年就会这样做一次。曾经逆风飞扬（难以剔除或取代原有基础架构）的大数据技术现在正逐渐变的顺势而飞（“我们需要替换过时的技术，市面上最好的同类技术是啥？”）。

当然，很多大企业（“晚期从众者”）依然是大数据领域的“新手”，但这种情况的变化速度变的越来越快了。

　　企业数据正在陆续上云

就在几年前，如果你建议企业将数据迁移至公有云，大企业的CIO给你的回应大部分只会是“除非我死了”，当时他们顶多只愿意将开发环境，或各种稀奇古怪，非关键的对外应用程序迁移至云端。但现在他们的看法似乎开始产生变化了，去年以来这种变化非常明显。我们听到了一种更为开放的心态：大家已经逐渐认识到“反正我们的客户数据本来就已经保存在Salesforce的云中”，或者“在网络安全的预算方面，我们的投入与AWS压根儿没得比”，而讽刺的是，过去多年来，对安全的顾虑曾是企业接受云计算的主要障碍之一，但云供应商在安全与合规（HIPAA）等方面的辛苦努力终于得到了证明和回报。

毫无疑问，目前离大部分企业数据都保存在公有云中这一目标还有一定距离，但部分原因在于遗留系统和管控制度。

然而演变的趋势是明显的，并且越来越快。云供应商会尽一切努力促进这一过程，甚至提供搬运海量数据的卡车。

　　2017大数据全景

言归正传，我们想象中2017年大数据领域的全景是这样的。

我们放大看看开源技术部分：

当然，今年我在FirstMark的同事Jim Hao也对此图的制作提供了巨大的帮助。

　　合并工作开始了吗？

大数据领域每一年都变的更加热闹，因此这就造成了一个显而易见的问题：这个行业是否迎来了大规模并购的风潮？

似乎还没，至少目前还看不出这样的趋势。

首先，风投们会继续愉快地注资各家新老公司。2017年头几个月，为成长阶段的大数据初创公司注入巨资的消息此起彼伏：Looker（D轮，8100万美元）、InsideSales（F轮，5千万美元）、DataRobot（C轮，5400万美元）、Confluent（C轮，5千万美元）、Collibra（C轮，5千万美元）、Uptake（C轮，4千万美元）、WorkFusion（D轮，3500万美元），以及MapD（B轮，3500万美元）。另外DataBricks非常值得注意，他们在2016年12月刚获得6千万美元的C轮投资。全球范围内，大数据初创公司在2016年得到了风投机构总计148亿美元的投资，其中10%由全球性的技术VC提供。

另外需要注意，该领域的相关投资大多是全球性的，欧洲、以色列（如Voyager Labs）、中国（iCarbonX）等地均有大量公司成立并获得注资。

其次，2016年全景中曾经提到，并购活动已在有序进行，但没有特别让人印象深刻的，也许部分原因在于私营公司的估值始终居高不下。我们在2016年大数据全景中曾经提到，共有41家公司被并购（完整清单请参阅文末备注），2017年，并购的节奏大体上会与去年持平。

另一方面，2017年至今已经出现了一些非常大的并购活动，例如Mobileye（被Intel以153亿美元收购）、AppDynamics（思科，37亿美元），以及Nimble Storage（HPE，12亿美元）。

去年还曾出现过一种较为普遍但并不持久的现象：大型技术公司疯狂并吞人工智能领域的初创公司，尤其是专为各种水平问题（Horizontal problem）组建了团队的公司。例如：Turi（Apple）、Magic Pony（Twitter）、Viv Labs（三星）、MetaMind（Salesforce）、Geometric Intelligence（Uber）、API.ai（Google），以及Wise.io（GE）。虽然这些举措使得主要针对水平领域的人工智能初创公司快速成为VC眼中的香饽饽，但这种不假思索的快速收购可能也对应着各种炒作，以及人工智能领域工程师的缺乏所造成的特殊时间段。

第三，一些大型大数据初创公司正在变成独立的上市公司。SNAP可以说是带动了技术公司IPO市场的复苏，但截至目前，能够借助该机会成功变现的依然只有大数据领域的公司。

虽然2016年全年，只有Talend这一家大数据公司成功上市，但2017年截至目前这一领域内满是IPO良机。Mulesoft和Alteryx成功上市并且表现还不错，这两家的发行价都超过了IPO价格。在撰写本文时，Cloudera也即将上市，该公司最新预估价（41亿美元）与营收（2016年2.61亿美元）之间的空缺对于“独角兽”的估价现象将造成不小的考验。此外MapR以及位置智能公司Yext也正在准备上市。

接下来会是谁？多年来，Palantir作为业内最低调的公司之一，已经表达出想要公开上市的意图。考虑到Palantir的最新预估价为200亿美元，如果其公开估价能够接近这一数字，将会成为IPO领域的一枚重磅炸弹。

　　打响云端战役

失败和收购活动也许不会让这个行业立刻得到巩固，但“功能合并”的情况日渐普遍，尤其是在云计算领域。该领域内一些重量级选手正在逐渐构建整合式的“大数据 + 人工智能”服务，并且吸引了不少用户，这些服务或者使用了自行开发的产品，或通过流行的开源计算引擎自行实现，这种服务距离很多买家所期待的“一站式购买”越来越近了。

尤其是Amazon Web Services还在继续快速发布不同类型的产品，让人获得了深刻的印象。目前该公司已经围绕大数据和人工智能技术提供了几乎所有产品，包括分析框架、实时分析、数据库（NoSQL、图形等）、商业智能，以及日益完善的人工智能能力，并且在深度学习方面颇有建树（完整清单可参阅这里）。按照这样的速度，AWS很快将具备我们的大数据全景中所涉及的几乎所有基础架构和分析产品。

虽然Google涉足云计算的时间较晚，但他们正在围绕大数据积极主动地构建一系列产品（BigQuery、Dataflow、Dataproc、Datalab、Dataprep等），并且已将人工智能视作超越竞争对手的方法之一。过去一年来，Google在人工智能方面公布了很多消息，例如：一个新的转换引擎，雇佣了两名出色的人工智能专家Fei-Fei Li和Jia Li来领导新成立的Cloud AI and Machine Learning部门，针对视频识别提供的全新机器学习API（这里），并且收购了数据科学家社区Kaggle。

更大规模的企业级IT供应商 – 尤其是Microsoft、IBM、SAP、Oracle以及Salesforce – 也在努力推出大数据（以及人工智能）产品，这些产品都支持云端（最引人注目的是Microsoft）和本地部署。除了通过自行开发，以及收购而来的技术构建这些产品，他们的合作意愿也在逐渐加强，尤其是与“有数据的”公司（数据仓储）和“有人工智能的”公司进行合作。例如IBM和Salesforce以及SAP与Google的合作都是其中的典型。

按照企业IT行业的标准来说，云供应商的规模依然不算大，但这些公司的野心（包括在企业技术栈中，将自己的地位从IaaS层面上升至应用程序层面的明确意图）和稳扎稳打将企业数据迁往云端的做法相结合，意味着与传统IT供应商的全面战争已然打响，大家在争夺庞大的企业级技术市场的控制权，而大数据和人工智能将会是核心战场。

　　大数据生态系统全景回顾

　　基础架构

去年发生的很多事依旧余波未平，例如流处理的重要性与日俱增，目前Spark已独占鳌头，但人们对竞争产品，例如Flink的关注也逐渐开始涌现。此外还有一的有趣的话题时不时地出现在人们的对话中：

SQL已经正式回归了

过去十多年来一直面对NoSQL技术“打压”的SQL数据库技术现已正式回归。Google最近发布了云服务版的Spanner数据库。Spanner和CockroachDB（Spanner的开源版本）承诺提供一种高存活性、强一致性，可横向扩展的SQL数据库。Amazon发布的Athena与诸如Snowflake等产品类似，是一种大型的SQL数据引擎，可直接查询S3 Bucket中存储的数据。Google BigQuery、SparkSQL以及Presto也开始在企业领域占有了一席之地 – 这些都是SQL产品。

数据虚拟化

在公有云的接受度方面有个有趣的趋势：数据虚拟化产品的使用率正在快速激增。较为古老的ETL流程需要移动海量数据（并且通常需要为数据集创建副本）并创建数据仓库，数据虚拟化技术使得企业可以无需移动，在原地进行数据分析，借此提高速度和敏捷性。很多下一代数据分析产品供应商，现在均已同时提供数据虚拟化和数据准备产品，借此帮助客户更轻松地访问云中存储的数据。

数据管控和安全性

随着大数据在企业中的应用日益成熟，并且数据的种类和数量依然在与日俱增，有关数据管控之类的话题也变的越来越重要。很多企业已经选择通过“数据湖”的方式创建一个中央仓库，用于保存自己的所有数据。但除非人们知道数据湖中到底有什么，并且能按需访问分析工作所需的恰当数据，否则数据湖将全无用处。然而帮助用户轻松找到自己需要的数据，同时妥善地管理数据访问权，这一点并不容易实现。

不仅需要考虑数据湖本身，管控的一个核心主题在于让用户轻松访问可信赖的数据，借此满足企业中任何人的需求，同时必须要以安全、可审计的方式做到这一切。或大或小的供应商（Informatica、Collibra、Alation）纷纷提供功了数据编录、参考数据管理、数据辞典，以及数据帮助台等产品。

　　分析

数据科学家是否已经成为濒危物种？

就在几年前，数据科学家还被视作“21世纪最性感的职业”。就算到现在，Glassdoor的“美国最佳工作”清单中，“数据科学家”依然名列榜首。

但是仅仅在诞生几年后，这个职业就已陷入困顿。部分原因在于其必要性，虽然学校和程序员课程依然在塑造大量粗制滥造的新手数据科学家，但这个岗位依然有很大空缺，尤其是财富1000强公司，他们都觉得很难招募到顶尖的技术人才。在某些组织中，数据科学部门已经从原本的促进者一举“堕落”为瓶颈。

与此同时，随着人工智能技术的民主化和自服务工具的飞速涌现，现在无论数据科学技能极为有限的数据工程师，甚至非技术型的数据分析师，都已经可以承担原本只能由数据科学家负责的基本任务。企业中与大数据有关的很多工作，尤其是枯燥乏味的简单工作，也许会越来越多地开始由数据工程师和数据分析师通过自动化工具来执行，而不再需要具备娴熟技能的数据科学家参与。

也就是说，数据科学最终可能会完全由机器来处理。一些初创公司已经明确将自己的产品定位为“自动化的数据科学”，其中最值得一提的是，DataRobot刚刚通过这种想法筹集到5400万美元投资（数据科学如何实现自身的自动化），Salesforce Einstein也声称自己可以提供能自动生成的模型。

毫无疑问，这些趋势尚未流行起来，目前在数据科学的社区里依然存在一些争议。然而数据科学家目前还不需要对此过于担心。在不远的将来，自服务工具和自动化模型选择将成为数据科学家的“左膀右臂”，而非彻底取代他们，他们可以将更多精力用于需要进行判断、创新、社交技能，或需要具备垂直行业知识的任务。

让一切协同工作：数据工作台的崛起

在大部分大型企业中，大数据技术的运用通常都是从少数相对独立的项目开始的（这里部署个Hadoop群集，那里部署个分析工具），并且会产生一些新的工作岗位（数据科学家、首席数据官）。

然而今天的情况截然不同：异构的情况愈加普遍，企业内部使用了五花八门的工具。从组织结构方面来看，在大型企业中，集中化的“数据科学部门”正在逐渐变成更加“分散化的组织”，通常会有数据科学家、数据工程师，以及数据分析师组成的跨职能群体，并且更加深入地融入到不同业务部门中。因此对于平台来说，需求已经变的更加明确，需要让所有人能够就各种技术进行协同工作，这一点在我们去年的文章中就有提及，大数据项目能否成功，主要取决于能否将不同技术、人员和流程完美融合在一起。

因此协作平台这一领域目前正在经历快速发展，并催生出一种被部分人称作DataOps（类似于DevOps）的概念。FirstMark也正是出于这个原因而投资了Dataiku（可参阅我的上一篇文章：Dataiku，亦或早熟的大数据）。这一领域其他比较重大的投资包括Knime（A轮，2千万美元）以及Domino Data Lab（A轮1千万美元）。Cloudera刚刚发布了一款基于所收购的Sense技术开发的工作台产品。这一领域的开源活动也很活跃，例如Jupyter和Anaconda。

　　应用程序

人工智能驱动的垂直应用程序

至少几年前，我们就开始讨论垂直领域人工智能应用程序的崛起（x.ai以及人工智能驱动的应用程序逐渐涌现），但原本的溪流何时演变成了现在的滔天巨浪？突然之间，似乎每个人都开始开发人工智能应用程序了，无论新成立的，或已经取得重大进展的初创公司，都开始压赌于人工智能，认为这是下一轮增长点（例如InsideSales）。

在这种状况和趋势影响下，一些新成立的初创公司提出了很多激动人心的技术，虽然其中一些犹如雾里看花，但为了追逐热点趋势，也有很多公司在激进地进行重塑。在某些领域使用了某种机器学习技术的公司，并不算人工智能公司。

总地来说，人工智能初创公司的创建并不容易。而其中最关键的第一步在于选择一个垂直领域所面临的问题。除了深入的技术DNA，还需要深思熟虑的定位和策略（构建人工智能初创公司：现实和策略）。

然而要确保自己不被各种可能性看花眼，面对飞速的发展保持冷静，要做到这些其实很难。

尤其是去年，趋势已经很明显了：通过人工智能技术，解决与数据有关的任何问题。无论企业级应用程序或垂直行业，都采取了这样的方式。考虑到现实情况，今年我们在图表的应用程序分类中添加了多个类别，包括交通运输、房地产（借助数据科学实现房地产的现代化），以及保险业。同时我们将一些非常活跃的行业拆分为两个类别，例如营销应用（拆分为B2B和B2C）以及生命科学（拆分为医疗健康和生命科学）。

除了这些领域外，还有一些非常新潮的应用（例如无人驾驶汽车），今天的人工智能技术正在缺乏想象力的企业应用领域闪烁着耀眼的光辉，从人员流失预测到后端办公室自动化，再到安全，以不同形式提供了切实可行的收效。

人工智能导致人类失业，也许还没有得到政府部门的重视，但没有任何一个职业是不受影响的，至少需要考虑会如何受到影响，也许会通过人工智能得以“增强”。这些问题已得到很多白领职业的证明，例如医生（人工智能 vs 医生）或律师（人工智能开始从事法务工作）。

尤其是金融领域，似乎充分考虑了人工智能的潜力。多年来艰难度日的对冲基金正在为自己的算法寻找可替代数据（全新淘金潮？华尔街想要你的数据）。由人工智能驱动的全新对冲基金（Numerai、Data Capital Management等）虽然还不完善，但已经实现了快速发展。华尔街一些最重要的事务所均在使用人工智能取代人类（BlackRock、Goldman Sachs）。

机器人的反击

无论是爱是恨，2016年都是机器人的元年。很多消息交流服务均提供过完全自动化，可以实时交谈的代理程序。虽然昙花一现，但这些机器人程序似乎已经全面经历了不同的炒作周期，从一开始的承诺，到Tay所面临的灾难（译注：Tay是微软提供的一种基于人工智能技术的聊天机器人，该机器人一经上线，与众多网友交流后，变成了“带有种族歧视倾向并且固执的存在”），到微型文艺复兴，再到Facebook相关研究放缓，有报告称聊天平台上70%的人工智能聊天机器人最终都以失败告终。

对于机器人程序的热情似乎有些早，得出这种结论的原因有很多，建议参阅Bradford Cross的观点，他在文中非常恰当地指出，人们可能因为机器人程序在亚洲的崛起，或者Slack等底层基础架构的快速增长而得出了过于乐观的预期。我们相信，最终这种机器人程序有着很大的潜力，但毕竟这一领域还需要更长的成长时间。“生产商”一端（初创公司需要专注于每个具体的业务领域，少作承诺）和“消费方”一端（我们都需要习惯于机器人程序可以和不能做到的事情，Alexa正在帮助我们意识到这些！）都需要进行彻底的心态调整。

就目前来看，最光明的未来可能属于重要领域需要人类介入的服务，或者完全采取不同于机器人程序的定位，使用人工智能技术扩充人类能力的技术（我们得出这一结论的依据来自frame.ai）。

　　写在最后

大数据与人工智能强强联合，我们即将进入“收获”的季节。忽略各种炒作，我们迎来了数量众多的可能性。

随着核心基础架构以及应用程序端日渐成熟，人工智能技术驱动的应用将迎来井喷期，2017年，大数据（以及人工智能）生态几将火力全开。