人类是可以进行推理的,只需要从小数据、小样本中学习,然后用特征+推理的方法就可以进行可靠的判别,这就是人类举一反三的能力。 邓志东 清华大学计算机系教授,博士生导师 2017年7月,北京,清华大学。 天气一如既往的热,仿佛要把你的五脏六腑烤干。 当然,跟气温一样火热的,还有当下的人工智能。 在办公室见到邓志东教授,也算是踩着点了。因为他刚刚从一个大会上回来,据说为了这次采访,教授特意要求把自己的发言顺序调到了第一个...... 邓教授是一个非常直爽的人。整个采访过程,热情周到、快言快语、妙语连珠,完全没有一丝科学家的“标准”形象。不过,他头上的光环却绝对是标准的科学范儿:中国自动化学会智能自动化专业委员会主任、中国自动化学会智能制造专业委员会副主任、中国人工智能产业创新联盟专家委主任委员......
正文: 人工智能:三起两落的传奇1956年,以麦卡锡、明斯基、香农和罗切斯特等为首的一批年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,由此标志着“人工智能”这门新兴学科的正式诞生。
“之后的1957年,美国认知心理学家Rosenblatt等首次提出了一种称之为‘感知机’(Perceptron)的人工神经网络模型。主要是基于1943年由美国心理学家麦卡洛克和数理逻辑学家皮特斯提出的MP人工神经元模型进行构建的前馈网络,旨在发展出一种模拟生物系统感知外界信息的简化模型。‘感知机’主要用于分类任务,由此开创了神经网络的第一次热潮。 “不过当时的感知机是单层的,只有输出层没有隐含层。但单层的感知机,有一个先天性的致命缺陷:解决不了线性不可分的两类样本的分类问题。而要是加了隐层以后,却找不到相应的学习算法。”1969年明斯基等发表了书名为“感知机”的专著,指出了单层感知机的这一局限。 “当时大家都认为感知机没有什么前途。” 自此以后,由于明斯基在人工智能领域的权威性,人工智能遭遇了第一个低潮,这种低潮几乎贯穿了整个70年代。
“到了80年代,美国认知心理学家Rumelhart等提出了BP网络,为带隐层的多层感知机找到了一种有效的学习算法,即误差的反向传播算法,也就是我们现在在卷积神经网络中使用的监督学习算法。其实就是使用Sigmoid函数与双曲正切函数对经典的MP人工神经元模型进行了改进,但正是这个看似很小的一个突破,却解决了感知机不能进行学习的致命缺陷。 “再加上1982年美国物理学家Hopfiled提出的反馈神经网络,于是乎,整个80年代,人工智能又一次迎来了高潮,跟现在真的很像,大家又都一窝蜂的开始搞神经网络。 “此外,当时很多人都在想,如果把人的专家级经验通过规则的形式总结出来,建立大规模规则库,然后将规则作为知识进行推理,不就可以解决很多问题了吗?这样的前景简直太美好了!它可以挑选出正确的分子结构,模拟老中医看病(例如研发中医诊疗专家系统),可以模拟专家找石油、找天然气、找矿石......,总之就是无所不能,可以完全替代人类从事许多工作。典型的代表就是斯坦福大学的费根鲍姆教授,曾因知识工程的倡导和专家系统的实践,获得1994年度图灵奖。” 但问题是:首先,规则很难被总结和归纳,因为人的规则通常是“只可意会不可言传”。 “就说车辆驾驶吧,开了几十万公里的老司机,是不是可以用专家系统来模拟他?用计算机来替代他?显然不可能。 “人类的驾驶行为,输入主要是双眼看到的图像序列,输出主要有三个模拟量:方向盘转角、油门踏板开度和刹车踏板进程,这是一个利用训练和学习获得的非线性映射。人在开车行驶过程中看到路况之后,本能就有三个模拟量的自然反应,而这种自然反应是首先通过驾校的监督学习,然后利用试错式的自我强化学习构建的。要想把其中的规则总结出来,例如对什么样的路况输入,就应该有什么样的输出,说起来容易,实际很难总结出来。而设计出来的规则可能无法真实地反映实际的非线性映射。” 人或机器的学习方法包括监督学习、强化学习和无监督学习。对人来说,在学校里叫监督学习,进入社会就是强化学习,即通过不断的试错,成功了有奖励、失败了受惩罚,其结果就是每进行一个决策,都是为了使结局成功的概率最大化,由此积累决策或选择的社会经验。 “当时,机器推理所依赖的规则都是人为设计的,但是刚才我们也分析到了,其实规则是很难被总结和设计的。人类感知智能中的‘规则’都是通过学习构建和精进的,不是人为设计的。因此这个阶段的人工智能,靠设计而非学习获得规则,前提就错了。” 其次,当时的人工智能并没有解决好数据层到语义层的所谓语义鸿沟问题。 比如我们利用动物的属性定义根据一系列条件去推断或识别大象。 “你看,教科书里大象是有定义的,可以用描述性的方法来表示。我们可以通过外形、体重、象腿、象牙、象鼻等特征描述,用推理的方法就知道这是一头大象,而不是别的东西。因为人是有这样的推理能力的,知道象腿是什么、象鼻是什么......,这种视觉感知或模式识别能力,对人而言,轻而易举,但对机器而言,如何进行这种‘部件级别’的分割、识别与理解,这在当时几乎是不可能的,实际也被人为地忽略。 “这样的事情,实际上机器做不了,它无法感知。它甚至都不知道你说的象牙是什么、象鼻是什么,又怎么可能知道这个是大象呢? “它没有识别能力,符号主义的基于规则的知识工程悬浮在‘空中’,这是走不下去的。感知问题没解决,再加上规则本身是人工设计且无学习能力,这是两个致命缺陷。” 当时全世界都对人工智能的发展抱以极高的憧憬,认为它可以在很多方面取代人类,也出现了许多疯狂的计划。例如当时经济繁荣的日本甚至搞了一个雄心勃勃的智能计算机国家计划,即所谓的第五代计算机计划,立志要研究出世界上最先进的模糊推理计算机,突破“冯·诺依曼瓶颈”,确立信息领域的“全球领导地位”。该计划虽历时10年,总耗资8亿多美元,但最终还是以失败而告终。 第二次人工智能热潮持续10余年,只是BP网络和Hopfield网络能力有限,利用规则作为知识进行的推理,却并没有感知智能的支撑,最终成为空中楼阁。因此,到2000年左右,人工智能又进入了一个寒冬。理想和现实的巨大差异,让人们认识到,当时的人工智能其实做不了多少事情的。
“人工智能的第三次高潮,发端于2006年。 “深度学习的概念由加拿大多伦多大学的Hinton教授等人于2006年提出,主要包括深度卷积神经网络、深度信念网络和深度自动编码器。尤其是在2012年,Hinton教授与他的两位博士生在参加ImageNet比赛时,把深度卷积神经网络与大数据、GPU结合了起来。我觉得这是一种历史的巧合,但最主要的是时代的进步。我们有了移动互联网,有了云平台,每天都涌现出海量的大数据。同时也得益于摩尔定律的长期持续作用,尤其是视频游戏的超常发展,推动了GPU的快速进步。这三者的结合,似乎产生了一种化学反应。 “从2010年开始,每年都会举办一场全球范围内的机器视觉识别比赛,也就是上面所说的ImageNet比赛。ImageNet 2012分类数据集包括了1,000个物体类别,128万张训练图片,5万张验证图片,10万张测试图片,每张图片上的物体都做了类别标签。之后用128万图片去训练机器,结束以后让它去识别没有参加过训练的10万张测试图片,看它是否还可以识别出来。 “结果,机器不仅辨认出来了,而且比原来的传统计算机视觉方法准确率提高了10.9%!这么一个显著的性能提升和惊人的识别效果,一下子引起了产业界的极大关注。” 在前两次人工智能热潮中,基本上是学术界在玩,而从2013年开始,跨国科技巨头纷纷开始高强度的介入,产业界逐渐成为全球人工智能的研究重心,主导并加速了人工智能技术的商业化落地。例如谷歌提出“人工智能优先”,借以重塑企业,而百度也宣称自己已经是一家人工智能企业了,等等。 “目前,人工智能在各方面所取得的惊人效果,都是前所未有的。仅以人脸识别为例,现在的人脸识别准确率已经达到了99.82%,在LFW数据集上超过了人类水平不少,这在以前是难以想象的。 “始自2012年的这次人工智能新高潮,是一个实实在在的进步,最具代表性的成果就是深度卷积神经网络和深度强化学习等两个方面。” 强化学习,也称再励学习或增强学习。1995年,IBM的Tesauro利用强化学习, 通过150万局的自弈击败了西洋陆战棋的人类冠军,尽管这是一个非常简单的棋类。现在谷歌的DeepMind开发的阿尔法狗,通过将强化学习和深度卷积神经网络有机结合起来,已达到了一个超人类的水平。 这样的话,它的商业价值就体现出来了,相信随着越来越多类似技术的发展,AI的商业化之路也会越走越落地。 “包括深度卷积神经网络和深度强化学习在内的弱人工智能技术,以及它们面向特定细分领域的产业应用,在大数据和大计算的支撑下都是可预期的,起码在未来5-10年之内都会成为人工智能产品研发与产业发展的热点,必将深刻地改变人们的生产生活方式。”
“但是它们也有自己的缺陷,尤其是深度卷积神经网络。我们为什么把现在的人工智能阶段称之为弱人工智能呢?因为它只能解决一个点的问题,或者只能在一个垂直细分领域应用,才能获得人类水平。 “因为它需要大数据,只有在一个点上积累足够多的带标签的完备大数据,才能有针对性地获得成功。就像阿尔法狗一样,目前只能下围棋,不能下国际象棋或中国象棋,也不会说话互动(语音识别与合成),也不会谈心(情感交流)。目前人工智能的最大缺陷之一就是能力单一,不能进行多任务的学习。 事实上,利用深度强化学习的阿尔法狗是在进行最优博弈类决策。而决策属于认知智能,而且它还不依赖于完备的大数据。 “现在的弱人工智能甚至还不能用同一个模型做两件事情,而要想让它具有多任务的学习能力,即把一个垂直的细分领域变宽,这就是所谓的通用人工智能问题。就像阿尔法狗,如果让它不仅会下围棋,还会下象棋,甚至是其他的所有棋类,还会打扑克牌、打游戏,另外还会语音识别、行为识别、表情识别和情感分析等等,什么都可以干,那它就真的很厉害了。 如果上述能力都具备的话,也就进入了更高一级的通用人工智能阶段。它的最鲜明特征就是,利用同一个模型可以实现多任务的学习。 “当通用人工智能来到之后,也就是说打游戏、情感分析、股票预测等所有人类的技能都学会了;进一步地,人类的全方位能力通用人工智能都具有了,那我们就认为,奇点到来了,也就是我们进入到了所谓的强人工智能阶段。 “进入强人工智能阶段之后,机器的智能将会呈指数增长,'智商'远超人类,这就到了所谓超人工智能阶段。此时人类或会面临两个迥异的结局,即要么永生,要么灭绝。” 人们有理由担心,以爱因斯坦146的智商才能提出广义相对论和狭义相对论,而等到了超人工智能阶段,假如机器的智商达到2000以上的话,这些岂不全变成小儿科了? 其实,阿尔法狗在下围棋击败李世石之前,DeepMind曾让它通过深度强化学习打视频游戏,其中49种视频游戏中有29种,经过训练学习后DQN的水平达到或超过了人类职业玩家的水平,甚至有一种游戏,DQN的水平是人类的2000多倍。但这并不是特别可怕,因为它只是弱人工智能,只是在这种游戏上超过人类很多。 “现在看起来,说对人工智能的担忧、恐怖或对人类的威胁还为时尚早。原因是我们目前甚至连通用人工智能这个阶段都还没达到,只有等到我们跨越弱人工智能阶段之后,那时再来探讨这个问题吧。” 任何AI技术,只要达到或超过人的水平它就具备商业价值
既然是关于人工智能的采访,我们也不可避免地提到了当下很多大火的技术和热点事件。其中,无人超市这个当红事件肯定不可错过。 “无人超市里一个很重要的技术就是计算机视觉识别技术与语音识别技术,从计算能力上来讲,是不存在问题的,主要还是算法选择上的问题。它现在采用的是身份认证,认证你的身份之后,你买了什么商品,都给你记录下来,然后进行移动支付。而移动支付是没有问题的,早就商业落地了。 “最核心的身份认证,目前最可靠的是多模态的生物特征识别。不光是人脸识别,还有其他特征比如指纹、虹膜、行为、掌脉、声纹等联合起来。同时进行身份绑定与跟踪,包括从进店到离店的整个过程。 “总体来看,支撑无人超市的关键技术(认证、识别、跟踪、RFID与支付等)是没有大问题的,问题只是在于开店方的资源整合能力和商业模式问题。” 中国人工智能的商业落地速度很快,国外刚有的(例如亚马逊的无人零售便宜店Amazon Go),我们很快就能实现商业化落地,而且应用场景和市场规模都会做得很大。这一方面得益于政府对“双创”的大力支持,另一方面也反映了人工智能应用落地的加速发展。 “不过,中国发展人工智能的短板也很明显。一个是原创能力不够,更多是在进行模仿与跟踪,涉及前沿探索、基础模型、关键技术甚至是商业模式等大多来自国外,特别是美国、加拿大;另一个是巨头型的领军企业较少,较缺乏前瞻性布局、定力和大手笔动作。”
深度卷积神经网络和深度强化学习,就特定应用场景而言,在完备大数据和超强计算能力的支撑下,这两种算法都已经是人类水平了,它们在弱人工智能产品开发和产业化发展方面,无疑具有极大的商业价值。其中计算机视觉、语音识别、自然语言处理、自动驾驶、大数据分析等至少这5个垂直应用领域,都可以进行细分再细分,并在这些细分领域获得人类水平的商业落地实践。 人工智能产品真正要实现商业落地的话,是需要付出极大代价的。主要体现在如何选择特定的应用场景以及如何进行大数据的采集、分析与处理上面。大数据的清洗和标签是需要花费大精力和大价钱的,尤其是对很多细分领域,例如金融科技和人工智能医疗,那是必须要有该领域或行业顶级专家水平的大数据处理,人工智能要想超过人类专家,那就必须先要有人类专家水平的完备大数据,也就是必须站在巨人的肩膀上。 就像金庸武侠小说里的大侠一样,要想成为绝世武功高手,不仅须要有顶尖大师手把手的“监督训练”,而且还要有之后的自修苦练或左右互博等等“强化学习”,最后才能集大成而纵横江湖。 人类基于“特征提取+推理”的小样本、小数据学习人类的科技发展史反复告诉我们,并不是你有多大雄心、投入多少人力物力,就一定会取得多大的技术突破和成功,有时候其实只是一种历史的偶然和巧合。当然这种偶然也是建立在大量准备基础之上的必然。 这就是我们常说的,必然中的偶然、偶然中的必然。
“我个人认为,最主要的还是在算法上面的创新性突破,例如特征提取+推理的小数据学习算法。 “深度卷积神经网络,严重依赖于大数据(必须是完备的大数据,包括极端与紧急情况下的大数据,否则就不能达到人类水平的泛化能力)。而人类则是可以进行推理的,只需要从小数据、小样本中学习,然后用特征+推理的方法就可以进行可靠的判别,也就是人类具有举一反三的能力。 “比如说辨别飞机。人工智能要识别出飞机,就必须把全世界所有的飞机照片,各种型号、各种位姿、各种光照、各种背景、各种遮挡等各种情况下的飞机图片全部给它进行监督训练,才能依靠分级分层特征的自动提取精确地识别出飞机来。但问题是,仅仅是搜集全世界全部飞机图片这一项,就几乎是一件根本不可能完成的任务。 “但是对人类来说,我们只需要预先看少量的照片或实物,就可以很容易地推断出其他飞机,并不需要太多太大的数据。这就是人类独有的能力,即基于特征提取+推理的小样本、小数据的学习能力。”
“要解决特征提取和推理相结合的问题,首先需要明确的是,规则和推理必须是通过学习得到的,同时是建立在已有感知智能突破的基础之上的,我们不能再走传统知识工程的老路了。从隐含特征的学习,到隐含规则的学习,我们需要这么一个特征提取+推理的创新性算法,以便针对小数据学习也能获得强大的泛化能力。 “首先,现在的深度卷积神经网络,它只能够做分割与识别,如果有垂直细分领域的完备大数据的话,它甚至可以达到或超越人类的水平。但是它却没有语义理解的能力,它只是把对象看成是一个向量。 “比如我们看到一个杯子,我们能知道它就是杯子,也能理解它的内涵和外延,如这个杯子和其他杯子有什么区别,与其他物体又有什么不同等等。但是深度卷积神经网络目前无法实现语义的理解,它仅仅是把杯子看成是一个向量或一个符号,所以它没有太大的感知可靠性。 “同样,为什么现在的语音识别还做不到人类的水平?就是因为深度卷积神经网络还没有语义理解的能力,它只能看清、听清,而不能看懂、听懂。” 其次,虽然从理论上讲,只要有完备的大数据,弱人工智能在特定的应用场景就有可能达到甚至超过人类的水平,但要取得完备的大数据,对大多数开放的应用场景,本身就是几乎不可能完成的任务。这也大大制约了大数据人工智能的应用和相关行业的发展。另外,拿到大数据之后,还要对它进行清洗、脱敏和做标签,这同时也是一项巨大的工程,如需要顶级行业专家的高度参与。 很多特定行业的大数据,比如金融大数据、医疗大数据,它的数据来源与处理还必须是专家级别的,并不是随便一个普通的人就可以给出。这本身是一个需要极大投入的事情。 “第三,深度卷积神经网络是一个全局逼近网络。也就是说,当输入任何一个样本时,它的所有连接权都会通过反向传播发生改变。换句话说,网络任何一个连接权发生变化,都会造成模型的输出发生变化。实际上这个是不对的,用一句形象的话来比喻就是:结识新朋友,就忘记了老朋友。 “而我们人类就不是这样的,人类神经元的突触变化是局部的,不会因为感知一个新的样本输入,而改变对一个事物或目标的原有感觉。在这一点上,人类做到了结识新朋友,不忘老朋友。” 其实,除以上说的三点之外,深度卷积神经网络还有其他问题,比如说它是黑箱式的。不管是连接权也好,还是网络结构也好、超参数也好,都是没有多大物理意义的,是不可解释的。
代码开源,反映出AI之下核心商业思路和模式的全新变革“在人工智能的一些基础算法上,很多企业都已经开源开放,并借以形成了自己的研发与产业生态。 “像谷歌的TensorFlow、Facebook的 Torch、微软的CNTK、加州伯克利的Caffe、亚马逊的MXNet、百度的 PaddlePaddle等,很多深度学习的代码框架都已经免费向开发者开放。从这个角度来讲的话,人工智能产品开发的技术门槛反而是降低了。很多底层基础性代码不用你编了,你只需要在这个开源代码框架基础之上,调整相应的网络结构和超参数就行了。 “初创企业不宜去做PR性质的单一基础性工作,例如单纯的算法刷分等,要专注及深耕细分领域大数据的应用价值,快速找到能够变现的商业模式!人工智能芯片创业公司也有类似的情况,应避免与芯片巨头的正面交锋。 “大公司软硬件资源开源开放,虽然牺牲了一部分利益,但是他拿到了你的大数据。他得到了你对他代码的优化修改或用户的反馈信息等,而这些对于产品的迭代非常重要,这是花钱都买不到的。这些大数据资源无疑将帮助他们缩短产品的成熟期,从而实现产品性能的快速迭代。” 从以前藏着掖着的商业机密、知识产权,到现在的开源开放,虽然对创业公司而言未必是好事一桩,但这也反映出了在人工智能的加速发展中,核心商业思路和模式的全新变革。 |
|