每个人都听说过人工智能,特别是机器学习领域的新进步。也听说过这些进步会带来怎样的乌托邦或世界末日预言。人们预言这些进步要么会带来不朽,要么会带来世界末日,关于这两种可能性,很多文章都做了描述。但是,即使是最复杂的人工智能也远远不能解决人类 4 岁孩子就能轻松完成的问题。虽然人工智能有一个很炫的名字,但它主要包含的技术是用于检测大型数据集里的统计模式的。而要了解人类学习,还需要多得多的技术。 我们怎么可能会对周围的世界了解这么多呢?即使当我们还是小孩子时,我们就已经知道很多东西了;4 岁的孩子已经知道植物、动物和机器,了解欲望、信仰和情感,甚至知道恐龙和宇宙飞船。 科学把我们对世界的认识扩展到无法想象的巨大以及无穷无尽的微小,扩展到宇宙的边缘和时间的开始。我们利用这些知识进行新的分类和预测,想象新的可能性,使新的事物出现。但是,我们每个人从世界上得到的都是撞击视网膜的光子流和扰动耳膜的空气。当我们仅有有限的证据时,我们如何才能如此了解这个世界?仅靠眼睛后面的几磅灰色黏液,我们如何做到这些? 到目前为止,最好的答案是,我们的大脑对到达感官的具体的、特别的、杂乱的数据进行计算,这些计算产生了对世界的精确表征。这些表征形式似乎是结构化的、抽象的和层次化的;它们包括对三维物体、语言背后的语法以及像“心智理论”这样的心理能力的感知,心智理论让我们能够理解其他人的想法。这些表征使我们能够做出大量预测,以人类特有的创造方式想象出许多新的可能性。 这种学习不是唯一的一种智能,但它对人类特别重要。这种智能是幼儿的专长。尽管孩子们不擅长计划和做出决策,但他们是宇宙中最好的学习者。将数据转化为理论的过程大部分发生在我们 5 岁之前。 自亚里士多德和柏拉图以来,有两种基本方法可以用来解决我们是如何获取知识的问题,这两种方法现在也仍然是机器学习的主要方法。亚里士多德的解决方法是自下而上:从感官开始,也就是从光子流和空气振动(或数字图像的像素、录音的声音样本)开始,然后看看你是否能从中提取模式。哲学家大卫·休谟和约翰·穆勒等经典联想论者,以及后来的行为心理学家如巴甫洛夫和斯金纳进一步发展了这种方法。该观点认为,表征的抽象性和层次结构是一种错觉,或者至少是一种附带现象。所有的工作都可以通过关联和模式检测来完成,尤其是在有足够的数据的情况下。 随着时间的推移,解决学习之谜的这两种方法,即自下而上的方法和柏拉图的自上而下的方法之间,出现了拉锯现象。自上而下的方法认为,也许我们能够从具体的数据中获得抽象知识,是因为我们已经了解很多,特别是因为拜进化所赐,我们已经有了一系列基本的抽象概念。像科学家一样,我们可以利用这些概念来形成关于世界的假设。然后,我们可以预测如果这些假设是正确的,数据应该是什么样子,而不是试图从原始数据中提取模式。与柏拉图一样,笛卡尔和乔姆斯基等“理性主义”哲学家和心理学家也采取这种方法。 下面是一个日常的例子,说明了这两种方法的区别:解决垃圾邮件泛滥。数据是由收件箱中的一长串未排序的邮件组成的。事实上,其中有一些邮件是有用的,有些则是垃圾邮件。如何使用数据来区分它们? 我们先使用自下而上的方法。你注意到垃圾邮件常常有一些特殊的地方,比如一长串的收信人,邮件来自尼日利亚,其中提到百万美元的奖品或伟哥等。问题是,非常有用的邮件也可能具有这些特性。(思庐哲学编辑)如果你看了足够多的垃圾邮件和非垃圾邮件,你可能会发现,垃圾邮件不仅有这些特点,而且这些特点往往以特定的方式连在一起(尼日利亚加上 100 万美元意味着麻烦)。事实上,可能存在一些细微的更高层次的关联,将垃圾邮件与有用的邮件区分开——比如,一种特殊的错误拼写模式和 IP 地址。如果你检测到这些模式,你就可以过滤掉垃圾邮件。 自下而上的机器学习技术就是这样做的。机器被输入数百万个例子,每个例子都有一些特征,每个都被标记为垃圾邮件或其他类别。计算机可以提取出区分两者的特征模式,哪怕只是很细微的差别。 那自上而下的方法又是怎样做的呢?我收到一封来自《临床生物学杂志》(Journal of Clinical Biology)编辑发来的电子邮件,里面说他们想发表我的一篇文章。没有尼日利亚,没有伟哥,没有百万美元;这封电子邮件没有垃圾邮件的任何特征。但是通过使用我已经知道的方法,再抽象地思考垃圾邮件的生产过程,我发现这封电子邮件很可疑。 1. 我知道垃圾邮件发送者试图利用人类的贪婪来从人们身上榨取金钱。 2. 我还知道,正规的“开放访问期刊”已经开始通过向作者收取费用而不是向订阅者收取费用来支付成本,而且我不从事任何有关临床人物学的工作。 结合以上考量,我就有了一个很好的新假设,可以推断出这封电子邮件来自何处。它是为了吸引学术界人士花钱在一本假杂志上“发表”一篇文章。这封邮件尽管看起来与其他垃圾邮件完全不同,但它们的生产过程都是可疑的。仅从一个例子中我就得出这个结论,我可以通过谷歌搜索那个“编辑”,进一步检验我的假设,而不仅仅是考虑电子邮件本身的真假问题。 用计算机术语来说,我从一个“生成模型”开始思考,这个模型包含了诸如贪婪和欺骗之类的抽象概念,描述了电子邮件欺诈的过程。生成模型让我识别出经典的尼日利亚垃圾电子邮件,也让我想象出许多不同类型的可能的垃圾邮件。当我收到这封杂志邮件时,我往回梳理:“这看起来就像是出自垃圾邮件生成过程的邮件。” 自下而上的深度学习人工智能给人们带来新的兴奋点,只是因为人工智能研究人员最近看到这两种学习方法强大而有效的一面,但就这些方法本身而言,其实并没有什么新的东西。20 世纪 80 年代,计算机科学家发明了一种巧妙的方法,可以让计算机检测到数据中的模式,这种方法就是连接主义,或称神经网络(“神经”过去是,现在仍然是隐喻性的)。这种方法在 90 年代陷入低谷,但最近谷歌的 DeepMind 等强大的深度学习方法又使其复兴。 例如,你可以给一个深度学习程序输入一堆网络图片,上面标记着“猫”,另一堆图片标记着“房子”。该程序可以检测区分这两组图像的模式,并使用这些信息正确标记新图像。一些被称为无监督学习的机器学习可以检测数据中完全没有标签的模式,它们只是寻找一组特性,科学家称之为因子分析。在深度学习机器中,这些过程在不同的层次上重复。有些程序甚至可以从像素或声音的原始数据中发现相关的特征;计算机可能首先检测与边和线相对应的原始图像中的模式,然后在与面相对应的模式中找到这些模式,等等。 另一个历史悠久的自下而上的技术是强化学习。20 世纪 50 年代,在约翰·华生的研究基础上,斯金纳设计出著名的步骤,让鸽子完成精心设计的行动,甚至通过给它们一个特定的奖惩表,还能让它们引导空射导弹到达目标。这项技术最基本的想法是,受到奖励的行为会不断重复,而被惩罚的行为则不会再出现,直到达到所期望的行为。即使在斯金纳的时代,这个反复重复的简单过程也能带来复杂的行为。计算机被设计成反复执行简单操作,这种操作的规模是人类无法想象的,最终计算系统可以用这种方式学习非常复杂的技能。 例如,谷歌 DeepMind 的研究人员将深度学习和强化学习两种方法相结合,教计算机玩雅达利电子游戏。计算机对游戏的工作原理一无所知。它先是胡乱地玩,然后得到信息,知道每个时刻屏幕上显示出什么和得分情况。深度学习有助于破解屏幕上的特征,强化学习使获得更高分数的系统得到奖励。计算机很擅长玩其中的几款游戏,但也有几款游戏它完全不行,而人类却能很容易掌握。 通过将深度学习和强化学习做类似组合,DeepMind 的阿尔法零获得了成功。阿尔法零是一个程序,在国际象棋和围棋中都击败了人类玩家,它只具备游戏规则的基本知识和一些计划能力。阿尔法零还有另一个有趣的特性:它的工作方式就是和自己玩数亿次游戏。当它这样工作时,它会删减导致失败的错误,重复并详细阐述带来胜利的策略。这类系统以及其他涉及“生成对抗网络”的技术系统,既能生成数据,也能生成观测数据。 当你有计算能力将这些技术应用于非常庞大的数据集或数百万电子邮件、图像或语音记录时,你就可以解决以前看起来非常困难的问题。这是计算机科学中令人激动的一个源泉。但是值得记住的是,这些问题,比如识别一个图像是只猫,或者一个口语单词是“siri”,对于一个蹒跚学步的人类小孩来说是微不足道的。计算机科学最有趣的一个发现是,对我们来说非常容易的问题,比如识别猫,对计算机来说却比下国际象棋或围棋要困难得多。要想分类对象,计算机需要数以百万计的例子,而我们只需要几个例子就可以分类。这些自下而上的系统可以概括出新的例子,它们可以非常准确地将新图像标记为“猫”。但它们的做法与人类的概括方式大相径庭。有些图像几乎与猫的图像完全相同,但我们根本不会认为它是猫。其他的虽然看起来像是随机模糊的,但我们却能认出它就是猫。 自上而下的贝叶斯模型自上而下的方法在早期人工智能研究中发挥了重要作用,在 21 世纪最初的 10 年,它以概率或贝叶斯生成模型的形式,再次发挥出重要作用。早期使用这种方法时面临两个问题。(思庐哲学编辑)首先,大多数的证据模式原则上可以用许多不同的假设来解释:我的杂志电子邮件可能是真的,只是看起来不太像。其次,生成模型使用的概念最初来自哪里?柏拉图和乔姆斯基说你生来就有这些概念。但是又如何解释我们是怎样学习最新的科学概念呢?如何解释连小孩子都知道恐龙和火箭船? 贝叶斯模型将生成模型和假设检验与概率论相结合,解决了这两个问题。贝叶斯模型可以让你在给定数据的情况下,计算出一个特定假设为真的可能性有多大。通过对已有的模型进行微小而系统的调整,并根据数据对其进行测试,我们可以从旧的模型中创建新的概念和模型。虽然有这些优势,但同时也出现了其他问题。贝叶斯技术可以帮助你从两个假设中选择出可能性更大的一个,但可能假设的数量非常巨大,没有一个系统能够有效地考虑到所有的假设。而且在最开始,你如何决定哪些假设值得测试? 纽约大学的布伦登·莱克(Brenden Lake)和同事们用这种自上而下的方法来解决另一个问题,这个问题对人类来说不算个问题,但对计算机来说却非常困难,那就是识别不熟悉的手写字符。看看日文卷轴上的一个字符。即使你以前从未见过,你也很可能能够看出它与另一本日本卷轴上的一个字符是相似还是不同。你可能还会画出来,甚至根据你看到的日本字来设计一个假的日本字—— 一个看起来与韩文或俄文字符截然不同的假日本字。 用自下而上的方法识别手写字符,就是给计算机输入每一个字符的上千个例子,让它找出明显的特征。但与此相反,莱克等人却给程序提供了一个关于如何书写字符的通用模型:一个笔画是向右还是向左;完成一个笔画后,开始另一个笔画;以此类推。当程序看到一个特定的字符,它就可以推断出这个字最有可能的笔画顺序,正如我根据垃圾邮件制造过程推断出我的电子邮件很可疑一样。然后,它可以判断出一个新字符是按照那个顺序还是按照另一个顺序写的,它自己还能创造出一组相似的笔画。与输入完全相同数据的深度学习程序相比,这个程序要好得多,它更细致地反映出人类的表现。 这两种机器学习方法优缺点互补。在自下而上的方法中,开始时程序不需要太多的知识,但是需要大量的数据,而且它归纳总结的方法有限。在自上向下的方法中,程序可以从几个示例中学习,进行更广泛、更多样化的归纳,但是开始时你需要在其中构建更多的内容。许多研究者目前正试图将这两种方法结合起来,使用深度学习来实现贝叶斯推理。 人工智能最近的成功在一定程度上是因为扩展了这些旧思想。但除了这个事实,还有更多原因:因为有了互联网,我们有了更多的数据;因为有了摩尔定律,我们有了更多的计算能力来应用于这些数据。此外,还有一个被忽略的事实是,我们所拥有的数据已经被人类分类、处理。发布到网络上的“猫”的图片是典型的猫图片,是人类已经认定为“好”的图片。谷歌翻译之所以能成功,是因为它利用了数以百万计的人工翻译,将它们推广到新的文本片段,而不是真正理解句子本身。 而人类小孩真正值得注意的却是,他们能把每种方法的最佳特性组合在一起,然后获得比这些方法都好的方法。我们也不知道他们是怎么做到的。在过去的 15 年里,发展主义者一直在探索儿童从数据中学习结构的方法。4岁的孩子可以通过只举一两个数据例子来学习,就像自上而下的系统一样,还能归纳出完全不同的概念。但是他们也可以从数据本身学习新概念和模型,就像自下而上的系统一样。 例如,在我们的实验室里,我们给孩子们一个“blicket 探测器”,这是一个新机器,他们从未见过,他们需要弄清楚这是什么。它是一个盒子,当你把特定的物体而不是其他物体放在上面时,它会发光并播放音乐。我们只给孩子们举了一两个机器工作原理的例子,告诉他们,两个红色的方块可以使机器运转,而绿黄的组合则不行。即使是 18 个月大的孩子也会立刻明白这个一般原理,即两个物体必须相同才能使机器运转,他们把这一原理推广到新的例子中:例如,他们选择两个形状相同的物体使机器工作。在其他的实验中,我们已经发现,孩子们甚至可以意识到,有一些隐藏的无形属性使机器运转,或者机器按照一些抽象的逻辑原理进行工作。 你也可以在孩子们的日常学习中发现这一点。幼儿快速地学习生物学、物理学和心理学的抽象直觉理论,这与成年科学家的学习方式非常相似,即使幼儿手中的数据相对更少。 无论是自下而上还是自上而下方法,最新的人工智能系统在机器学习方面都取得了显著成就,但这些成就发生在一个狭小且定义明确的假设和概念空间,如一组精确的游戏片段和动作,或一组预先确定的图像。与此相反,儿童和科学家有时会很激进地改变他们的概念,进行范式转换,而不是简单地调整他们已有的概念。 4 岁的孩子不仅能立即认出猫,能理解单词,还能创造性地、令人惊讶地得出远远超出他们经验的新推论。例如,我自己的孙子最近解释说,如果一个成年人想再次变成小孩,他应该尽量不吃任何健康的蔬菜,因为健康的蔬菜会使一个孩子长大成人。这种假设,这种成年人不会觉得好玩的可能假设,具有小孩子的特点。事实上,我和同事都系统地证明过,学龄前儿童比大孩子和成年人更善于提出不太可能的假设。对于孩子们怎么会有这种创造性学习和创新能力,我们几乎一无所知。 然而,看看孩子们的行为,这可能会给程序员提供一些有关计算机学习方向的有用提示。关于儿童学习,有两个特别显著的特点。第一点,孩子们是积极的学习者,他们不必像人工智能一样被动地吸收数据。正如科学家的实验表明的那样,本质上孩子们有学习动机,能通过无休止的玩耍和探索从他们周围的世界中获取信息。最近的研究表明,这种探索比表面上看起来的更系统,能更好地适应环境,更能寻找有说服力的证据来形成假设、选择理论。将好奇心构建到机器中并允许它们与世界积极互动,可能是一种更现实和更广泛的学习途径。 第二点,与现有的人工智能不同,儿童是社会和文化学习者。人类不是孤立地学习,而是利用过去几代人积累的智慧。最近的研究表明,即使是学龄前儿童也能通过模仿和聆听他人的话语来学习。但他们不只是被动地服从老师。相反,他们以一种非常微妙和敏感的方式从他人那里获取信息,对信息的来源和可信程度做出复杂的推断,并系统地将自己的经验与听到的内容结合起来。 “人工智能”和“机器学习”听起来很可怕。在某些方面它们确实很可怕。例如,我们利用这些系统来控制武器,对此我们真应该感到害怕。然而,自然的愚蠢比人工智能造成的破坏要大得多;我们人类需要比过去更加聪明,才能正确地管理新技术。但对于人工智能取代人类,会带来世界末日还是乌托邦的远景,我们目前并没有太多的依据。没有解决学习的基本矛盾之前,最好的人工智能也无法与普通的 4 岁小孩匹敌。 |
|
来自: aobaodingding > 《人工智能》