两岁的路比对小区里的雌比熊很是着迷。为了能听到她的声音,他会长时间地后腿直立着、前脚扶着窗檐傻傻地站很久。后来,那主人把雌比熊送走了。他才接受事实,慢慢淡忘了。过了许久,有天遛好回家路上,碰巧碰到雌比熊的主人,路比仰头闻了下,似乎想起了什么,居然跟着那主人到了他家楼下,隔着门在那站了许久。我想,路比大概是回忆起他那触不到的爱情了吧。 为一时心软,换来了时时的照顾和遛遛的它。既养之,就爱之,我也顺便观察和思考它的发育和情感表现。走路,路比和我们一样,都是潜意识地直觉反应,不会去关注路面的细节。而作为人类驯化了数千年的动物,狗可能也是最能理解和分享人类情感的动物[1]。但狗的感情流露更加直接、毫不掩饰。两相比较,让我有些明白,人类的基本情感表达、快思维和非人智能体的区别并没有那么明显,很多方面甚至是相似的。那么,情感是什么呢?它有多重要呢? 一、情感 情感是人或智能体与机器最明显的区别之一。古文中将情感做了细分,认为人有七情六欲。七情的定义,儒家、佛教、医家略有不同。《礼记·礼运》中道:“何谓人情?喜、怒、哀、惧、爱、恶、欲,七者弗学而能。”而我们常说的七情指喜、怒、哀、乐、惧、爱、恶。六欲的记载最早见于《吕氏春秋.贵生》:“所谓全生者,六欲皆得其宜者。”后人将其对应到人的眼、耳、鼻、舌、身、意的生理需求或愿望,即见欲(视觉)、听欲(听觉)、香欲(嗅觉)、味欲(味觉)、触欲(触觉)、意欲。 不管是哪种情感,人类和非人智能体最基本的情感,都是源于直觉,源自这种快思维方式的表达。渴和饥饿时,新儿生会自然地通过大喊大叫大哭来表达;而动物的愤怒和害怕则是为了防御和保护[2]。这些是求生的本能,不需要事先学习任何复杂的数学运算和人情世故。甚至于爱,从其本原的意义来看,也是一种本能,是为了能更好的向后代传递基因而形成的、促进智能体相互做优化选择的本能。 随着人的成长,通过父母、家人、学校的教育和社会的融入,情感的表达逐渐从基本的本能和生存需求向更高层次发展,并糅合到生活的各个毛孔。人类学会了记载、传播情感,能把情感写进文字、唱入歌声、播到音乐中。人类也能通过这些来分享、体会他人的情感。人类还学会了控制情感,把情商(控制情感、情绪的能力)锤炼成成功的三要素之一,与智商、时商(管理时间的能力)相提并论。古人在情绪控制上也给出了不少善意的建议,如清代画家郑板桥的“难得糊涂”和北宋文学家范仲淹在《岳阳楼记》中的“不以物喜,不以物悲”。 但情感、情绪如何在大脑中表现的呢?文献上众说纷纭,马文明斯基在其书《情感机》中,认为这种看上去简单的情感表达可能是由复杂的多个小资源来组成的,不同的情绪由不同的小资源(resources)组成。他认为简单是表像,复杂是隐事实[2]。这有些像苹果手机的设计理念,简单的操作留给用户,而背后的复杂则留给工程师们。也许大脑经过漫长的演化后最终也以这一形式来表达了它的功能,包括情感、情绪。 那么,这种复杂是如何在大脑中形成其结构的呢?明斯基给了些线索,即结构是层次的,首先有直觉的情感,然后才有高层、抽象的情感[2]。如果我们将该线索和之前谈到过的由粗到细的结构、以及快思维和慢思维方式结合起来,再审视下情绪的控制方式,似乎能找到一些端倪。 虽然人类已经学会用社会规则来约束和控制自己,从而使得真实的情感不容易被表露出来,但有时会失控。比如家长看到小朋友作业做得慢,有些父母就很容易把原本象拳头一样收拢的情绪打开来、暴露出自己的暴躁脾气。从某种意义来看,这就是快思维接管慢思维、本能或直觉压倒自控能力的后果。 不仅从脾气控制上能看到情绪的变化,人类还有可能从肌肉的细微变化分析真实情感的表达。有研究曾发现,某个有自杀倾向的人在视频前一直表现得很开心。然而,心理学家通过回放视频,发现其中有两三帧该患者有极度痛苦的表情。心理学家将这种短暂易逝的表情称为微表情。因为1秒可以录制30帧,所以2-3帧持续时间的状态很难通过主动控制情绪,或慢思维控制来获得,而更可能是潜意识下真实情绪的表现。结果,有效识别微表情也就成为检测人的真实表情或情绪的可行策略之一 [3]。 反过来再看下,现有人工智能框架下的情感分析模型,似乎更关注预测能力,不管是用深度学习还是经典的机器学习方法。即使是分析自然语言中的情感,也很少考虑情感可能具有的结构性。只关注预测的弊端在于,我们实际上并没有真正理解情感。结果,基于这类模型获得的情感很难让人体会到真正的情感。举个例子,日本某机构曾经研制过一个可回答问题的服务机器人,然后将其放在幼儿园中。一开始,小朋友们都非常开心,愿意跟机器人一起玩,询问它各种问题。但过了几天后,服务机器人就被闲置在一边了。因为小朋友们很快就发现了,这只是一台机器,而不是能产生有互动性、可以分享情感的智能体。显然,在情感的生成和构造机理还没完全弄明白之前,我们现有技术能做出的机器人,还远不如宠物狗更能让人产生情感上的依赖和责任。 二、人与机器的回忆 除了以上所述情感,还有一种对人类和非人智能体至关重要的,那就是回忆。因为每天都在接触新事物,人类需要定期清理大脑中的硬盘,留出空间学习新知识。可是并非所有的内容都会被格式化,因为我们需要有东西回忆来维系情感。在多数情况下,人类会构建用于回忆的文档,保留每条信息中有意义的、关键的,去掉可忽略的细节。回忆的内容可以是一张人脸、一段场景,诸如此类。然而,回忆具体存在哪里,就我所知,仍不是很清楚,也许真是在记忆的最深处。 但它能帮我们回想起过去。比如有些人偶尔可能在梦中回想起那触不到的爱。有些人看到一个许久未曾谋面的人或听到某段很久以前曾听过的音乐时,会感觉很熟悉,有种“似曾相识燕归来”的感觉,然后会突然把人的各个细节或音乐回想起来。有的时候甚至会令人难以置信,走在路上,突然就哼起一段已经三十年未曾唱过的歌曲。可是,在大脑容量有限的情况下,人类智能体为什么要存储这种如果不想起、也许一辈子都用不着的东西呢? 再比较看看现有的人工智能技术是如何处理记忆的。机器常把要回忆的知识视为一个时序序列,早期常采用隐马尔可夫模型来模拟对时序信息的记忆。简单来说,就是模型中会有好几个与时间相关的状态,其中当前时刻的状态依赖于前一个或多个时刻的状态。也有采用在线学习的方法来形成记忆。而近年来的深度学习,针对时序数据的处理,主要采用RNN(循环神经网络)、LSTM(长短时记忆网络)和Conv-LSTM(卷积-长短时记忆网络)等。这些模型的目的都是为了能尽可能根据新的数据分布的变化,来有效地调整模型,来改进对新数据的预测能力。从统计上来看,即我们不太希望数据与数据内在的分布总是被假定成一致的,总是假定每个数据是独立从相同的内在分布中采样得到的,即独立同分布性假设。而是希望数据的采集更贴近实际情况,即数据分布会随时间而改变。因此,模型在建构过程中不可避免地会引入遗忘机制。 可是,现有机器遗忘内容的方法与人类及其他非人智能体的处理有本质区别。因为机器的“遗忘”是为了适应新数据的分布,而不会考虑保留的信息对回忆、情感的意义。 而人类保留信息的目标并非完全是为了适应新的数据分布,而是用这些片段来帮助自己回顾个人的人生、体会曾经的酸甜苦辣。这些都造成了人与机器的本质性区别,即机器缺乏对真实情感的需求。所以,机器遗忘机制在方法论上隐含的假设应该是:机器不需要回忆,他只需要按人类既定的指标要求,实现精准预测即可。 三、回忆错觉 人的记忆还有个很独特但也有趣的现象,即回忆错觉。虽然现在有很多多媒体如照片、视频可以帮助人类形成了连续性的回忆,但人对以往的记忆存在不连续性,且常发生在2-3岁以前。这与大脑在发育过程中,由粗到细的认知结构产生了较显著的变化有关,导致原有的记忆无法通过后来形成的认知模型还原或恢复。这是认知模型变化导致的回忆缺失。 另外,人在存储回忆信息时具有主观性,有时会不自觉地选择值得记忆的去记忆,而舍弃那些不愿意再想起的,因此,会不可避免地形成选择性回忆或主观回忆缺失。比如我因为初高中的成绩惨不忍睹,对那段时间能回忆起来的东西就很少,除了记得父母不太愿参加家长座谈会以外。 尽管有回忆,人的回忆也并非百分百可靠的,可能还会人为的给自己的回忆贴上莫须有的东西。最近网上有个贴子似乎能佐证这一点,就是乔羽填词、韦唯原唱、宋祖英唱红,1991年为第四届中国少数民族运动会创作的会歌《爱我中华 》。对多数人来说,歌词应该是这样的: 五十六个民族五十六支花 五十六族兄弟姐妹是一家 五十六种语言汇成一句话 爱我中华爱我中华爱我中华 嘿罗嘿罗嘿罗嘿罗嘿罗嘿罗 可是,歌词第一句实际是这样的:“五十六个星座五十六支花”。但是,几乎很少有人会记得是“星座”而不是“民族”,因为数字“五十六”的原因,人的记忆会非常自然地把它与“民族”挂钩,而非讨论了半天也没明白为什么是作者选择的“星座”。这也是回忆错觉的一种,称为曼德拉效应(英语:Mandela Effect),是指很多人都发觉对同一事物的记忆与事实有出入的现象。一种可能的解释是人在删除信息后,重建的时候更容易将记忆的与最紧密相关但不一定正确的内容联系,并还原完整的信息。 更有甚者,还有可能把自己的回忆强行建立在不真实的记忆上。正如哲学家尼采所说,“慌言说了一千遍也就成了真理”。莱昂纳多主演的烧脑电脑《禁闭岛》中就塑造了具有这种回忆的角色:精神分裂的莱蒂斯,为了逃避现实中的痛苦经历,在精神中塑造了另一个自己,并孕育了一个完整的故事和“回忆”。 图:《禁闭岛》剧照 图:左:美国前总统罗纳德·威尔逊·里根;右:“光纤之父”高锟 除了这些,还有一种令人揪心的、“回忆低级格式化”导致的回忆障碍,那就是Alzheimer症(阿尔茨海默病或老年痴呆症)。 它的特点是,人会一点一点把自己的回忆抹掉,如美国前总统里根后来记不得自己曾当过总统, “光纤之父”的高锟在2009年获得诺贝尔物理学奖时已经不记得自己在光纤的成就,还有更多患者会在患病后记不起自己的家人。据估计,全球有超过3500万人患有老年痴呆症,每7秒就新增一人患上此病,而中国则拥有世界上最多的老年痴呆症患者。有研究表明,这可能是基因长期演化形成的一种“自毁”机制。只是以前在正常的自然环境生存时,人类的寿命还活不到需要启动这种“自毁”机制,因此患病数量远少于现在。还有研究发现,在痴呆症患者的大脑里有“老年斑”现象(即纤维状类淀粉蛋白质斑块沉积,英文名Senile Plaque),并以此来推测老年痴呆症发生的风险。遗憾地是,到目前为止,人类也没完全明白它的机理,不少相关的研究仍是空白。 图: 左:正常神经元;右:大脑中的老年斑或纤维状类淀粉蛋白质斑块沉积(网图) 不管是否存在回忆错觉,生理的、心理的,回忆都是人类维系情感的重要组成部分,而情感又是人和非人智能体区别于机器的重要标志。 要设计一个真正逼近智能体的人工智能体,也许不应只依赖于大数据、GPU的算力,毕竟我们对智能体的了解还太浅太少。哪怕是一只从没学习过数学、两岁小比熊具备的情感,现有的服务机器人尽管考虑了各种复杂的数学模型,仍然还只能望及项背。这里面显然不纯粹是计算能力的问题,更关键的是对情感甚至智能形成的基本原理缺乏颠覆性的思路。 我不怀疑现有的人工智能模型可以以足够高的精度来预测智能体的情感状态,但我比较怀疑这些模型是否能真正明白什么是情感?什么是回忆?如果在建模时,缺乏从直觉情感到深层次情感的递进建模过程,缺乏形成智能体个体与众不同的多样性,那么还原出来的情感也只能是机器的机械表现。 也许,我们可以考虑重拾“观察”这个古朴的研究方法,去深入了解情感的发育,比如儿童的情感发育。考虑到人类儿童期过于漫长,也可以观察下最能理解人类情感、成熟又比较快的宏物狗的情感、常识发育。 到目前为止,本系列讨论了个体在视听觉、语言、认知、情感等方面存在的多种多样的错觉。但是,要促进智能体的相互发展,必须要组成群体、构成社会。那么,智能体形成的群体有没有错觉呢? 参考文献: 1、尤瓦尔·赫拉利. 人类简史. 中信出版社,2014. 2、Marvin Minsky. The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. Simon & Schuster, 2006. 3、徐峰,张军平. 人脸微表情识别综述. 自动化学报, vol. 43, no. 3, pp. 333-348, 2017. 张军平 2018年11月28日 文章来源:张军平 |
|