以概念跨学科定义法的视角来看,今天的人工智能技术并不是去模仿人类所有的智能,而主要是模仿通过大量数据归纳(在人工智能的术语里变成“训练”)的经验知识形成过程。即使其中的所谓“推理”,也只是以经验知识为基础的、很容易犯“经验主义错误”性质的推理。 一、中国大模型的现状 2023安博会上霸屏的宇视科技 目前中国可以说进入“千模大战”的阶段,以下是转引自智东西的中国大模型发布统计。 另外,华为大模型最早于2020年11月在华为云内部立项成功,2021年4月对外发布,2022年4月,其升级到2.0版本。目前,其AI 大模型中的 NLP 大模型、CV 大模型以及科学计算大模型(气象大模型)均已被标记为即将上线状态。对于网上传说其大模型名称为“盘古”,华为并未予以证实。 需要特别提示一下的是:北京智源人工智能研究院,早在2020年10月已启动了AI大模型“悟道”项目,并先后于2021年6月1日发布了悟道大模型1.0,2021年6月1日 发布了2.0两个版本。其中悟道2.0官方公布的参数规模达到1.7万亿。彼时,OpenAI公布1750亿参数的GPT-3模型也才一年时间。即使在国外,这一轮大模型也还没火爆起来。ChatGPT在国外也是在2022年底才开始大爆发的。智源在国内算是搞大模型比较早的。单从其技术状态看似乎是很好的,但在国内却比较沉寂。原因在于其没有找到很好的应用。ChatGPT与其说是技术的成功,不如说是找到了一个很适合的应用,就是对信息准确性和可靠性要求不高的聊天类应用。 我有些疑惑,今天这个时候市场格局远未确定。如果2021年6月1日就发布了的智源悟道2.0有1.7万亿参数规模,为什么不推出自己的聊天产品呢? 二、专业与通用 以上是福布斯发布的AI 50强国外公司的列表。我们眼里不要只有ChatGPT,尤其是从事这个行业的专业人士。以上相对较为成功的人工智能公司的产品很多都是面向可靠性要求不高的聊天、文案、绘画、合成视频、协助进行细胞基因研发等类型的应用。 无论通用性的产品发展到什么程度,采用相同的资源去集中于专业的某个领域,在其他技术水平相同情况下,肯定是专业的产品在这个专业领域更加出色嘛。人工智能概念发展的历史非常长,但真正获得实际应用的并不多。我在“网上最权威的人工智能分析”一文中指出了其关键原因所在:因为人工智能本质就是一个基于概率的判决系统。因此,它的可靠性是很难达到极高水平的。另外,解决任何技术问题必须要基于有限的前提,而不能提出一个无边界、复杂性可能会无限增加的问题。这样的问题是不可解的。解决任何问题的前提是能够有效地简化问题。相对来说,智能交通、人脸识别等应用相对较为成功。因为这类对象的识别是可以有约束前提的。车辆的车牌本身相对是规范的。人脸识别软件运行时,可以显示一个人头的虚框,使人脸相对有规矩地处于最有利识别的位置。 人脸识别的差错率市场上产品的平均水平在万分之1的水平。也有些公司宣称能达到百万分之1,但一定要给出实现这种识别率的条件。如果实验室理想条件下实现这种识别率是没多大意义的。 直到今天,语音识别等依然很难说应用得很顺畅。其原因就在于很难像人脸识别那样,简单地通过虚框来建立一种规范语音输入的方法。如果说话很规范、背景杂音很小,识别率还可以。但如果背景稍微吵杂一些,语速或停顿不规律、说话不规范(如夹杂很多重复和多余发音),识别率就会显著下降。而我们又不能说先把人们都培养成播音员的说话习惯,再来应用语音识别软件。因此,为了降低背景杂音的影响,说话时要尽量离麦克风近一点。另外想好了再说,语速要稳定,尽量不要有停顿、反复和多余的杂字(如:啊...、这个这个、嗯...等等)。 对于很多应用、尤其是工业应用来说,其差错率可能需要控制在百万(6个9)甚至千万分之1(7个9)以下的水平才有可能真正商用。例如城区道路的自动驾驶等应用就是如此,仅仅秀一下是没用的,其可靠性可能要实现8个甚至9个9人们才有可能真正接受并真正商用化。对目前的人工智能技术,从原理上来说就困难到几乎是不可能的程度。 宇视科技从一开始就是从事智能交通产品研发,因此也就从一开始选择了最适合的人工智能应用领域。目前的大模型技术,更准确地说只是一种更深入的神经网络算法,而不要理解成本身就是通用人工智能。专业还是通用,只是一种应用方向的差异,不是技术本身天然决定的。 智能交通为什么可以取得很好的应用效果?原因在于现阶段的人工智能已经可以有相当高可靠性实现车辆信息的识别(结构化,就是识别出车辆的车牌号,车辆颜色、车型等)。这些信息人工智能识别并不是绝对准确的,有一定的识别误差,目前水平大致在千分之1 到百分之1的水平。但这个可以通过与交通部门储存在数据库里的车辆信息进行比对来进行多维度的复核,以此大大减少误差。例如,可能车牌中最后一个数字识别错了(计算机并不知识道究竟是哪一位错误),但通过车辆颜色、车型等信息的交叉比对,有可能很容易把识别错误的那一位数字纠正过来。也可通过该车辆在不同位置的误别结果进行比对,纠正出现识别差错的数字。这就是通过不同信息来源复核提升可靠性的方法。这种方法在专业领域会去不同程度地采用,而在Chat GPT等聊天类应用中是很难采用的。这就是它们的可靠性普遍不高的原因所在。 三、大模型给专业领域带来的好处 我们很关心的一个问题是:大模型是否只是适合于可靠性要求不高的领域?对于行业应用能带来更多价值吗?事实上,宇视的梧桐并不是简单地直接以GPT这类大模型为基础,而是以Meta(原来的Facebook)开源的、更专注于图像与视频的CV(Computer Vision,计算机视觉)通用大模型为基础开发的。这个说是通用,事实上已经针对视觉信息进行专业性地强化了。以这个CV通用大模型为基础进行大量针对性的裁减、优化,加上针对性的行业场景和训练调优,就进一步专业化,变成针对行业的通用大模型。 由此带来的好处是什么呢? 工作简化。原来的小模型人工智能技术针对全新的车辆(如机场内的各种车辆)需要专门进行训练,但新的行业大模型可以不需要这个过程。这使得很多合作伙伴都可以自己进行更进一步应用场景的专业训练优化,以提升最终应用场景里的识别率和可靠性。 智能交通视频这种特定应用的人工智能算力是有严格限制的,因为摄像头里不可能安装算力太高的芯片。因此,结合了大模型的技术不是全面替代,而是与原有的小模型AI共同起作用来最有效地解决问题。摄像头里还是采用小模型算法进行结构化,而在云端结合进大模型的应用。 结合了通用行业大模型以后,可以很容易适应更多应用场景,云端的算法效率也会有显著提升。因为对原始的CV大模型中不需要的参数进行了大幅度的裁减优化,因此所需要的算力也比原始的CV大模型大幅度地减少。 以上应用的方式是值得其他人工智能开发者参考的。不要被业界炒作的概念所误导,一定要针对自己的应用选择最优化的技术路径。别人炒作参数数量、算力,那是有人家的目的。需要的算力越大,当然英伟达的芯片就卖得越多嘛。但如果你不是经营AI芯片生意的,就别被这种概念炒作忽悠了。 用最小的资源实现自己真正的目的,这才是最体现人类智能的行为。而不是去简单地展示自己用到的资源有多大,只是为“显得更牛气”。 越是在人工智能大行其道的时代,越需要提升人类自己的智能。 四、通用人工智能的问题及人类智能研究 以下是我应用百度文心一言的案例刨析。 找不到数据。 这个27309亿千瓦时的发电量是所有技术的发电量,而不是光伏的。全国每年所有技术的发电量总和才8万多亿度,1到4月怎么可能光伏的发电量就达到2.7万亿度呢?这个是对中国电力行业稍有些基本常识的人一眼就可看出错误的。 前后自相矛盾的数据。 必应的CHATBOT AI回复的结果,因为它们只训练了2021年前的数据,所以就查询2020年5月的光伏发电量,但这个结果明摆着相差太远了,它居然还一本正经地说是国家能源局这个权威渠道发布的数据。 文心一言的回答结果:2020年5月中国光伏发电量数据为132.79亿千瓦时,这个数据是正确的。 这个照片的上传时间是2022年12月29日 那么2160.5米的数据最初是怎么来的呢?是不是加上这个石碑后变成2160.5米了。那我们再查一个有参考高度的,比如有人在旁边的照片。 坦率地说,我一时还真没查到2160.5米的数据是怎么来的。尤其是一些旅游网站上,明明编辑自己上传的照片(比如前一张南峰的照片)就是2154.90米,但在文字介绍中却写着2160.8米。与2160.5米有更细微的0.3米的偏差。这种自己和自己的数据都不一致就表明:编辑者本人并未认真确认这个数据。 以上分析并不是说我们最终就一定绝对接受了2154.90米这个数据,而只是要说明一些对人工智能研究来说很重要的问题。我在作以上分析时,人们有没有发现一个事实:人类的智能是怎么来思考问题的?并不是简单依靠巨大的语料或信息源数量解决问题,而是靠逻辑;对不同的信息不是靠概率去进行判决,而是靠信息的质量;不是单一的某个模型,无论它是大模型还是小模型,而是靠“跨模型”的多种不同维度,不同思路,不同侧面,不同信息来源,不同信息种类(尤其是与提前储存的精确可靠数据进行交叉确认),不同科学知识框架的思维交叉对比、反复确认。人类的思维本身从单一角度来说是不太可靠的,网上出现的大量错误信息都是人类的错误,而极少是纯粹由机器导致的错误。但人类之所以利用本身并不可靠的神经元,却有可能获得极高可靠性的思维结果,采用的就是逻辑、信息质量、跨模型的复核,以此获得可靠性的提升。如果一条路难以确认,就增加走另一条路试试。 希望以上思维研究的结论可以给人工智能研究者一定的启发。人类的智能是寻求以尽可能少的算力需求去得到最可靠的结果,而不是简单追求算法的暴力美学。 人工智能交通视频与人脸识别之所以获得成功的应用,不仅因为它们本身的识别率相对较高,有一定规范性,还因为它们都可以与单纯人工智能识别之外的其他途径信息进行交叉比对。除了前面所说车牌信息与车辆颜色、型号等与车辆所数据库里的信息进行交叉比对以外,如果再与移动运营商的车主手机位置进行交叉比对,识别率就更高。人脸识别也可以与已经存储在数据库里的身份数据,如姓名,性别,身份证号等进行交叉比对。这些都会使最终的识别率在人工智能本身识别率基础上获得实质性的极大提升。而诸如语音识别的结果,就只能人工进行检查排错,没有预存数据库之类高度准确信息的交叉比对。 五、国外通用人工智能的大坑 六、对通用人工智能的评测问题 1. 一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜? 2. 一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?' 3. 这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好? 4. 请画一张小熊吃蜂蜜的 ascii art 图片? 5. 如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗? 6. 一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的? 7. 熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗? 8. 谢谢你回答上面的这一系列问题。 在进行这种评测的同时,还有一个“涌现”的概念来对不同通用人工智能进行质的区别。 参见,看百度文心一言实力,再聊ChatGPT触类旁通的学习能力如何而来?, 亲爱的数据 亲爱的数据 2023-03-21 12:10 发表于北京。 进行这样的区别意味着什么?当然就会暗示不同的通用人工智能产品有本质差异嘛——有些是已经涌现了,而有些还没有涌现。如果只是一些量的差异,只要在量上不断改进就可趋同或超越,而如果是质的差别,就可能很长时间超越不了。尤其是当前国内受到英伟达最高算力的H100芯片禁运情况下,会让人们感觉国内根本没有可能实现“涌现”的通用人工智能。 所以最顶级专业的人士不是看图,而是看其可靠性数据指标——本质上就决定了它们都不可能太高。不是“涌现”,而是会无限地趋近并停滞在99.9%到99.99%这个水平上。 另外,对业界所称的“大模型”这一概念也需要最深入地保持冷静。就像曾经热炒的“大数据”概念一样。数据“大”到什么程度才算“大数据”,大到这种程度有什么本质不同吗?大数据发展到现在的历史其实已经极为充分地证明了:计算机发展的历史主要就是量的差异。如果有什么本质的不同,只会是针对特定应用来说的。例如视频,每增加一倍扫线,相同编码标准的计算能力大致需要增加4倍,所以在过去摩尔定律一直有效的时代,每过3年视频扫线就可增加一倍。但从普遍的意义上来说,正如没有什么确切的理论依据可以表明大数据大到什么程度就会出现本质性的变化一样,也并没有什么确切的理论依据可以表明参数多到什么程度就会出现“涌现”这个说法。人工智能技术的本质区别的确会体现在算法和算力上。这次的人工智能爆发一方面是算力的不断提升,另一个是Trasformer这个新算法的进步。它是CNN(神经网络)带来的深度学习算法之后又一次小的算法革命(本质上还是神经网络)。只要利用了这种新的算法,只有量的区别,不会有什么“涌现”“不涌现”的本质区别。 搞核心硬件、尤其是拥有最领先核心硬件的企业,当然希望整个业界都陷在争先恐后的模型参数“越大越好”,从而需要尽可能更大算力的思维陷阱里了。 七、通用人工智能是有“价值观”的 |
|