【原】知识赋能AI——张钹院士担任智谱公司首席顾问

学术头条 2020-11-27

展开全文

2019年12月2日下午，中国科学院院士、清华大学教授张钹受聘为北京智谱华章科技有限公司首席顾问，并担任战略规划院名誉院长。受聘仪式同时邀请了北京智源人工智能研究院常务副院长曹岗等人参加。

唐杰教授作为首席科学家代表公司致欢迎辞。他表示，邀请张钹院士担任智谱华章首席顾问是一件酝酿已久的事，这不仅是智谱公司总体战略发展的需要，也是清华人工智能研究院知识智能中心的里程碑事件，同时也希望公司成为国家人工智能发展的助推剂。

唐杰教授为张钹院士颁发聘书

张钹院士长期从事人工智能的理论、技术和应用研究，是我国人工智能领域的先驱，推动并见证了中国人工智能从白手起家到如今的繁荣昌盛。两天前在中国人工智能学会的颁奖仪式上，张钹院士因在搜索、规划和问题求解等领域建立形式化理论和高效算法做出的卓越贡献，荣获2019年度吴文俊人工智能最高成就奖。

张钹院士

张钹院士也是清华大学人工智能研究院的创始人和现任院长。他与张铃教授合作创造性地把代数、概率等数学理论与认知理论相结合，提出了基于熵空间的多粒度问题求解理论，成为粒计算领域的开拓者之一，对人工智能的发展有着重要的意义。他指导和参加了人工神经网络理论及应用、知识工程、智能机器人、智能控制以及人机交互技术等应用技术研究，取得了一系列优秀应用成果。

北京智谱华章科技有限公司依托清华大学计算机系在知识图谱和智能计算方面的长期积累，是通过学校技术成果转化、在知识智能方向创立的第一家公司。公司底层能力包括：知识获取、推理与认知，公司的一个代表型产品是拥有完全自主知识产权的科技大数据检索平台AMiner（https://www.），该系统为政府、企业、科研机构提供基于科技大数据分析挖掘服务、项目评审人推荐、专家智库、人才引进以及技术趋势、技术对比等服务。

在本次的聘任仪式上，智谱华章创始人、清华大学唐杰教授、李涓子教授和许斌副教授以及联合创始人、董事长刘德兵博士和CEO王绍兰等出席并致欢迎辞。

集体合影

随后，张钹院士做了“知识在人工智能发展中的重要性”的讲话。在人工智能未来发展方面，张院士认为知识是人工智能最基础也是最重要的一个资源。他认为一直以来人工智能做的还不够好主要存在两个原因，一是我们还没有找到足够精度的自动知识获取办法；二是知识表达和知识推理方法还缺乏重要进展。只有先解决以上两个问题，人工智能才能取得突破性进展。在实践过程中，计算机处理数据的能力已经远远超过人类（这也是人们常说的计算智能），但处理知识的能力却远远弱于人类（感知智能和认知智能），而如何解决后一问题对于人工智能的发展非常关键。

张钹院士还指出，知识是智慧的基石与源泉。目前全世界的目光，特别是中国都集中在数据驱动方面，但在知识推理领域几乎无人涉足。智谱华章团队源自清华大学人工智能研究院的知识智能中心，这也是清华人工智能研究院成立的第一个研究中心。中心在知识表示、获取、推理和认知等领域开展了很多基础研究，此次技术成果转化标志着中心部分核心技术的成熟，具有重要意义。当然作为公司，还有很长的路要走，希望智谱华章公司能够像在学校里面做研究一样专注把每件事做好，创造真正的价值。

集体合影

同时对于智谱华章的未来发展，张钹院士也提出了几点建议。他表示，公司要办好的前提首先是发展方向正确，要将知识驱动与模型驱动相结合，走第三代人工智能之路。其次，要找到真正的应用场景。知识就是力量，我们要做知识的生产者，把知识库、知识图谱转化成财富。另外，知识库的本质还是算法与知识，要运用好这两大资源，一是知识，二是研究自动获取知识的算法，这也是我们发展的机会。

追溯“知识智能”

1977 年图灵奖获得者 Mitchell Feigenbaum 在第五届国际人工智能会议上提出，知识工程是将知识融入计算机系统去解决只有领域专家才能解决的复杂问题的研究领域。基于符号的知识表示和推理为核心技术的各类专家系统在医疗诊断、地质勘探等领域的应用，将人工智能研究推向一个新高潮。进入新世纪，随着大数据时代的到来，大数据向大知识转化，通过知识体现数据的价值，成为人工智能发展的又一次机遇。大数据时代，数据呈现出的规模大、来源多、模态多、种类多、更新快、质量参差不齐等特点给知识工程研究提出了严峻挑战。

与此同时，以深度学习为代表的机器学习研究风起云涌，也为大数据知识工程研究提供了新的手段。以 Hinton 关于深层信念网络的革命性工作为代表，出现了卷积神经网络、循环神经网络和递归神经网络等一系列深度学习模型和方法。2015 年深度学习领域的三位主要领军人物LeCun、Bengio和Hinton在《自然》联名发表文章综述了深度学习在图像识别、语音识别等领域取得的成果，说明了从原始数据中学习多层抽象概念并对其进行语义组合的能力是深度学习取得成功的关键。

如果说知识表示研究提供了从数据到知识转化的有效机制，那么推理则是将计算设备所存储的知识投入现实应用的有效途径。早在20世纪60年代，人工智能领域的先驱们就考虑用计算方法解决逻辑和搜索等反映人类智能的任务，比如下棋、推理、路径规划等。Herbert Simon作为其中的领军人物提出了可以利用计算模型来进行人类心智能力研究的假设：智能来自于计算物理符号的排列组合。我们只要能很聪明地把这些物理符号排列组合，人类是可以从一系列的零和一的组合来得到智能的。基于这一假设，计算机已经可以推导人认为非常困难的一些逻辑和定理。尽管由于计算能力的限制和逻辑推理的强验证性，早期的智能推理研究陷入相当长时间的困境，但随着计算能力的提升和常识性知识库资源的逐渐积累，推理研究也成为未来人工智能研究的必然方向。

2015年Hirschberg和Manning在《科学》上的论文认为计算能力的提升、语言数据规模的快速增加、深度学习的发展以及对语言结构认识的进步是促进自然语言处理发展的四个关键因素，同时要做到真正理解语义内容，还需要在语言规律和推理模式上有更多新发现。

人物：智谱首席顾问张钹院士

张钹，清华大学计算机科学与技术系教授，中国科学院院士，俄罗斯自然科学院外籍院士。研究领域包括人工智能理论、神经网络理论、遗传算法、多媒体信息检索等。在人工智能理论方面，他将数学方法引入人工智能，提出了基于统计推断的启发式搜索，基于拓扑降维的运动规划，以及基于关系矩阵的时间规划等。他借鉴人类问题求解的特点，提出多粒度计算的概念，并建立了它的数学模型与理论基础--基于商空间的问题求解理论。张钹教授的研究成果促进了传统信息处理与人工智能的结合，即以数学为基础的方法与以认知为基础的方法的结合，对人工智能的发展有着重要的意义。在国际上，张钹教授是粒计算研究领域的开拓者之一。2005 年在清华大学，他主持召开了第一届 IEEE 粒计算国际学术会议，使粒计算正式成为一个新的研究领域。同时他还将人工智能理论应用于智能机器人等领域，取得一系列应用成果。

近年来，张钹教授及其团队在深度学习和大规模概率建模及其在视觉信息处理的应用方面进行过深入的研究，提出了正则化贝叶斯理论、非参数化贝叶斯、基于神经启发的深度学习模型和深度生成模型等工作，在ICML、NIPS、AAAI、CVPR、ICCV、ACM Multimedia、JMLR、IEEE TPAMI、IEEE TIP、IEEE TMM、IEEE TCSVT等国际会议和期刊上发表了高质量论文数十篇。

张钹教授的研究成果分别获得 ICL 欧洲人工智能奖，国家自然科学三等奖以及 3 项省部级科技进步一等奖。2011 年德国汉堡大学授予他自然科学名誉博士。张钹教授是清华大学智能技术与系统国家重点实验室创建人之一，该实验室在全国国家重点实验室评估中，连续三次均被评为信息领域的优秀实验室。1987-1994 年他担任第一、二、三届“863”计划智能机器人主题专家组专家，对中国智能机器人高技术计划的实施做出了重要贡献。

技术：知识图谱与认知推理

智谱公司围绕大数据环境下基于感知的数据驱动和基于认知的知识驱动相结合的认知工程及知识服务的科学问题，重点研发深度学习和符号计算相结合的知识表示、获取、推理和知识服务理论和方法，实现大数据分析从基于底层特征的数据处理到基于显著语义的知识处理的跃迁，构建大数据知识工程和知识服务共性关键技术。

公司产品研发的核心思想是采取机器学习和逻辑推理相结合的策略，研究知识图谱与认知推理。基于Web海量数据，公司研发通过半自动化的机器学习方法构建超大规模认知图谱，并将其应用于科技大数据、在线商店等系统中。核心技术将围绕大数据环境下基于感知的数据驱动和基于认知的知识驱动相结合的知识工程及知识服务，研发深度学习和符号计算相结合的知识表示、获取、推理和知识服务方法，实现大数据分析从基于底层特征的数据处理到基于显著语义的知识处理的升级，构建大数据知识工程和知识服务共性关键技术。

在技术积累方面，智谱人在知识表示学习、信息抽取和网络挖掘以及知识发现和知识工程等相关领域的研究和技术创新水平已达到世界级水平，有些已经形成了国际范围的影响力。在基础技术方面，团队近年来提出了基于矩阵分解统一理论的网络表示学习算法；提出的最小风险的异构语义集成技术连续多年在语义集成国际评测OAEI中获得第一；在认知方面也提出认知图谱的概念；研发的研究者社会网络挖掘系统AMiner收集了全球1.36亿科研人员、超过3亿文献，吸引全球超过1000多万独立IP访问。成果获中国人工智能学会科技进步一等奖、北京市科学技术一等奖、电子学会自然科学二等奖等。

展望：知识赋能AI

知识驱动与数据驱动融合的人工智能方法，探索专家知识在深度学习为代表的数据驱动系统的应用方法；研究受认知启发的深度学习模型与方法，探索人脑的功能和结构对深度学习模型设计的应用方法；研究深度强化学习的理论与方法，探索复杂、动态和交互场景下的自我强化学习机制；研究如何将知识图谱的先验知识作为深度学习的输入或者优化目标的约束；研究知识在强化学习中的应用机制；启动世界常识库建设。

建立具有全球影响力的世界常识库以及人工智能评测体系：建设一个可支撑人工智能新发展的大型语义基础设施--世界常识库，并以其为基础，针对目前对智能技术的定义、发展水平等尚无明确的定义和测评指标的问题，着眼于人工智能的发展路径和现实需求，从人工智能的定义、测量和测试等方面，研究人工智能系统的基准评测数据库、评测方法和评测模型，建立具有全球影响力的人工智能评测体系，并组织世界范围内的开放域问答竞赛。

具体来说，在核心技术方面，专注于鲁棒、可解释的人工智能，结合认知科学，研发知识驱动与模型驱动相融合的思路，发展新一代的人工智能技术新框架。包括：

（1）知识驱动与模型驱动融合的智能技术与方法；

（2）面向未来人机协同的智能感知、推理、决策与方法；

（3）大规模世界常识库的建设方法与工程；

（4）智能评测技术与方法。