模式识别学科发展报告（3）丨模式识别应用技术重要研究进展

GTF_001 2020-10-14

展开全文

模式识别国家重点实验室

关注

引言

模式识别是人工智能领域的一个重要分支。人工智能通过计算使机器模拟人的智能行为，主要包括感知、推理、决策、动作、学习，而模式识别主要研究的就是感知行为。在人的五大感知行为（视觉、听觉、嗅觉、味觉、触觉）中，视觉、听觉和触觉是人工智能领域研究较多的方向。模式识别应用技术主要涉及的就是视觉和听觉，而触觉则主要与机器人结合。随着计算机和人工智能技术的发展，模式识别取得了许多引人瞩目的应用成就和不可忽视的科学进展，它使得计算机智能化水平大为提高、更加易于开发和普及，在社会经济发展和国家公共安全等领域中应用日益广泛。生物特征识别、多媒体信息分析、视听觉感知、智能医疗都是目前发展较快的模式识别应用领域。

模式识别最主要的应用技术是生物特征识别。生物特征识别是指通过计算机对人体的生理特征（面部、手部、声纹）或行为特征(步态、笔迹)等固有模式进行自动识别和分析，进而实现身份鉴定的技术。它是智能时代最受关注的安全认证技术，凭借人体特征的唯一性来标识身份，已经逐渐替代人们常使用的钥匙、磁卡和密码，在智能家居、智能机器人、互联网金融、军事装置等领域发挥重要作用。

多媒体信息分析是模式识别最广泛的应用方面之一。旨在解决多媒体数据的挖掘、理解、管理、操纵等问题，同时以高效的方式对不同模态的异构数据进行智能感知，以便服务于实际应用。作为新一代信息资源，多媒体数据除传统的文字信息外，还包含了表现力强、形象生动的图像和视频等媒体信息。相对于真实的多媒体数据，使用模式识别方法也可以合成的高质量和多样化的虚拟数据，合成及鉴伪虚假信息在经济、政治、安防等领域都具有重要应用价值。

医疗诊断和医学图像处理是模式识别的一个较新的应用领域。主要是将模式识别技术应用在医学影像的处理和理解方面，并结合临床数据加以综合分析，找到与特定疾病相关的影像学生物指标，从而辅助医生早期诊断，治疗和预后评估。主要涉及医学图像分割、图像配准、图像融合、计算机辅助诊断、三维重建与可视化等。

模式识别应用技术具体研究进展主要表现在如下几个方面：面部生物特征识别、手部生物特征识别、行为生物特征识别、声纹生物特征识别、文字与文本识别、复杂文档版面分析、多媒体数据分析、多模态情感计算、图像和视频合成、图像取证与安全、遥感图像分析、医学图像分析等。

1. 面部生物特征识别

人体多种模态的生物特征信息主要分布于面部（人脸、虹膜、眼周、眼纹）和手部（指纹、掌纹、手形、静脉）。相比手部生物特征，人体面部的人脸和虹膜等特征具有表观可见、信息丰富、采集非接触的独特优势，在移动终端、中远距离身份识别和智能视频监控应用场景具有不可替代的重要作用，因而得到了国际学术界、产业界乃至政府部门的高度关注。

人脸识别是计算机视觉的经典问题，主要研究聚焦在人脸检测、人脸对齐和人脸特征分析与比对、人脸活体检测、人脸表情识别等。人脸检测早期经典算法是Viola和Jones提出的Haar特征和Adaboost机器学习方法，近些年来RCNN、Fast RCNN、Faster RCNN、SSD、YOLO等深度神经网络的目标检测方法在人脸领域取得更好的检测精度。如何检测小人脸和部分脸是现在人脸检测的重点关注方向，例如中科院自动化所提出了RefineFace实现高精度、高效率的人脸检测。人脸对齐需要在图像中定位出人脸的眼角、鼻尖、嘴角等关键点，代表性的方法包括Active Shape Models、Constrained Local Models、Active Appearance Models、Explicit Shape Regression以及基于深度神经网络的回归方法等。中科院自动化所针对严重遮挡下人脸图像的关键点定位，提出一种基于数据及模型混合驱动的人脸关键点定位方法，目的在于充分利用数据驱动下深度网络的表达能力和模型驱动下点分布模型的推理能力。三维人脸关键点定位成为近期热点，中科院自动化所提出了基于语义体素表达和对抗先验学习的三维人脸形状估计方法。从特征表达的角度看，人脸识别的发展初期主要是基于面部关键位置形状和几何关系或者模板匹配的方式。90年代人脸识别发展迎来了第一个高潮期，最具代表性的是基于人脸的统计学习方法，衍生出来的几个经典算法有子空间学习算法和LBP等局部特征算法。2008年研究人员采用稀疏表达方法提升了人脸识别鲁棒性。基于深度神经网络的人脸识别方法已成为研究热点，代表性工作包括DeepFace、DeepID、FaceNet、VGGFace、SphereFace、ArcFace等，深度学习人脸识别算法在LFW数据库上达到了超越人眼的水平。为了提高深度学习计算效率，中科院自动化所借鉴视觉认知机理、引入Ordinal Measures到深度神经网络，提出了轻量级的Light CNN人脸特征模型。中科院自动化所基于生成对抗网络提出了一系列人脸图像合成方法，显著提升了人脸识别对姿态、分辨率、年龄、美妆、遮挡、表情等问题的鲁棒性。人脸活体检测成为人脸识别应用安全瓶颈问题，人脸视频真伪可以通过检测动态眨眼摇头或者提取rPPG信息通过皮肤细微亮度变化来检测心跳，但是这种需要用户配合的方式耗时长用户体验差，因此静默活体检测成为重要研究方向。传统静默防伪方法基于纹理分析、高频图像特征等，目前深度学习成为静默活体检测的重点，例如朴素二分类方法、分块卷积网络方法、Auxiliary Supervision方法、深度图回归方法、深度图融合rPPG回归方法等。如何解决各种条件下人脸活体检测方法的泛化能力还是一个难点问题。

虹膜识别方面，LG、Panasonic、IrisGuard、IrisKing 等公司设计了一系列近距离虹膜图像采集设备。为了提高虹膜成像的便捷性同时为了拓展虹膜识别的应用范围，越来越多的机构开始着手远距离虹膜图像获取的研究，美国AOptix公司的InSight系统可以实现3米远的虹膜清晰成像。中科院自动化所提出基于光机电和多相机协同的虹膜成像模型，在虹膜图像获取装置中嵌入目标检测、质量评价、超分辨率、人机交互、活体判别等算法，赋予机器智能化赢取虹膜成像便捷化。实现了虹膜成像从近距离（0.3米）到远距离（3米）、从单模态（单目虹膜）到多模态（高分辨人脸和双目虹膜）、从“人配合机器”到“机器主动适应人”的创新跨越，并研制成功4D光场虹膜成像设备，通过高分辨率光场相机、四维光场获取与数据处理、重对焦、深度估计、超分辨等核心算法的系统研究，实现了虹膜/人脸成像从小景深到大景深（6倍景深拓展）、从单用户到多用户、从2D到3D的重大技术跨越，建设的CASIA虹膜图像数据库在170个国家和地区的3万多个科研机构和企业推广应用。虹膜识别算法的两个主要步骤是虹膜区域分割和虹膜纹理特征分析。虹膜区域分割大致可以分为基于边界定位的方法和基于像素分类的方法。虹膜纹理特征分析包括特征表达和比对两部分。特征表达方法从复杂的纹理图像中提取出可用于身份识别的区分性信息，其中代表性的工作有基于Gabor 相位的方法、基于多通道纹理分析的方法、基于相关滤波器的方法、基于定序测量的方法等。传统的虹膜识别算法多采用人工设计逻辑规则和算法参数，导致算法泛化性能欠佳，不能满足大规模应用场景。数据驱动的机器学习方法从大量训练样本中自动学习最优参数，可以显著提高虹膜识别算法精度、鲁棒性和泛化性能。大规模虹膜识别应用带来了许多新的挑战，虹膜特征的快速检索、多源异质虹膜图像的鲁棒识别成为当前虹膜识别的研究难度和热点问题。中科院自动化所受启于人类视觉机理，提出使用定序测量滤波器描述虹膜局部纹理,并设计了多种特征选择方法确定滤波器最优参数；首次将深度学习应用于虹膜识别，提出了基于多尺度全卷积神经网络的虹膜分割方法和基于卷积神经网络的虹膜特征学习方法；探索了深度学习特征与定序测量特征的互补性关系；系统研究了基于层级视觉词典的虹膜图像分类方法，显著提升了虹膜特征检索、人种分类和活体检测精度。

从应用角度看，面部生物特征识别应用广泛，可应用于安防监控、自动门禁系统、身份证件的鉴别、银行ATM 取款机以及家庭安全等领域。具体来看主要有：1）公共安全：公安刑侦追逃、罪犯识别、边防安全检查；2）信息安全：计算机、移动终端和网络的登录、文件的加密和解密；3）政府职能：电子政务、户籍管理、社会福利和保险；4）商业企业：电子商务、电子货币和支付、考勤、市场营销；5）场所进出：军事机要部门、金融机构的门禁控制和进出管理等。

2. 手部生物特征识别

手部生物特征主要包括指纹、掌纹、手形以及手指、手掌和手背静脉，这些生物特征发展早期主要采取结构特征进行身份识别，例如指纹和掌纹中的细节点、静脉中的血管纹路、手形几何尺寸等，但是近些年来基于纹理表观深度学习的方法在手部生物特征识别领域得到快速发展。

指纹识别技术主要包括三方面内容，即指纹图像采集、指纹图像增强和指纹的特征提取及匹配。在电子计算机被发明后，基于光学的指纹采集设备替代了传统的油墨，极大提高了指纹的采集、识别以及存储效率。随后，基于电容式传感器的指纹采集装置出现，广泛应用于苹果手机等移动终端设备的用户身份认证系统中，主要包括按压式和刮擦式两种。除此以外，基于温度传感器、超声波和电磁波的指纹采集技术也都被提出，且各有所长。近些年，非接触式的3D指纹采集系统也被提出以改善用户体验与识别精度。指纹图像增强主要包括图像平滑（去燥与指纹纹路拼接）、图像二值化（前后景分离）和细化（指纹骨架获取）三部分。频域滤波、Gabor变换和匹配滤波器等传统图像处理方法可以有效地去除指纹图像中的噪声，检测、补全指纹纹路中的断点并进行细化。随着深度学习的发展，深度卷积网络凭借其强大的特征提取能力，在扭曲指纹图像校正等指纹图像增强的相关问题中得到广泛应用。指纹图像特征提取与匹配方法可以大体分为方向场特征法与特征点法两类。方向场描绘了指纹图像的纹脊和纹谷分布，是指纹图像匹配的重要依据。有很多方法被提出以减小噪声对于方向场计算的影响并且提高运算效率。特征点指的是指纹图像中常见的纹路模式，包括拱形、帐弓形、左环形、右环形、螺纹形等主要指纹纹型。特征点的区域分布特征和旋转不变性等特性也常被用来提高识别算法的鲁棒性。随着指纹识别技术在不同场景中得到应用，采集到的指纹图像质量参差不齐，有时甚至无法得到完整指纹，所以部分指纹图像识别问题是目前的一个研究热点。除此之外，为了保障用户的个人财产安全，指纹识别技术中的活体检测问题也是研究人员重点关注的问题。为了解决这个问题，一方面可以从硬件角度在指纹采集系统中加入额外传感器以检测手指的温度、颜色和血液流动情况等活体要素，另一方面可以从图像质量的角度对采集到的指纹数据进行评估，从而筛选出高质量的活体指纹。

掌纹是位于手指和腕部之间的手掌皮肤内表面的纹路模式，在分辨率较低的掌纹图像里比较显著的特征包括主线、皱纹线和纹理，在高分辨率的掌纹图像里我们还可以看到类似于指纹图像里的细节特征，例如脊线、细节点、三角点等。和其他生物识别方法相比，掌纹识别有很多独特的优势：信息容量高、唯一性好、适用人群广、硬件成本低、界面友好、采集方便、用户接受程度高、干净卫生。基于掌纹的身份认证首先是从刑侦领域得到应用，因为在犯罪现场30%的可用信息都是来自掌纹。但是司法公安领域的掌纹图像主要是由专家人工比对，并且分辨率要求比较高（一般在500dpi左右）。自动掌纹识别研究起步于上世纪末期，已有的掌纹识别方法根据特征表达方法可大致分为三类：1）基于结构特征的掌纹识别方法，早期的掌纹识别研究都是模仿指纹识别的特征提取和匹配方法，提取掌纹图像中的特征线或者特征点进行结构化的匹配。这种方法需要高分辨率的掌纹图像才能准确提取结构化特征，特征提取和匹配的速度较慢，对噪声敏感，但是可用于大规模掌纹图像库的检索或粗分类。2）基于表象分析的掌纹识别方法，这类方法将掌纹图像的灰度值直接当成特征向量，然后用子空间的方法来线性降维。例如基于PCA、LDA或者ICA的掌纹识别方法。这类方法可以快速识别低分辨率的掌纹图像，但是对可能存在的类内变化比较敏感，例如光照和对比度变化、校准误差、形变、变换采集设备等。并且需要在大规模测试集上训练得到最佳的投影基，推广能力差。3）基于纹理分析的掌纹识别方法，直接将低分辨率的掌纹图像看成是纹理，丰富的纹理分析算法资源就可以充分利用。例如傅立叶变换、纹理能量、Gabor相位、能量和相位的融合算法、皱纹线的方向特征等。这类方法大部分都是提取掌纹图像局部区域的光照不变特征，对噪声干扰的鲁棒性强，分类能力和计算效率都很理想，是比较适合于掌纹识别的图像表达方法。中科院自动化所将定序测量虹膜特征表达方法推广到掌纹识别，建立了掌纹图像特征表达的一般框架，统一了该领域识别性能最好的三种掌纹识别方法，并提出了新颖的十字架形微分滤波器来抽取掌纹图像中的定序测量特征，取得了比主流方法更快更准的识别效果。为了提高掌纹识别精度和活体检测能力，香港理工大学提出三维掌纹图像获取与识别方法。

手指、手掌、手背的静脉结构人各有异，通过近红外透射式或者反射式成像形成静脉纹路图像。2000年日本医学研究者Kono首次提出使用手指中的静脉血管进行身份识别，之后模式识别科研人员提出了多种特征表达模型：1）细节点特征，例如分叉点和端点，尺度不变特征变换；2）静脉纹路特征，例如平均曲率、最大曲率、线性跟踪方法；3）子空间降维，例如主成分分析、流形学习、线性判别分析；4）局部二值码，例如局部二值模式、局部差分模式、局部线性二值模式；5）深度神经网络提取纹理特征。由于安全性高，静脉识别在金融领域得到成功应用。

3. 行为生物特征识别

行为生物特征识别是通过个体后天形成的行为习惯如步态、笔迹、键盘敲击等进行身份识别。行为生物特征识别可用于持续性活体身份认证，例如金融、商业、政府、公安等应用领域。近些年也出现了一些新兴的行为生物特征模态，例如利用智能手机的划屏行为、网络社交媒体的统计行为特征进行身份识别。

在行为生物特征中，步态识别（gait recognition）是指通过分析人走路的姿态以识别身份的过程，它是唯一可远距离识别且无需测试者配合的行为生物特征。美国911 事件等恐怖事件以后，远距离身份识别研究在视觉监控等领域引起了浓厚兴趣。在银行、军事装置、机场等重要敏感场合，有效准确地识别人、快速检测威胁并且提供不同人员不同的进入权限级别非常重要。最早的步态用于身份识别的研究是上世纪90年代来自英国南安普顿大学的Mark Nixon教授团队。2000年，美国DARPA启动了HID（human identification at a distance）计划，旨在解决远距离虹膜、人脸和步态识别研究，麻省理工、佐治亚理工、南安普顿、马里兰、中佛等多家高校参与了该项目的研发工作。

为了发挥步态的远距离识别优势，需要同时解决行人分割和跨视角步态识别两大难题。早期的研究都是基于固定摄像机的假设下、使用计算机视觉中的背景建模与运动检测等技术来解决人体检测和分割问题，但是精度和效率一般。针对高精度快速人形分割这一困扰业界多年的难题，中科院自动化研究所自2013年起提出了一系列解决方法，其中代表性的创新方法是基于上下文的多尺度人形分割网络，通过采用多个尺度的图像作为输入，来训练卷积神经网络预测图像的中心点，能够有效克服不同背景、衣服各异、姿态变化、不同尺度等影响。

在过去的20多年里，一系列经典的步态识别算法相继提出用以解决步态识别问题，包括基于特征表达的方法，以及基于模型和相似度或度量学习的方法。在这些方法中，大多数研究是设计用于步态识别的特征表达。基于特征的步态识别方法通常从步态剪影中提取得到，通过处理一个剪影序列（通常为一个步态周期）可以生成特定的步态模板。常见的步态特征模板包括GEI（Gait Energy Image），GEnI（Gait Entropy Image）， GFI（Gait Flow Image）以及 CGI（Chrono Gait Image）等。

随着深度学习在计算机视觉领域的成功应用，许多数据驱动的方法逐渐被引入到步态识别之中，通常可以学习到更好的特征表达。DeepCNN提出采用一种基于深度卷积神经网络CNN的框架学习成对的GEI之间的相似度，从而实现跨视角步态识别，取得了当前最好的识别准确率，在CASIA-B步态数据集上实现了94%的跨视角识别准确率。近些年复旦大学尝试将步态剪影序列看做一个图像集（GaitSet）并从中直接学习步态表达，而不再使用步态能量图GEI，在多个公开的跨视角步态数据集上取得了当前最优的性能。这种方法的优势在于其可以充分利用CNN的强大学习能力，将整个步态序列的每一帧图像都作为训练样本。另外，该方法也避免了生成GEI方法通常中会损失部分信息的局限，可以通过遍历整个步态序列学习不同步态图像之间的差异。这种思路取得的性能证明了通过小片段序列学习步态特征的可行性。

在产业化推动方面，步态识别领域进展迅速。中科院自动化所率先建成了全球最大的户外步态数据库，采集了1014个行人的76万段步态序列，其数据量是此前最大数据库规模的100倍。2016年，由中科院自动化研究所孵化的第一家步态识别商业化公司——银河水滴科技公司成立。该公司拥有行业领先的步态识别技术以及超大型步态数据库，在“远距离步态识别系统研究与应用”方面曾获北京市科技技术二等奖，其研发的“水滴神鉴”人脸步态智能检索一体机可以通过步态识别技术迅速锁定目标人员，提高破案效率以及公共安全的智能化水平。2017年9月，步态识别技术亮相CCTV 1“机智过人”节目，获得CCTV人工智能年度盛典机智先锋团队称号，产生显著的社会效益和影响。2019年，水滴科技凭借远距离步态识别技术在世界人工智能大会上荣获最高奖（卓越人工智能引领者奖）。步态识别技术已经成功应用于智能家居、智能机器人、视觉监控等领域。

笔迹鉴别由于具有易采集性、非侵犯性和接受程度高的优点，在金融、司法、电子商务、智能终端有应用需求，上世纪70年代以来开展了大量研究。笔迹鉴别的对象是手写文档或签名（针对签名的笔迹鉴别又称为签名认证），数据采集形式可以是联机（用手写版或数码笔记录书写时的笔划轨迹）或者脱机（对写在纸上的笔迹扫描或拍照获得图像）。文档笔迹鉴别方法又分为文本无关方法或文本相关方法，前者对任意内容的文本提取书写风格特征，后者从指定内容（不同人书写的相同文本）提取特征。文本相关方法的精度更高但依赖于文本内容或需要字符分割选出特定字进行分析。签名认证一般是把一个手写签名与指定身份书写人的参考签名（身份注册时留下的签名样本）比较判断是否为同一人所写（为真实签名或伪造签名），伪造签名的判别是一个难点。文档笔迹鉴别和签名验证研究中提出了很多特征提取方法，如基于纹理分析、全局形状分析和局部形状分析的特征，字符识别中常用的特征（如轮廓或梯度方向直方图）也常用于笔迹鉴别。近年来，深度卷积神经网络（CNN）也越来越多地用于笔迹鉴别的特征提取。对签名验证，常用孪生卷积神经网络（Siamese CNN）对两幅签名图象同时提取特征并计算相似度，特征与相似度参数可端到端训练。跟传统方法相比，深度神经网络也明显提高了文档笔迹鉴别和签名认证的精度。

4. 声纹识别

声纹识别，又称说话人识别，是根据语音信号中能够表征说话人个性信息的声纹特征，利用计算机以及各种信息识别技术，自动地实现说话人身份识别的一种生物特征识别技术。声纹是一种行为特征，由于每个人先天的发声器官(如舌头、牙齿、口腔、声带、肺、鼻腔等)在尺寸和形态方面存在差异，再加之年龄、性格、语言习惯等各种后天因素的影响，可以说每个说话人的声纹是独一无二的，并可以在相对长的时间里保持相对稳定不变。

从发音文本的范畴，声纹识别可分为文本无关、文本相关和文本提示三类。文本相关的声纹识别的文本内容匹配性明显优于文本无关的声纹识别，所以一般来说其系统性能也会相对好很多。但是，文本相关对声纹预留和识别时的语音录制有着更为严格的限制，并且相对单一的识别文本更容易被窃取。相比于文本相关，文本无关的声纹识别使用起来更加方便灵活，具有更好的体验性和推广性。为此，综合二者的优点，文本提示型的声纹识别应运而生。对文本提示而言，系统从声纹的训练文本库中随机地抽取组合若干词汇，作为用户的发音提示。这样不仅降低了文本相关所存在的系统闯入风险，提高了系统的安全性，而且实现起来也相对简单。

在20世纪40年代，Bell实验室的L.G.Kersta等人借助肉眼观察语谱图发现不同人的发音在语谱图中具有差异性，提出通过观察语谱图实现说话人识别。根据语谱图上的共振峰纹路，首次提出了“声纹”的概念。1966年，随着计算机技术的不断进步，声纹识别逐步由单纯的人耳听讲，转向基于计算机的自动识别。早期的声纹识别主要采用有效的声学特征参数和模式匹配的方法，匹配往往通过特征矢量之间的距离测度来实现，累计距离为匹配结果。到20世纪70年代至80年代，动态时间规整、矢量量化和隐马尔科夫模型技术的出现极大地促进了语音识别性能的提升。2000年前后，声纹识别技术迎来第一个关键的发展节点，D. Reynolds等人提出的通过大量背景数据训练通用背景模型（Gaussian Mixture Model-Universal Background Model，GMM/UBM）的方法，对所有说话人的整体发音特性进行统一建模。进入21世纪后，在传统高斯混合模型-通用背景模型的方法上，P.Kenny、N. Dehak等人先后提出了联合因子分析技术（jiont factor analysis，JFA）和扰动属性干扰算法，使得声纹识别在复杂背景条件下也能取得较好的效果。由JFA建模思想得到启示，提出基于总体变化因子向量（identity vector，i-vector）的说话人建模方法，这也是该研究领域的经典技术之一。后来研究人员为了解决信道失配问题，在i-vector基础上引入有类内协方差归一化(Within-Class Covariance Normalization, WCCN)、概率线性鉴别分析(Probability Linear Discriminant Analysis, PLDA)等区分技术。2012年以来，基于深度网络的特征学习方法，利用复杂非线性结构赋予的特征提取能力，能自动对输入的语音信号进行特征分析，提取出更高层、更抽象的说话人声纹表征，如d-vector、x-vector等。相对于传统的 i-vector 生成过程，基于深度学习的说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的有效表示上。d-vector是基于深度神经网络(deep neural networks，DNN)框架下的说话人识别系统，通过训练说话人标签的DNN模型，提取测试说话人语音的瓶颈特征，对瓶颈特征进行累加求均值，得到语音的d-vector。第二个关键发展节点是D. Snyder等人提出x-vector方法，该模型突破GMM-UBM模型的结构上的缺陷，直接将说话人的标签作为时延神经网络（time delay neural networks，TDNN）的输出，并能比较好的充分利用更多的训练数据提升模型的识别效果。由于语音经过TDNN时延网络，可以从输出层得到关于输入语音帧的长时特征，因此x-vector在短时说话人识别中能够达到更高的准确率。2016年，Google的Heigold等人提出了端到端声纹识别系统，端到端的网络包含两部分：预先训练好的特征提取网络和用于决策打分的判决网络，输入为不同说话人的语音信号，输出即为说话人识别结果，之后如注意力机制、自适应方法等在端到端系统中的应用进一步提高了系统的性能。

声纹识别术在实际生活中有着广泛的应用，可以分为声纹确认、声纹辨认、声纹识别和声纹追踪，在军事、国防领域，有力保障了国家和公共安全；在金融领域上，通过动态声纹密码的方式进行客户端身份认证，可有效提高个人资金和交易支付的安全；在个性化语音交互中，有效提高了工作效率；除此之外，还在教育、娱乐、可穿戴设备等不同方面取得了不错的效果。

声纹识别的广泛应用与其技术的发展进步是息息相关的。在实际应用中，声纹识别还面临着以下挑战：鲁棒性挑战、防攻击挑战、超短语音挑战等。如何解决这些挑战是未来的发展方向。

5. 图像和视频合成

随着数字化时代的不断发展，人们的生活中充满了大量的数字化影像，比如日常拍摄的照片以及录制的视频，还有各类互联网娱乐应用的图像与视频内容。然而随着图像与视频合成技术的不断进步，曾经“眼见为实”的断言到如今也已失效，图像与视频合成技术就是能够按照需求生成对应的图像与视频的技术，比如根据描述生成一幅图像，根据肖像画生成一个人的照片等。对于图像和视频的合成，可以是对既有画面的编辑和修改，也可以是合成全新的完全不存在于现实的景象。对于具体的单幅图像合成和视频的合成也有技术实现上的区别，下面对其发展进行介绍。

在计算机视觉领域中，图像合成是一个重要研究方向。在深度学习技术兴起之前，机器学习技术主要聚焦于判别类问题，图像的合成主要通过叠加与融合图像等方式进行。而随着深度学习技术的迅速发展以及计算硬件性能的快速提升，生成式模型得到了更为广泛和深入的研究。变分自编码机（VAE）就是一类有效的方法，能够稳定的合成图像，但是其合成的图像一般较为模糊，缺少细节。而2014年Ian Goodfellow提出了Generative Adversarial Network（GAN），为图像与视频的合成带来了令人惊艳的技术，其合成的图像逼真自然且拥有锐利的细节，对后续图像与视频合成的研究产生了深远影响。自此之后，图像和视频合成领域产生了大量基于GAN的生成模型的改进方法，从不同角度改良其生成过程的不足。同时随着近年来计算技术的发展和计算资源的性能提升，不论是单帧图像的合成还是视频的合成，都达到了高分辨率、高逼真度的效果。

由于早期的生成式模型研究受限于计算资源以及算法能力，大多聚焦于简单离散数据的生成研究，所以这里主要介绍近些年来基于深度生成模型的图像及视频合成方面的研究进展。早期的图像视频合成主要依托字典学习和马尔科夫方法，利用学习好的基图像进行合成和推理。目前主流的图像视频合成类方法主要有四大类，第一类方法是GAN，目前最火热也是被研究最多的一类方法，有多种变体，其代表性的方法如CycleGAN，PGGAN，BigGAN等。第二类方法是VAE，其具有代表性的方法主要有Intro-VAE，BetaVAE，InfoVAE等。另外两类方法相比于前两类收到的关注度较小，分别是流模型与自回归模型，其具有代表性的成果如Glow及PixelCNN，PixelRNN等。此外，基于深度学习的压缩感知在采样规模和信号重建角度研究了图像和视频数据的重构问题。

文字图像的合成由于其问题的挑战性（特别是手写文字的合成）和蕴藏的巨大商业价值，近年来一直吸引了很多的研究者。文字图像的合成虽然也可以采用常用的场景图像合成技术，但是由于文字的特殊结构性，因此，围绕文字图像的合成也产生了一系列的研究成果。主流的方法可以分为三大类，第一类是基于模板的方法，主要是将文字表示为笔画或者部首的层次化模板，然后在先验知识的引导下生成不同风格的文字，这类方法思路直观，但对合成复杂结构的文字效果欠佳。第二类方法是基于GAN的方法，这类方法主要是借鉴了基于GAN的各种变体的场景图像的合成技术来完成文字图像的合成。这类方法相对于模板的方法虽然取得了巨大的进步，但是这类模型常常会不可控地生成无意义的，或者模糊不清的文字。第三类方法是基于RNN的方法，这类方法将文字的书写过程引入文字的生成过程，在在线样本（含有笔顺信息）的帮助下，采用RNN模拟文字的一笔一划的书写过程来合成文字。相对前两类方法，第三类方法不仅能够生成风格更加多样，而且也能生成更加逼真的文字图像。但是这类方法也需要大量的训练样本来完成RNN书写模型的训练。

图像与视频的合成在计算机视觉领域中有着重要地位，其成果带动了相关领域的研究和应用。如GAN在语音合成、文本生成、音乐生成等领域的应用，使其效果产生了质的飞跃。而图像与视频合成在当今社会及商业中也应用广泛，在娱乐方面有着各类美妆类、变脸类应用，而在安防领域有着异质图像合成、肖像自然图像合成等重要应用。在未来，对于图像与视频合成的深入研究将在更为广泛的领域产生更加深远的影响。

6. 遥感图像分析

遥感图像处理旨在通过对遥感图像的分析来获得有关场景、目标的特征及规律。遥感图像处理既指从遥感图像获取特征或规律的技术或手段，也指获取特征或规律后的应用目的。遥感图像处理所获取的特征主要包括时间特征、空间特征、语义特征，所获取的规律主要包含地物真实特征与图像特征的对应关系及从图像获得的场景、目标与周围环境或时间的演变或变化规律。

在遥感图像处理中，特征提取是开展基于模式识别技术研发与应用的基础，主要包含时间特征、空间特征和语义特征提取。空间特征描述地物或目标与近邻位置的空间相似关系，常用的空间特征包括局部自相似特征、分形、纹理等，主要通过颜色与形状分析和图像分割等手段来实现。时间特征描述多时相图像关于场景、目标的时间变化特性，主要通过变化检测手段来实现。语义特征描述遥感图像场景及地物目标的属性、类型或相关概念，主要通过模式分类等手段来实现。规律是利用多源、多时相等多种遥感图像并在辅助数据、专家知识的基础上形成的在更长时间、更大空间上关于某种地物、目标的成像规律或时空演变规律。围绕空间特征和时间特征提取，遥感图像处理主要进展集中体现在遥感图像融合、遥感图像解译、变化检测、高光谱解混、高光谱分类等几个方面。

遥感图像融合的基本任务是针对同一场景并具有互补信息的多幅遥感数据或其它观测数据，通过对它们的综合处理、分析与决策手段，获取更高质量数据、更优化特征、更可靠知识的技术和框架系统。根据遥感数据获取来源，可分为多源与多时相遥感图像数据融合的方法。多源遥感图像融合通过将多个传感器和信息源的数据进行联合、相关、组合，以获取目标更精确、更全面的信息，根据图像融合的层次，又可分为像素级、特征级、决策级融合。多时相遥感图像融合主要包括基于预处理、基于分类、基于变化检测、基于信息提取、基于环境应用等多时相数据融合方法。

遥感图像解译的基本任务是对遥感图像中各种待识别目标的特征信息进行分析、推理与判断，最终达到识别目标或现象的目的。目标识别、检测、分割是实现遥感图像解译的基础。在方法上，这些任务大多被描述为一个模式分类问题，主要采用决策树、支持向量机、人工神经网络、线性判别分析和最近邻分类器、聚类等方法来实现。目前，深度学习方法已成为遥感图像解释的主流方法，在目标识别、检测、语义分割中取得较优的性能。在深度学习框架下，主要针对两阶段Faster-RCNN、FPN、Cascade R-CNN，以及一阶段的网络YOLO系列、SSD、RetinaNet、RefineDet等进行适应性改进。特别地，针对遥感图像，近些年R3Net、YOLT等网络结构在遥感图像目标检测中展现了较好的性能，主要包含城市目标检测、舰船检测、飞机检测、海面/陆地检测与分离、云/雪检测、特定目标检测。在遥感图像语义分割方面，主要基于FCN、SegNet、DeepLab和SharpMask等深层神经网络进行改进，通过重训练网络使之适应遥感图像数据和任务，主要包含城市道路分割、城市典型目标分割、感兴趣农作物分割、水域分割、云/雪分割等。

变化检测的基本任务是利用不同时间获取的覆盖同一地表区域的遥感图像来确定和分析地表变化。根据变化分析的层次，变化检测方法可分为像素级变化检测、特征级变化检测以及对象级变化检测。当前，变化检测的进展集中体现在深度学习方面，主要包含基于卷积神经网络、深度置信网络和自编码器的变化检测方法，基于非受限玻尔兹曼机的SAR图像变化检测、栈式噪声自编码器与栈式映射网络变化检测、深度映射变化检测、深度聚类变化检测等。

高光谱解混的基本任务是估计高光谱图像中地物目标端元(如“树”、“水”等纯物质)及其像素级丰度的技术。根据所使用的解混模型，高光谱解混可分为基于几何的方法和基于统计的方法。由于非负矩阵分解(Nonnegative Matrix Factorization，NMF）存在解空间大，只能收敛到次优局部极值点等缺陷，一些基于NMF的扩展方法也被相继提出，如非光滑NMF、最小体积限制 NMF、结构稀疏NMF、端元相异性约束NMF等方法。近年来，基于神经网络模型的解混方法也被相继提出，包括多层感知器、自组织映射网络、自适应共振理论映射模型、深度回归网络等。

高光谱图像分类的基本任务是对高光谱图像中的每个像素进行分门别类,以达到对地物、目标进行高精度分类和自动化识别的目的,是对地观测的重要组成部分。然而，高光谱图像的高维特性、波段间高度相关性、同物异谱、同谱异物、光谱混合等特点使得高光谱图像分类面临巨大挑战。早期应用于高光谱图像分类的机器学习方法有支持向量机、K-近邻法、朴素贝叶斯、决策树、基于稀疏表达的方法等。近年来，随着深度学习新技术的出现，基于深度学习的高光谱图像分类方法在方法和性能上取得了突破性进展，该类方法能够通过训练集来学习自动地获得数据的高级特征，使得分类模型能更好地表达数据集本身的特点，提高分类精度，主要包含基于3D-CNN的方法、基于空-谱残差网络的方法、基于深度金字塔残差网络的方法、基于生成式对抗网络的方法等。

目前遥感数据处理已经广泛应用于自然环境监测、国防安全、农林普查、矿物勘探、灾害应急、交通运输、通讯服务、规划修编等一系列实际任务。

7. 医学图像分析

医学影像分析(Medical Image Analysis)属于多学科交叉的综合研究领域，涉及医学影像、数据建模、数字图像处理与分析、人工智能和数值算法等多个学科。医学图像中的模式识别问题，主要指将模式识别与图像处理技术应用在医学影像上，并结合临床数据加以综合分析，最终目的是找到与特定疾病相关的影像学生物指标，从而达到辅助医生早期诊断，辅助治疗和预后评估。医学图像分析主要包括医学图像分割、图像配准、图像融合、三维重建与可视化，脑功能与网络分析、计算机辅助诊断等。下面主要介绍医学图像分割、配准融合以及计算机辅助诊断方面的重要进展。

医学图像分割：医学图像分割是医学图像分析中典型的任务，是医学图像分析的基础，它本质上是像素级别的分类，即判断图片上每一个像素的所属类别。一般的流程分为数据预处理、感兴趣区域提取、分割、分割结果后处理等。传统图像分割方法包括阈值分割、区域增长、形变模型、水平集方法、多图谱引导的分割方法等。随着全卷积神经网络(FCN) 和U-Net网络等深度学习算法的提出，深度学习在医学图像分割领域的应用快速发展。FCN采用端到端的学习模式实现了输出图像区域分割，保证了对任意尺寸的图像都能进行处理，但其在医学图像上得到的分割结果相对粗糙。U-Net网络结构更适用于医学图像，并且针对小样本的医学图像数据也取得了较好的分割结果，后续的改进模型引入了残差结构和循环结构，并且与多尺度特征融合、注意力机制等技术相结合，进一步提升了分割的效果。

医学图像配准和融合：在临床应用中，单一模态的图像往往不能提供医生所需要的足够信息，常需将多种模式或同一模式的多次成像通过配准融合来实现感兴趣区的信息互补。医学图像的配准大部分情况下指对于在不同时间或不同条件下获取的两幅图像，基于一个相似性测度寻求一种或一系列空间变换关系，使得两幅待配准图像间的相似性测度达到最大。医学图像配准包括被试个体内配准、被试组间配准、二维-三维配准等多个应用场景。医学图像配准的经典方法包括基于互信息的配准、自由形变模型配准、基于Demons的形变配准(DEMONS)、基于层次属性的弹性配准(HAMMER)、大形变微分同胚度量映射(LDDMM)等。几年来，基于深度学习的配准方法得到了领域内的重视，深度学习应用在配准上主要采取以下两种策略，1）用深度神经网络来预测两幅图像的相似度，2）直接用深度回归网络来预测形变参数。

计算机辅助诊断：结合计算机图像处理技术以及其他可能的生理、生化手段，辅助发现病灶和特异性变化，提高诊断的准确率。其一般流程是对图像进行预处理，然后通过手工特征或者特征学习方法对整张图像进行全局扫描，然后训练模型，判断图片中是否存在病变，并对疾病进行分类。随着深度学习的发展，尤其是卷积神经网络CNN的提出，Alexnet、VGG、Resnet等网络在图像分类领域取得了优异的结果，其思想是通过有监督或无监督的方式学习层次化的特征表达，来对物体进行从底层到高层的特征描述。如何设计网络，提取图片或者特定的区域的有效的特征，提高分类精度是目前主要研究的问题。例如：DeepMind公司利用深度学习开发了一套眼睛OCT诊断系统，其准确度和世界一流专家相当。斯坦福大学的研究者发布了一系列成功的研究案例，如诊断皮肤癌的算法，准确率高达91%，与人类医生的表现相同；开发了一种新的深度学习算法,可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音，堪比心脏科医生。国内自动化所研究团队基于多中心大样本的精神分裂症神经影像、多组学数据库，利用了数据建模与机器学习技术，首次发现并从多方面验证了纹状体环路功能异常是精神分裂症精准诊疗的有效生物标记，该标记可以精准地从健康人群中筛查出精神分裂症患者，并预测患者未来的抗精神病药物治疗效果。另外，最近在形势紧急的新冠疫情中，国内多家研究机构分别使用了多种深度网络对数据进行分析，不仅能够对肺部病灶进行快速分割，还可基于CT影像对新冠患者进行快速诊断。澳门科技大学医学院联合清华大学、中山大学等团队合作研发了“面向新冠肺炎的全诊疗流程的智慧筛查、诊断与预测系统”，可以根据胸部的CT影像，对大量疑似病例进行快速筛查、辅助诊断和住院临床分级预警，实现对COVID-19病人的全生命周期管理。这些成果进一步验证了智能医学影像计算在计算机辅助诊断中的应用潜力。

8. 文字与文本识别

人类社会生活和互联网上存在大量的文字和文档图像（把文字和文档通过扫描或拍照变成图像）。把图像中的文字检测识别出来，转化为电子文本，是计算机文字处理和语言理解的需要。这个过程称为文档图像识别，简称文档识别或文字识别，或称为光学字符识别（OCR）。广义的文字识别是指从文档图像中定位并识别出其中的多种文字内容（文本、符号、公式、表格等）；狭义的文字识别指单个文字（在版面简单的文档中容易分割出来）的识别。复杂版面和复杂背景文档图像中的图文分割和文本定位也有大量的技术问题，将另外介绍。这里主要介绍单个文字和文本行（或称字符串）识别的进展。

文字识别作为模式识别领域的一个研究方向，是在电子计算机出现之后，在20世纪50年代以后发展起来的。早期文字识别的对象主要是印刷体数字和英文字母，方法以统计模式识别和特征匹配为主。后来开始手写数字、字母和印刷体汉字、手写体汉字识别的研究，研究中形状归一化、特征提取、分类器等技术受到高度重视。80-90年代也提出了一些结构分析方法，并且字符切分、字符串识别和版面分析受到重视。21世纪以来，文档分析和识别的各个方面技术继续发展，性能持续提高；尤其是近年来，互联网大数据、GPU并行计算支撑深度学习（深度神经网络）快速发展，文档分析和识别中基于深度学习的方法带来性能快速提升，全面超越传统方法，甚至在手写字符识别等方面的精度超过人类水平。

单字识别作为一个分类问题，其方法大致可分为三类：统计方法、结构方法、深度学习方法。统计方法中，对文字图像归一化、特征提取、分类三个主要环节都提出了很多有效的方法。归一化是将字符图像变换到标准大小并校正字符形状。形状校正对手写字符尤其重要，典型方法有非线性归一化、伪二维归一化（Pseudo-two-dimensional normalization）方法等。特征提取方法最有代表性的是局部方向（包括笔划轮廓方向、骨架方向、梯度方向）直方图特征，最早在20世纪70年代末提出，80年代在学术界发表。分类器分类设计方面，除了通用的统计分类器、最近邻原型分类器（学习矢量量化）、多层神经网络、支撑向量机等之外，文字识别领域提出了一些专门针对大类别集分类的改进型分类器，如修正二次判别函数（MQDF）、树分类器等。结构方法中，对字符图像骨架化（又称细化）、笔划提取、笔划匹配（主要基于图匹配思想）、部首分割和匹配等方面提出了很多方法，但是至今为止，结构匹配的识别精度还不高，且模型学习困难。以全连接多层感知器（MLP）、卷积神经网络（CNN）等为代表的神经网络模型在90年代起已经开始在文字识别领域得到成功应用，特别是在2013年以后，深度神经网络（主要是深度卷积神经网络CNN）逐渐占据主导地位，通过大数据训练对特征提取和分类器联合学习明显提高了识别精度，目前性能已全面超越传统方法。对于过去认为很难的大类别集（常用字5000类以上）手写汉字识别问题，正确率已可达到97%以上。目前，在训练数据充足的情况下，单字识别问题基本上已得到了很好解决，不再是一个重要的学术问题。

文本行识别比单字识别更有实用价值。由于字符形状、大小、位置、间隔不规则，字符在识别之前难以准确切分，因此字符切分和识别必须同时进行，这也就是文本行识别的过程。上世纪80年代，对日文手写字符串识别、英文词识别、手写数字识别等问题提出了基于过切分和候选切分-识别网格的方法。这种方法至今在中文手写文本行识别中仍具有优势，结合深度学习分类器（主要是CNN），可以得到优异的识别性能。上世纪90年代，基于隐马尔科夫模型(HMM)的方法在英文手写词识别中开始流行。这种方法的好处是可以在词标注（无需给出每个字的位置）的样本集上进行弱监督学习。后来(2006年之后)，基于长短时记忆(LSTM)递归神经网络 (RNN)和连结时序分类（CTC）解码的RNN+CTC模型在英文和阿拉伯文手写识别中性能超越HMM，逐渐成为手写词识别和文本行识别的主导方法。此外，受到机器翻译及自然语言处理领域中提出的注意力（Attention）序列解码机制的启发，注意力模型也被广泛应用到文本行识别领域之中。近年来，结合CNN（用于图像特征学习）的RNN+CTC模型及RNN+Attention模型用于场景文本识别和手写文本识别都取得了领先的性能。基于滑动窗CNN分类的方法（包括CNN+CTC、CNN+Attention）在多语言（包括中文）文本行识别中都比较有效。

文字识别方法研究是模式识别领域的重要部分，一些成果启发了模式分类和计算机视觉等方向的研究，比如文字识别领域在20世纪80年代提出的梯度方向直方图特征在2000年以后被广泛用于计算机视觉领域，改名叫HOG。文字识别技术已在很多社会和商业领域取得成功应用。传统应用场景包括印刷文档数字化、古籍（历史文档）数字化、邮政分拣、票据识别、车牌识别、卡证识别、联机手写文字识别（主要是单字识别）等。过去脱机手写字符识别的成功应用不多，近年来，手写文本识别技术开始进入实用。各种票据的识别开始推广，除了扫描图像，拍照文档（包括票据、卡证等）越来越多。手写作业及试卷手写文字识别、法律文档和档案识别开始推广。相关方法的研究还在继续，以不断提高应用系统的性能。研究方向主要包括：小样本学习、输出置信度和可解释性、多语言文本识别、交互式文本识别。

9. 复杂文档版面分析

文档图像识别中，文档图像的处理和分割非常关键，因为文字和文本行被识别之前，先要在文档中定位并被分割出来。对文档图像中的文本和图形（插图、表格、公式、签名、印章等）区域进行分割并分析不同区域之间的关系，是版面分析的主要任务。几何版面分析是对图文区域进行定位和分割；逻辑版面分析则还要标出不同区域之间的逻辑或语义关系（如阅读顺序）。版面分析的技术挑战主要来自三个方面：低质图像、复杂版面、复杂背景。上世纪80年代以来，对文档图像预处理、版面分割、复杂背景图像文本检测方面提出了很多有效的方法，取得了巨大进展，从而推动了文字和文档识别技术的成功应用。

图像预处理方面的技术包括二值化（文本与背景分离）、图像增强、旋转校正、畸变校正等。早期提出的Otsu二值化方法至今仍被广泛使用。对于噪声图像的二值化，提出了很多从简单到复杂的方法，如局部二值化及系列扩展，用马尔科夫随机场、条件随机场、深度神经网络（如全卷积网络）直接对象素进行分类，等等。为了校正旋转的文档图像，对旋转方向估计提出了投影分析、Hough变换、纹理分析等方法。手持相机拍照文档图像的畸变、光照不均等问题比较突出，对这些畸变和光照的校正提出了一系列基于几何分析（如三维几何）和图像变换矫正方法。

版面分析方法可分为三类：自上而下、自下而上和混合方法。自上而下的方法把图像从大到小进行划分，直到每个区域对应某一类对象（如文本、图形）。代表性的自上而下方法如投影法和X-Y Cuts。自下而上的方法从图像基本单元（像素、连通成分）从小到大聚合为文本行和区域，对图像旋转、变形、不规则区域等具有更强的适应能力。比如手写文档中，手写文本行有倾斜、弯曲，行之间挨得近，用投影法就很难分开，需用自下而上的聚类方法进行分割。经典的自下而上方法如Smearing、DocStrum（文档谱）、Voronoi图、纹理分析、聚类方法等。用条件随机场对连通成分进行分类，可以分割复杂版面的文档，除了图文区域分割，还可区分印刷和手写文字。对于比较复杂的图像，比如复杂背景或噪声严重干扰的图像，很难用传统二值化去掉背景，近年来提出了基于图模型（例如条件随机场、图卷积）进行版面分析及理解、基于全卷积神经网络通过像素分类来区分背景和前景、分割文本、图形等区域的新方法。混合方法结合自下而上和自上而下的方法，如在自下而上聚合过程中引入先验知识和规则、对聚合结果进行后处理等。可以看出，最近提出的图模型和全卷积神经网络方法具有很强的从数据学习的能力，因而适应不同风格的文档产生更好的分割性能。

场景文本检测可以看成一个特殊的版面分析问题，由于其技术挑战性和巨大的应用需求，最近10年成为研究热点，取得了很大进展。相关方法也可分为自下而上和自上而下、以及自上而下和自下而上相结合的方法。自下而上的方法基于文字或连通成分检测，然后聚合成文本行，典型的如SegLink。自上而下的方法用类似物体检测(Object Detection)直接回归文本行位置，给出文本行的边界框，典型方法如EAST等。但针对任意方向文本行和长宽比，需要设计特殊的模型和学习方法，如直接回归方法。最近对形状弯曲的所谓任意形状文本检测吸引了很多研究，典型的方法如TextSnake、自适应区域表示等。在场景文本检测基础上，文本行（或词）识别方法与普通印刷或手写文本行识别类似。也有些方法（如CRNN+CTC）是首先在场景文本识别中提出来的。端到端的场景文本检测与识别是目前的研究热点之一。

文档版面分析技术的发展推动了文档识别技术的成功应用。随着数码相机和智能手机的普及，拍照文档越来越多，文档类型、图像质量多样化，对版面分析技术的要求越来越高。近年来，各类拍照文档（书籍、档案、文书、票据、卡片、证件、场景文本）的自动处理和识别逐渐开始实用，这得益于版面分析技术和文本识别技术的巨大进步。但是，任意复杂结构、低质图像文档的版面分割与理解及内容识别仍是有待解决的问题。

10. 多媒体数据分析

随着网络通信、数字电子设备、计算机技术的快速进步，信息社会已进入多媒体大数据时代。由于多媒体数据的固有属性是异构及多模态性，因此使用传统方法处理这些复杂数据是不可行的。多媒体数据分析旨在解决多媒体数据的操纵、管理、挖掘、理解的问题，同时以高效的方式对不同模态的异构数据进行智能感知，从而服务于实际应用。目前，多媒体数据的主要存在形式之一是社会多媒体。作为新一代信息资源，社会多媒体数据除传统的文字信息外，还包含了具有表现力强、蕴含信息量大、形象生动等特点的图像、音频和视频等媒体。这些不同的媒体数据在形式上多源异构，语义上相互关联。

多媒体数据分析技术主要包括多模态表示学习，模态间映射、对齐、融合和协同学习等。其中，多模态表示学习的主要目标是将多模态数据所蕴含的语义信息数值化为实值向量。其主要研究进展包括多模态哈希编码、多模态字典学习、多模态稀疏表达、基于深度学习的视觉-语义嵌入及大规模多模态数据表示学习等。模态间映射主要研究如何将某一特定模态数据中的信息映射至另一模态。其主要进展包括基于注意力机制和上下文关系建模的图像与视频标注方法。Liu等人提出了VisualBERT，其借助自注意力机制把一段输入文本中的元素和一张相关的输入图像中的区域映射到语义空间内并隐式地关联起来。对齐主要研究如何识别不同模态间部件、元素的对应关系。主要进展是使用嵌入子空间的特征方法以增强模态内数据的相关性和语义相关数据的关联。融合主要研究如何整合不同模态间模型与特征。主要进展是基于条件随机场、主题模型、多视角学习和弱监督方式的融合方法。协同学习主要研究如何将富集的模态上学习的知识迁移到信息匮乏的模态，使各个模态的学习互相辅助。主要进展是跨模态知识迁移网络方法。Huang等人提出了一种跨模态知识迁移网络，将跨模态数据转换为共同表示用于检索，其中模态共享迁移子网络利用源域和目标域的模式作为桥梁，将知识同时迁移到两种模态。社会多媒体计算作为多媒体数据分析的主要应用点之一，其通常以用户为中心进行建模。主要研究进展包括基于排序的多关联因子分析模型、基于关联隐SVM模型的用户属性的协同推断、多模态的主题敏感的影响分析方法、基于协同过滤的内容推荐算法等。Chen等人提出了注意力机制协同过滤内容推荐算法，通过设计元件级的注意力模块来从多媒体实例中提取富信息的元件，设计物品级的注意力模块来为不同的物品进行偏好打分，从而显著提升了当前最先进的协同过滤推荐算法。

多媒体数据分析是一个充满活力的多学科交叉领域，具有广泛的影响。多媒体数据分析是实现跨媒体智能的重要手段，进而可以高效应对现实世界中对象复杂性、数据规模化、应用需求多样化等挑战。多媒体数据分析的应用包含有多媒体数据的聚类、索引和内容摘要等方向。例如，多媒体数据的内容摘要不同于传统的在单模态上的内容摘要方法，需要融合丰富的多媒体数据。此外，多模态无监督深度表征学习也是最近的研究热点，其训练不依赖任何标签，通过对多模态数据内在特征的挖掘，找到其间的关系从而学习到高效的特征表示。目前在一些任务上多模态无监督深度表征学习已经接近了有监督训练的性能。在社会多媒体计算方面，社会多媒体内容理解可以通过对多媒体数据进行语义分析和关联建模以实现对社会事件的分析、检测、关联、预测及决策。其主要应用领域包括内容监测、态势分析、智能医疗、智慧城市等。

11. 多模态情感计算

所谓“模态”，英文是modality，每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等。多模态信息之间具有互补和增强作用，这与大脑通过多种来源的信息感知外在事物是一致的，不同感官会被无意识地自动结合在一起对信息进行处理，任何感官信息的缺乏或不准确，都将导致大脑对外界信息的理解产生偏差。情感是人类智能的重要组成部分，情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境，并使计算机具有更高的、全面的智能。多模态情感计算是指融合多种模态信息包括但不限于音频、视频、文本和生理信号等模态进行情感识别、解释、处理和模拟，促进和谐的人机交互。

有关情感计算的论述可以追述到二十世纪末的James Russell。1970年，人工智能创始人之一，计算机图灵奖获得者，美国麻省理工学院的Minsky教授在《脑智社会》专著中就情感的重要性专门指出“问题不在于智能机器能否有情感，而在于没有情感的机器能否实现智能”。1997年，MIT的Rosalind Picard在她的专著中首次提出“情感计算”的概念。之后，情感计算引入机器学习方法进行分析，将情感分类分为不同的情感类别进行识别，并且从不同的情感维度（愉悦度和激活度）上表示情感的正负向性和情感程度来量化情感，从而将情感分析建模为一个模式识别问题。因此，不同的机器学习方法都被应用到了情感计算中，如传统的支持向量机、随机森林、隐马尔科夫模型以及基于事件评价的情感模型等等。近来，随着深度学习的广泛应用，深度神经网络也被成功地应用到了情感计算中。由于情感的时序特性，递归神经网络能够取得相较于其他网络更好的效果。

人类具备多种情感表达方式，并且不同表现方式在表达情感信息时存在一定的互补作用。因此，相比于单模态情感识别，多模态情感识别更加完整，更加符合人类自然的行为表达方式。多模态情感分析的难点在于如何有效融合多模态信息，利用模态间的互补性，提升情感分析的能力。1997 年，Duc 等人最先提出“多模态”（Multi-modal）的概念。Pradeep 总结了多模态情感融合的三种基本模式，包括特征层融合、决策层融合和模型层融合。特征层融合在前期融合不同模态的特征，简单有效但忽略了不同模态特征之间的差异性，同时该融合策略很难表示不同模态之间的时间同步性，并且融合后特征维度太大，容易造成信息冗余甚至引发“维数灾难”；决策层融合在后期综合不同模态的预测，考虑到了不同模态特征的差异性，但决策层融合没有考虑到情感特征之间的联系，不能充分利用不同模态特征所蕴含的类别信息，忽略了不同模态信息的本质相关性；模型层融合依据于不同模型的内在结构进行建模，并且利用深度学习方法获得了更好的效果，是目前研究的热点。模型层融合的另一种思路是多模态特征学习，利用深度学习网络提取不同模态信息中的情感共性部分而去除干扰部分，学习各个模态（如音频、视频和文本）之间的交互信息，得到鲁棒的多模态情感特征表征。这方面的研究是多模态情感分析的热点，吸引了许多研究。如Zadeh 提出Tensor融合，将不同模态编码到高层表征然后两两模态之间内积拼接得到最终的多模态表征。

基于多模态融合的情感计算受到学术界和工业界的广泛关注。1998年，美国伊利诺伊大学和日本 ART 研究院的研究工作者 Chen，Huang和Miyasato等人共同提出了基于表情和语音的双模态情感识别框架。2006年，悉尼科技大学的研究工作者Gunes和Piccard等人建立了基于表情和姿态的情感数据库，并在该数据库上进行融合表情和姿态的情感识别实验。2010年，东南大学的研究工作者Huang和Jin等人考虑到脑电信号可以充分反映人的生理和心理变化，提出了采用特征融合和决策融合算法实现语音信号和脑电信号的多模态情感识别。2015年，注意力机制首次被引入到多模态情感识别领域，该机制能够考虑到不同模态对于情感计算的差异贡献性，并且学习在不同时刻动态地改变各个模态的权重。

多模态情感计算能够极大地增加情感分析的准确性，强化人机交互的自然度、类人度以及温度。针对多模态情感计算的研究，能够同时促进模态信息融合、以认知科学为基础的视听觉计算等相关领域的研究。同时，多模态情感计算在智能客服、疲劳监测、智能教育、智能医疗等领域有着广泛地应用。例如，利用多模态情感计算技术，能够判断人的情感变化和心理压力的变化，来侦测人们的一些行为或会话过程中，可能出现的一些心理和精神的异常点，为医生做诊断提供辅助。

12. 图像取证与安全

以图像为代表的视觉大数据作为客观信息记录的重要载体，在日常生活中被广泛应用，然而随着图像视频编辑技术、特别是深度生成对抗和伪造技术等的快速发展，图像视频极易成为被恶意篡改伪造的对象，在互联网和智能手机上广泛且快速传播，对网络安全和媒体公信力造成巨大威胁。在眼见不为实的背景下，视觉取证技术应运而生，其目的是有效鉴别图像视频数据的真实性、追溯可疑图像视频来源。不同于主动式的图像水印、数字签名技术，图像视频取证技术采用被动方式，仅从数据本身抽取可用线索，最终辨别图像视频的真实性。

虽然图像篡改伪造问题早在19世纪照相机发明不久之后就已出现，作为一个科学问题被广泛研究的图像视频取证起源于2000年，是一个相对较新的研究领域。早期的图像取证方法受自然图像统计模型的启发，关注篡改图像或计算机合成图像不同于真实图像的统计特征。由于假图像与真图像在视觉上很难区分，研究者多从高频噪声层面设计手工特征，如噪声的高阶矩特征、小波域特征、马尔科夫转移矩阵特征、邻域像素共生矩阵特征等。该研究思路下取证问题与图像隐写分析问题非常相似，这些手工特征的设计很多借鉴自发展较为成熟的图像隐写分析领域。随着研究深入，用于图像视频取证的特征维度越来越高，同时分类器也经由了简单线性分类器发展到核分类器、集成分类器再到近年来流行的深度学习网络。

与基于统计模型的取证研究同时发展的另一种取证方法是多线索取证。此类方法通过发掘各成像环节中成像模型与成像规律被篡改行为破坏的线索来揭示篡改。各种类型的多线索取证方法共同构成有效的取证工具集，主要包括相机模式噪声取证、Color Filter Array (彩色过滤器阵列，简称CFA)插值算法取证、JPEG压缩规律取证、场景光照一致性取证、场景几何约束取证、、图像操作取证等。各类方法的设计从特定成像环节的数学模型出发，旨在通过建模来还原篡改行为对正常模型的破坏痕迹。此外，基于计算机视觉中的成熟技术，有研究者提出对篡改图像中复制粘贴同源区域进行配准定位；以及基于检索与匹配技术从海量图像中重建篡改图像来源和篡改过程的取证溯源技术。

深度学习技术的发展，特别是深度伪造技术的出现，对视觉取证领域也带来了深远的影响。不同于一般计算机视觉任务，图像取证深度模型一般在图像噪声域设计，目的是增强包含篡改痕迹的高频微小信号。近两年不断有新的深度模型被提出，研究者在模型的层数、架构、损失设计、图像滤波层以及各种训练技巧上进行了大量尝试。最新的深度取证模型在标准数据库上已经能够超越传统统计模型的预测性能，然而此类取证方法仍然面临实际场景中图像压缩、图像质量造成的不利影响以及深度取证方法本身可解释性弱的问题。

图像取证研究在内容安全方面有着巨大应用需求，对于互联网虚假媒体检测、司法鉴定、保险反欺诈等都有实际应用场景。“华南虎”、“广场鸽”、“AI换脸”等事件中，图像取证技术都发挥了重要作用。微软公司与取证研究专家合作开发的敏感图像内容指纹比对技术已大规模应用于各大图像分享平台。随着智能伪造技术的快速发展，其危害日益严重，取证技术势必在内容安全应用中发挥越来越大的作用。

[模式识别国家重点实验室允许非商业用途的转载。

[模式识别国家重点实验室允许非商业用途的转载。转载时应保证内容与原文一致，声明“本文得到模式识别国家重点实验室（公众号: 模式识别国家重点实验室）授权发布”，并添加原文链接。]