清华章毓晋老师新书：2D视觉系统和图像技术（文末送5本）

新用户0118F7lQ 2022-07-02 发布于湖北

展开全文

视觉系统是通过观测世界获得图像，进而实现视觉功能的系统。人的视觉系统包括眼睛、神经网络、大脑皮层等。随着科技的进步，由计算机和电子设备构成的人造视觉系统越来越多，它们试图实现并改善人的视觉系统。人造视觉系统主要将数字图像作为系统的输入。

视觉系统流程

从功能来看，2D视觉系统需要能够采集客观场景的图像，对图像进行加工（预处理），改善图像质量，再将其中对应感兴趣物体的图像目标提取出来，并通过对目标的分析获取客观物体的有用信息。2D视觉系统流程如图1所示。

图1 2D视觉系统流程

图像技术层次

为完成视觉系统的功能，需要利用一系列技术。计算机视觉技术经过多年发展已有很大进展，种类很多。对于这些技术，已有一些分类方法，但目前看来还不太稳定和一致。例如，研究者均将计算机视觉技术分成3层，但结果并不统一。有的将其分为低层视觉、中层视觉、3D视觉，有的将其分为早期视觉（其中又分为两部分：仅一幅图像、多幅图像）、中层视觉、高层视觉（其中又分为两部分：几何方法、概率和推论方法）。

相对来说，图像技术的分类方法在近20多年来一直比较一致。该方法将各种图像技术都集合在图像工程学科（一门系统研究各种图像理论、技术和应用的交叉学科）之下。图像工程可分为图像处理、图像分析和图像理解三个层次，如图2所示，每个层次各有特点。

图2 图像工程层次示意

图像处理（IP）着重强调在图像之间进行的变换。虽然人们常用图像处理泛指各种图像技术，但比较狭义的图像处理主要指对图像进行各种加工以改善图像的视觉效果，并为自动识别打基础，或对图像进行压缩编码以减少所需的存储空间或传输时间，从而满足给定传输通路的需求。

图像分析（IA）主要是对图像中感兴趣的目标进行检测和测量，以获得它们的客观信息，从而建立对图像的描述。如果说图像处理是一个从图像到图像的过程，则图像分析是一个从图像到数据的过程。这里数据可以是对目标特征进行测量的结果，也可以是基于测量的符号表示，它们描述了图像中目标的特点和性质。

图像理解（IU）的重点是在图像分析的基础上，进一步研究图像中各目标的性质和它们之间的联系，并得出对图像内容的理解及对原来客观场景的解释。如果说图像分析主要以观察者为中心研究客观世界（主要研究可直接观察到的事物），那么图像理解在一定程度上以客观世界为中心，并借助知识、经验等来把握和解释整个客观世界（包括不能直接观察到的事物）。

综上所述，图像处理、图像分析和图像理解在抽象程度和数据量上各有特点，操作对象和语义层次各不相同，其相互联系可参考图1-10。图像处理是比较低层的操作，它主要在图像的像素层次上进行处理，处理的数据量非常大；图像分析则进入了中层，通过图像分割和特征提取，把原来对图像中像素的描述转换成比较简洁的对图像中目标的描述；图像理解是高层操作，操作对象基本上是从描述中抽象出来的符号，其处理过程和方法与人类的思维推理有许多相似之处。另外，由图1-10可知，随着抽象性的提高，数据量是逐渐减少的。具体说来，原始图像数据在经过一系列的处理过程后，逐步转化得更有组织并被更抽象地表达。在这个过程中，语义被不断引入，操作对象发生变化，数据量得到压缩。另外，高层操作对低层操作有指导作用，能提高低层操作的效能。

在图像工程的三个层次中，图像处理和图像分析是图像理解的基础，对二者的研究相较于图像理解更加成熟，目前应用得也比较广泛。

图像技术分类

在图像工程的三个层次中，每个层次又包括若干个技术类别（共16个类别），如表所示。

图像处理、图像分析和图像理解中的图像技术

层次	图像技术
图像处理	图像获取（各种成像方法，图像采集、表达及存储，以及摄像机标定等）
	图像重建（从投影等重建图像、间接成像等）
	图像增强/图像恢复（变换、滤波、复原、修补、置换、校正、视觉质量评价等）
	图像/视频压缩编码（算法研究、相关国际标准实现及改进等）
	图像信息安全（数字水印、信息隐藏、图像认证取证等）
	图像多分辨率处理（超分辨率重建、图像分解和插值、分辨率转换等）
图像分析	图像分割和基元检测（边缘、角点、控制点、感兴趣点检测等）
	目标表达、目标描述、特征测量（二值图像形态分析等）
	目标特性提取分析（颜色、纹理、形状、空间、结构、运动、显著性、属性等的提取分析）
	目标检测和目标识别（目标2D定位、追踪、提取、鉴别和分类等）
	人体生物特征提取和验证（人体、人脸和器官等的检测、定位与识别等）
图像理解	图像匹配和融合（序列、立体图像的配准、镶嵌等）
	场景恢复（3D物体表达、建模、重构或重建等）
	图像感知和解释（语义描述、场景模型、机器学习、认知推理等）
	基于内容的图像/视频检索（相应的标注、分类等）
	时空技术（高维运动分析、目标3D姿态检测、时空跟踪，以及举止判断和行为理解等）

《2D计算机视觉：原理、算法及应用》

结构框架和主要内容

本书选取了一些相关技术进行介绍。图像处理技术基本对应早期视觉或低层视觉，图像分析技术主要与中层视觉相关。

本书的结构框架和主要内容如图3所示。从客观场景出发到最后提取出物体信息，共分为4个模块（实线框）：图像采集、图像处理（或图像预处理）、目标提取、目标分析，分别包含不同的技术（虚线框），括号中的数字对应本书的章次。附录A介绍的二值数学形态学作为一种工具可以应用于不同模块的不同技术（如箭头所示）；附录B介绍的视觉恒常性主要与图像处理模块相关（如箭头所示）。