【学术】龚健雅院士：遥感影像智能解译样本库现状与研究

weiwarm 2021-09-14

展开全文

GIS FAMILY

来源：《测绘学报》2021年第8期（审图号GS（2021）5047号）

原标题：智能化测绘专刊 | 龚健雅：遥感影像智能解译样本库现状与研究

| 本文约 10000 字，阅读约需 17 分钟 |

龚健雅, 许越, 胡翔云, 姜良存, 张觅

武汉大学遥感信息工程学院, 湖北武汉 430079

基金项目：国家重点研发计划(2016YFB0501403);国家自然科学基金重大研究计划(92038301)

摘要

Abstract

我国遥感对地观测等项目顺利实施, 获取了大量时效性强、覆盖范围广、信息量丰富的遥感数据。但遥感影像智能化自动处理技术发展仍相对滞后, 无法满足区域/全球大范围地物信息快速提取的需求。近年来, 人们利用深度学习技术显著提高了影像特征提取成效, 但由于所使用的深度学习样本数量和类型有限, 对于多源遥感影像的自动解译能力仍然不足。本文面向大范围多源遥感影像地物信息智能解译需求, 在分析现有样本集现状及问题的基础上, 研究提出遥感影像智能解译样本库设计方案, 并在此基础上设计了基于互联网的样本协同采集与共享服务框架。本文将为多源遥感影像样本库建设提供参考, 为大范围遥感影像智能解译提供支持。

关键词 ：遥感智能解译样本库多源遥感影像数据模型深度学习

引文格式：龚健雅, 许越, 胡翔云, 等. 遥感影像智能解译样本库现状与研究[J]. 测绘学报，2021，50(8)：1013-1022. DOI: 10.11947/j.AGCS.2021.20210085

GONG Jianya, XU Yue, HU Xiangyun, et al. Status analysis and research of sample database for intelligent interpretation of remote sensing image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8): 1013-1022. DOI: 10.11947/j.AGCS.2021.20210085

引言

近年来，随着对地观测技术的发展，遥感影像数据以几何级数的速度快速增长[1-2]。这些时效性强、覆盖范围广、多类型、多分辨率的海量遥感数据被用于地表信息提取、资源与生态环境变化监测等诸多领域，发挥了巨大作用。但是，遥感影像数据量的快速增长和数据类型的不断丰富，也对数据快速精准解译方法与技术提出了更高要求，原始拍摄数据大量堆积与可用信息提取不足的矛盾日益突出[3-5]。当前，我国正在着力构建国内国际双循环相互促进的新发展格局，无论是国内社会经济发展建设、资源环境动态监测评估，还是支持全球可持续发展、构建人类命运共同体，均需区域/全球大范围地理空间信息的支持，进而对多源遥感信息快速解译能力提出了更为迫切的需求。

得益于大数据、云计算、人工智能等技术的不断进步，深度学习技术在图像识别方面取得重大进展[6]。2015年微软研究团队宣布机器学习系统在ImageNet 2012分类数据集中的图像识别错误率已经降低到4.94%，低于人眼辨识的错误率5.1%[7]。自此之后，面向普通图像处理的深度神经网络框架和模型迅猛发展，其支持的图像识别技术在公共安全、生物、工业、农业、交通、医疗等领域得到广泛应用，其中不少已经融入百姓日常生活，例如人脸识别、车牌识别、指纹识别、食品品质检测、医学心电图识别等。随着高性能计算等技术的不断发展，图像识别能力不断提升，应用前景不可限量。

在遥感领域，近年也利用深度学习技术支持场景理解、地物目标检测与土地覆盖分类等任务。人们通过构建大量样本数据训练深度学习网络，显著提高了遥感影像特征提取成效[8-10]。但整体上，智能遥感解译系统的实用化、商业化程度仍未达到人脸、指纹识别等普通图像解译的水平。遥感影像解译涉及场景识别、目标检测、地物分类、变化检测、三维重建等不同层次的任务，区域/全球大范围地物信息的提取需要依赖多源(多类型传感器、多时相、多尺度)遥感数据，但目前已经建立的样本库尚难以支持多源异构遥感影像的处理[3]，主要问题表现在5个方面：①各类样本库采用不同的分类体系，导致所训练出来的深度学习模型难以共享样本集，处理样本库覆盖范围外的数据时出现分类偏差；②预设的样本种类难以完全覆盖区域/全球地表环境的多样性，遇到新类别(开集问题)时，模型的解译体系不能灵活扩展，导致出现误判[11]；③样本的空间分布对不同区域地理环境特点体现不足，导致模型对局部地区特征过度拟合，进而降低深度学习模型大范围应用时泛化能力[6, 12]；④现有样本库大多模仿ImageNet模式构造，对遥感影像的多尺度、多传感器、多时相特性体现不足，且大多不具备地理位置属性和时间属性，削弱了模型的稳健性；⑤现有样本大多是分别面向场景、目标、像素构建的，未见集成场景-目标-像素的综合样本集。

海量且多类型的遥感影像样本库是实现大范围异构遥感影像高精度智能解译的基础。样本库应遵循统一分类体系，涵盖空间分布合理的多尺度、多传感器、多时相遥感影像，应具备样本类型与类别动态扩展及样本自动精化的能力，还应满足场景、目标、像素等不同层级的精准解译要求。本文面向多源异构遥感影像地物信息智能解译需求，在分析现有样本集现状及问题的基础上，研究提出遥感影像智能解译样本库建设方案(如图 1所示)。整体技术流程包括标准制定、方法设计、工程实施、应用支持等几个主要环节，其中方法设计环节主要包括样本概念模型设计、样本分类模型设计、样本组织模型设计和样本采集方法设计；工程实施环节主要包括样本库构建、样本协同采集与共享服务平台开发。样本分类与编码标准是在样本概念与分类模型基础上形成的，用于指导样本采集、管理、共享、应用全流程。本文提出的方法将为多源遥感影像样本库建设提供参考，为大范围遥感影像智能解译提供支持。

图 1 遥感影像样本库设计与建设技术流程

Fig. 1 Design and construction process of remote sensing image sample database

1 遥感深度学习样本集建设现状

遥感影像解译包括场景识别、目标检测、地物分类、变化检测、三维重建等不同层次的任务，每种任务都可基于多种影像资源(多类型传感器、多时相、多尺度)来实现，面向智能解译的样本库必须充分体现这种多源特性，才能保证解译精度。当前已有不少遥感解译样本数据集，总体来看，这些样本集存在分类体系不统一、解译样本量小、多样性不足、样本影像来源单一、样本尺寸固定等问题，已经严重影响大范围多源异构遥感影像解译效率与质量。

1.1 常用公开遥感解译样本数据集

目前，遥感解译样本数据均是针对不同的解译任务而构建的，主要包括场景分类样本、地物目标检测样本、地物要素分类样本、变化检测样本等几类。表 1为当前常用公开场景分类、目标检测、地物要素分类、变化检测样本数据集的内容与主要指标。

表 1 部分常用公开样本集

Tab. 1 Some commonly used public sample sets

注：任务类型：A为场景分类；B为目标检测；C为地物分类；D为变化检测。

由表 1可知，这些大多是场景分类与目标提取样本，地物目标检测(像素分割)和变化检测的样本量很少，难以支持多层级信息解译。其中，场景分类样本的数量最多，在遥感解译中常用作后续目标检测地物分类任务解译模型的初始化与训练数据。但场景样本大多为RGB影像，难以支持含有更多光谱信息的遥感模型训练。且场景样本尺寸大多较小，致使解译模型突出地物的局部特征而难以提取大范围场景特征。目标识别样本的标注方式依赖于不同数据集面向的目标类别，存在标注方式不统一、类别不统一的现象，在共享应用时，必须进行类别综合才能实现跨数据集使用。地物要素分类样本由于标注成本高且分类体系不统一，现存样本数量较少，缺少多光谱、高光谱、红外、SAR、激光雷达、多视角等多类型传感器样本，难以支持大范围多源影像解译。变化检测的样本数量是最少的，且大多仅针对某一种地物的变化进行标注，没有考虑实际情况中多种地物组合变化情况，也无法支持业务化应用。此外，这些样本集中样本的大小较为固定，基于有限大小的样本块进行深度学习模型训练，将对解译模型的感受视野造成限制[13]，不利于大范围遥感影像信息提取。

为满足对于大规模样本库的多种需求情况，应设计以上各类任务为驱动的遥感影像解译样本数据模型，既满足各任务单独使用需求，又使得不同任务或不同传感器间数据可以高效组织索引。

1.2 样本分类

现有遥感影像智能解译样本集大多针对具体应用场景和解译对象来建设，不同样本集采用了不同的分类体系。

地表覆盖分类采用最多的是联合国粮农组织(Food and Agriculture Organization of the United Nations, FAO)提出的《地表覆盖分类体系(Land Cover Classification System, LCCS)》，它基于地表覆盖属性组合进行类别定义，具有较好的灵活性和可扩展性。美国地质调查局(USGS)的《遥感数据土地利用与土地覆盖分类体系》[14]、我国的《地理国情监测内容与指标》(CH/T 9029—2019)[15]、《中国全球测图地表覆盖产品分类(30 m、10 m)》[16]等均参考了LCCS分类。国际标准化组织基于FAO的LCCS颁布了两个国际标准《Geographic Information-Classification Systems-Part 1: Classification System Structure》(ISO 19144—1)和《Geographic Information-Classification Systems-Part 2:Land Cover Meta Language, (LCML)》(ISO 19144—2)[17-18]，我国以等同采标的方式将ISO 19144—1翻译为国家标准《地理信息分类系统》(GB/T 30322)[19]。有些数据集的分类还参考了《土地利用现状分类》(GB/T 21010—2017)[10]、《地理信息兴趣点分类与编码》(GB/T 35648—2017)等国家标准。

由于这些样本集在样本类别定义(命名、语义)、层级及兼容性等方面有较大差异，开放性与可扩展性不足，难以支持样本集的共享与综合利用。

1.3 样本采集方法

常用的样本标注工具主要有LabelMe[20-21]、LabelImg[22]等，它们可用于小尺寸的全色、RGB影像的目标检测或场景分类样本的标注，在处理大尺寸遥感影像时需先切割成小尺寸，且不支持变化检测、像素分割等样本的标注，以及多光谱、多视角等样本的制作。一些地理信息软件(如ArcGIS和QGIS)支持多光谱影像标注，但导出的标签一般是矢量，需要先转换格式才能输入深度学习模型。像素级影像分割样本标注一般利用专业软件(如ENVI、ERDAS)以人工标注或半自动标注方式完成，其中，人工标注包括专业人员和众包标注两种方式，前者质量高但效率低，后者效率高但质量参差不齐。ImageNet等是利用众包完成标注后再经专业人员审核。

某一类别地物实体在不同地理环境中的空间分布是不均匀的，例如东南亚水系丰富，而中亚草原荒漠较多。采样时必须考虑地理环境对要素分类空间分布的影响，使每个地理空间区域都有足够的样本类别与样本数量[23-24]，才能保证解译的精度。现有样本集(特别是地物分类样本)大多基于局部区域的少量影像构建[8-10]，样本类型与数量的空间分布不合理，导致机器学习模型错误分类[25]。

总体来看，亟须研究顾及地貌景观类别的样本分布策略，并研发专用遥感影像样本采集工具，以提升采集质量与效率。

1.4 样本数据管理与共享服务

目前，多数遥感影像样本集由遥感社区的研究人员或学术组织制作，通常以数据文件方式存储在局域网服务器、公共资源(如GitHub等)和云存储平台(如百度云、Google Drive等)，提供链接供获得授权者下载使用[26-27]。集成使用多个样本集的使用者需要从不同链接分别获取，且由于这些数据集的分类与定义不一致而不得不进行大量的整合处理工作，这种情况不但影响效率，也在一定程度上降低了所训练模型的泛化能力。例如，虽然多个目标检测样本集均有“飞机”样本，但其成像质量、采样季节和采样区域均有差异，用这些样本训练出来的模型解译效果会受影响。

为此，亟须建立遥感解译样本服务平台，实现对多类型传感器、多时相、多尺度遥感样本数据的集成管理、动态维护和在线服务，以解决全球/区域大范围样本数据融合与共享问题。

2 任务驱动的遥感影像智能解译样本库设计

由前述分析可知，建设可支持大范围多源异构遥感影像智能解译的样本库需要突破的关键技术包括：①“任务驱动”的遥感影像解译样本模型；②统一可扩展的遥感解译样本分类体系；③支持全局关联的数据组织索引方法。其中，样本模型应涵盖多传感器类型、多时相、多尺度遥感影像，分类体系应支持样本类型与类别动态扩展，数据组织与索引应满足跨区域跨类别快速调用索引需求。

2.1 面向任务的样本模型

本文针对场景分类、目标检测、地物分类、变化检测、三维重建等解译任务，定义了相应的样本类型，包括：

(1) 场景分类样本。场景识别对应于计算机视觉中的图像分类任务，其目的是自动给航空或航天遥感影像贴上特定语义类别标签，支持场景与目标(如机场、码头、立交桥等)的快速检索。场景识别是高分辨率遥感影像理解的基本步骤，近年已成为遥感领域的热点研究主题。场景数据主要包括局部或区域性场景影像，以及对应的分类文本标签。

(2) 目标检测样本。目标检测是在影像中定位一个或多个感兴趣的特定地物(如建筑物、车辆、飞机等)，并识别预测地物相应的类别。主要包括目标影像、目标定位框坐标数据、目标分类信息。由于遥感地物内容繁杂，有时解译模型难以区分或判定部分样本中细分的地物类别。因此，需要综合考虑地物目标的地域、时相、地形地貌、地块分布模式或其在影像中的图斑大小等因素，甚至需要提供示例图片进行说明。

(3) 地物分类样本。利用遥感影像进行语义分割的目的是将遥感影像中的每个像素与预先定义的地表覆盖类别关联起来。包含影像数据以及对应逐像素分类的栅格分类信息数据。

(4) 变化检测样本。用于定位及识别同一地理位置处多时态间的变化信息。需要前后两个时相的影像，并且基于统一分类体系对标签影像的图斑属性进行标注。需要针对每种变化类型制定合理的判定准则和规范要求，必要时提供示例说明。

(5) 立体多视样本。此样本集由密集匹配数据集构成，用于通过多视角遥感影像构建三维地表模型。原始数据包括多视影像，以及对应的相机内外方位元素参数、影像覆盖范围的地面真值参考数据(主要为激光点云或产品级三维地表模型)。通过自动配准方法，将影像与高程数据进行匹配，形成样本数据。

样本类型的逻辑模型如图 2所示。遥感影像解译样本由地物(像素分割)样本、目标样本、场景样本构成。其中，地物样本又包括来自于平面影像的平面样本，以及来自于立体多视影像的立体多视样本。平面样本包括单时相样本、变化检测样本。逻辑上，目标由像素组成，场景由目标组成，但3种样本的采样过程是单独进行的。同一地物可采集多种任务类型样本，不同任务的样本可根据地理位置进行关联，各类型任务又可包含不同传感器类型的数据。

图 2 样本类型逻辑模型

Fig. 2 Logical model of sample type

2.2 统一可扩展样本分类体系

由于区域/全球范围地物信息复杂多样，难以预设完备的样本种类，因而遥感影像智能解译样本的分类必须采用开放框架，具有可扩展性。为突破因样本库已有类型不完备而造成解译模型的认知局限问题，本文研究了支持新类别灵活扩展的分类体系(如图 3所示)。主要思路是基于国家标准《地理信息分类系统》(GB/T 30322)构建全局分类体系框架，再结合前节定义的具体任务类型进行扩展。

图 3 样本分类框架

Fig. 3 Sample classification framework

国家标准《地理信息分类系统》(GB/T 30322)(等同采标ISO19144—1 Geographic Information-Classification Systems-Part 1:Class-ification System Structure)[13]框架分为两个层次，第一层次采用二分法(dichotomous)定义主要地表覆盖类别，第二层次以模块层次结构(modular-hierarchical)对每一类别赋以环境属性、技术属性，进而通过不同属性的组合来定义子类。基于模块层次结构的属性，可以组合成便于索引的分类属性表。每种属性赋以体现类别的层次及层级间隶属关系的标识编码，方便索引。通过增加层次模块的属性定义，可以灵活扩展定义新的类别，并由用户生成具体任务的分类实例。

在此基础上，结合目标识别任务中出现的移动目标与固定目标(表 2)对第一层次和第二层次“人造地表和相关区域”进行了扩展，从而形成了全集的分类体系，具体每个任务的分类体系为此全集体系的实例。

表 2 场景样本分类实例

Tab. 2 Instance of scene-based sample classification

本框架能够支持各类样本的分类：

(1) 地表覆盖地物样本分类实例。这种分类方式可以涵盖现有所有地表覆盖类别，并可实现已有各种像素样本分类与本文分类体系的类别映射与转换。例如，在《地理国情普查内容与指标》(第一次全国地理国情普查，GDPJ 01—2013)中，阔叶林的定义是：由双子叶乔木树种为主构成的树林，阔叶林合计占65%以上。有冬季落叶的落叶阔叶林(又称夏绿林)和四季常绿的常绿阔叶林(又称照叶林)两种类型。其中“树林”对应于附录表 1属性表中的A12(自然植被区域)、A3(树木)，“占65%以上”对应A10(60~70%)，“阔叶”对应D1(阔叶)，“常绿”对应E1(常绿)，“冬季落叶”对应于E2(每年落叶)。因此，地理国情分类中的“阔叶林”就可以映射为本分类体系中的“A12 A3 A10 D1 E1 E2”。

(2) 场景样本分类实例。场景样本分类取上述分类体系的子集，可实例化(表 2)，综合参考已有开源样本数据集中的分类类别后，包含9个一级类，23个二级类和119个三级类。

(3) 目标样本分类实例。目标识别样本分类取上述分类体系的子集，可实例化(表 3)。表 3为综合已有开源样本数据集中的分类场景样本分类总表，包含两个一级类，10个二级类及109个三级类。

表 3 目标样本分类实例

Tab. 3 Instance of object-based sample classification

2.3 支持全局关联的数据组织与索引

遥感影像智能解译往往是多任务关联的，对于某一地物，往往需要使用与其相关的多种类型的样本，或利用某一类型样本完成不同任务。为此，本文提出以数据集为组织单元的遥感影像解译样本数据组织模型(如图 4所示)，以支持全局关联的样本组织与索引。

图 4 样本数据组织模型

Fig. 4 Logic model of sample data

本模型数据集包括像素分割样本数据集、目标样本数据集、场景样本数据集、变化检测样本数据集、多视角样本数据集等，每个数据集均建立相应的元数据。每个数据集由相应分类的样本实例组成，样本实例由样本表描述，每个样本都赋予唯一的样本标识码，以支持样本的全生命周期管理与溯源。

样本表记录样本的基本信息，例如像素分割样本表主要包括样本标识编码、样本所在数据集、样本的尺寸、样本所在区域、样本拍摄时间、样本标注信息(质量、采集人、标注时间等)、影像存储路径、影像类型，以及影像通道数、影像分辨率、传感器、样本用途(训练、验证、测试等)。目标样本还包括目标的标签信息，变化检测样本包括前后时相影像信息，立体多视样本包括深度信息等。根据不同解译需求，可将这些属性进行有机组合，实现多维语义检索与数据分析。

数据集元数据、样本表数据、样本分类数据等存储在关系数据库中，数据实体以文件方式存储于文件系统。基于上述模型，分别定义数据集、场景样本、目标样本、地物分类样本、变化检测样本、立体多视样本的属性结构，以及分类总表、各类样本分类表的属性结构。表 4与表 5分别是数据集属性表、场景样本属性表结构的示例。

表 4 数据集属性表

Tab. 4 Attribute table of the database

3 基于网络互操作的样本采集与共享服务

遥感影像智能解译样本库的构建是一项持续性工作，应充分利用已有各类样本数据集，将其进行归一化整合处理后纳入样本库中。在此基础上，还须建立支持样本不断扩展、精化的工作机制与支撑平台。因此，本文设计了多源异构样本整合技术路线，面向互联网用户的众包样本标注与共享服务平台架构。

3.1 已有样本归一化整合

图 5为已有样本整合处理的技术流程。首先，需要将已有样本的类别与本文设计的分类体系进行语义映射；然后，依据本项目设计的统一编码规则和数据库结构进行转换，并根据多维查询的语义建立样本索引；最后，将样本集的元数据信息(包括版权信息等)存储在相关的元数据表中，方便样本的质量追溯和权属认定。

图 5 多源样本数据整合技术流程

Fig. 5 Flowchart of multi-source sample data integration

3.2 众包样本采集

样本标注是样本库建设的基础工作。为解决全球/区域大范围样本数据采集问题，本文设计了基于网络互操作机制的样本采集平台，支持样本的众包协同采集标注、在线校验、动态扩展。由于遥感解译样本的判读与标注需要地学专业知识的支撑，目前样本采集还主要采用专业人员手工采集的方式，效率低、成本高，且由于样本标注者的专业认知差异导致标注质量不均。为提高样本采集效率与质量，本文设计了自动/半自动结合标注方法。基本思路是基于已有样本数据训练深度学习模型进行自动解译，对自动解译结果进行精度评估并进行人机交互修正完善，利用影像的交互分割优化等算法显著提升其效率，通过合理分配不同程度的专业人员进行在线校验，最后将满足要求的样本补充至样本库。技术流程示意图如图 6所示。

图 6 自动/半自动结合标注

Fig. 6 Automatic/semi-automatic combined labelingtion

3.3 样本共享服务平台

针对大规模样本共享服务问题，本文设计了基于遥感解译样本开源共享平台，支持多维语义查询、统计分析、数据共享服务。遥感影像样本共享服务平台的总体框架如图 7所示，包括基础设施层、数据存储层、数据服务层和应用层。其中, 基础设施层包括分布式存储阵列、GPU集群、文件系统、数据库系统及网络环境等。以分布式弹性大规模存储阵列支撑全球范围海量遥感影像样本集的高吞吐和可扩展管理，以GPU集群支持深度学习模型计算和在线多并发访问快速响应需求。数据存储层支持多尺度多类型样本数据的存储、扩展、维护与版权保护。服务层支持遥感影像样本的多维语义查询和样本数据服务发布，对外提供具有互操作能力的数据访问服务接口。应用层允许用户进行开放注册并根据版权协议进行权限管理，在此基础上提供样本的录入、校验、多维语义查询、数据获取和可视化功能服务，并基于时空数据关联分析、样本综合统计分析、知识发现等数据挖掘模型为用户提供样本的在线分析与应用。

图 7 遥感影像样本共享服务平台总体框架

Fig. 7 The overall framework of the sample sharing service platform

4 结论

本文针对大规模遥感智能解译需求，分析了已有样本数据集的现状及存在的问题，提出了任务驱动的遥感解译样本库设计。本文依据所提出的方案，对已有的73个开源样本数据集进行了归一化处理、映射转换，构建了包含256万样本的数据库，涵盖了场景分类、目标检测、单要素/多要素分类、变化检测、三维多视角重建等多种遥感智能解译任务，以及多种遥感影像传感器类型(多光谱、高光谱、SAR、三维多视角)。

在前期工作基础上，搭建了遥感样本在线采集与共享服务平台，初步实现了网络协同样本采集、样本查询等功能。

下一步将不断扩充样本库，并加快完善样本采集与共享服务平台建设，支持全球范围的众包样本采集，实现样本在线校验和录入、多维语义查询和统计分析等功能，为基于机器学习的遥感影像智能解译提供有力支撑。

第一作者简介：龚健雅(1957—), 男, 博士, 教授, 中国科学院院士, 长期从事地理信息理论和摄影测量与遥感基础研究。