【导读】显著性目标检测(Salient Object Detection)最近几年成了研究热点,每年计算机视觉三大会议(ICCV, CVPR, ECCV)上的相关的文章不少,这篇新出综述首次以深度学习技术为核心对SOD进行的全面综述。作者首先从网络架构、监督级别等多个不同的角度对基于深度学习的显著性目标检测(SOD)模型进行仔细的回顾和组织。然后,总结了流行的SOD数据集和评估标准,并编写了一个覆盖主要SOD方法的全面性能的基准。最后,讨论了显著性目标检测(SOD)存在的一些问题和挑战,并指出了今后可能的研究方向。并且讨论相关数据集和源代码也将会Open。 题目:Salient Object Detection in the Deep Learning Era: An In-Depth Survey 作者:Wenguan Wang, Qiuxia Lai, Huazhu Fu, Jianbing Shen, Haibin Ling 【摘要】图像显著性目标检测(SOD)作为计算机视觉中的一个重要问题,近年来受到越来越多研究者的关注。毫无疑问,显著性目标检测(SOD)的最新进展主要是由基于深度学习的解决方案(称为深度SOD)主导的,并反映在数百篇已发表的论文中。为了加深对深度SOD的理解,本文从算法分类到未解决的开放问题等各个方面进行了全面的调研。特别地,我们首先从网络架构、监督级别、学习范式和目标/实例级别检测等不同角度回顾了深度显著性目标检测(SOD)算法。然后,我们总结现有的SOD评估数据集和指标。然后,在前人工作的基础上,仔细编制了SOD方法的基准测试结果,并对比较结果进行了详细的分析。此外,我们通过构造一个新的具有丰富特征标注的显著性目标检测(SOD)数据集,研究了不同特征下SOD算法的性能,这在以前的研究中还很少涉及。我们首次在该领域进一步分析了深层SOD模型的鲁棒性和可移植性。我们还研究了输入扰动的影响,以及现有SOD数据集的泛化和hardness硬度。最后,讨论了显著性目标检测(SOD)存在的一些问题和挑战,并指出了今后可能的研究方向。所有显著性预测图、我们构建的带标注的数据集和用于评估的代码都可以在https://github.com/wenguanwang/SODsurvey上获得。 参考链接: https:///abs/1904.09146 代码链接: https://github.com/wenguanwang/SODsurvey 请关注专知公众号(点击上方蓝色专知关注) 后台回复“显著性目标检测综述” 就可以获取最新论文的下载链接~ 引言 显著性目标检测(SOD)是为了突出图像中显著的目标区域。SOD不同于起源于认知和心理学研究领域的凝视点预测(FP),它被广泛应用于不同领域的应用。在计算机视觉中,SOD的采样应用包括图像理解[1]、[2]、图像描述生成(image captioning)[3]-[5]、目标检测[6]、[7],无监督视频目标分割[8]、[9],语义分割[10]-[12],行人重识别[13]、[14]等。在计算机图形学中,SOD被广泛应用于非真实感渲染[15]、[16]、图像自动裁剪[17]、图像重定向[18]、[19]、视频摘要[20]、[21]等任务。在机器人领域的示例应用,如人机交互[22]、[23]和目标发现[24]、[25]的场景理解也受益于SOD。 近年来,随着深度学习技术的复兴,显著性目标检测(SOD)得到了显著的改善,这要归功于强大的表示学习方法。自2015年首次推出[26]-[28]以来,基于深度学习的SOD(或称深度SOD)算法很快就显示出优于传统解决方案的性能,并一直占据各种基准测试排行榜的榜首。另一方面,已经有数百篇关于深度SOD的研究论文发表,这使得它对于有效地了解当前的技术水平变得非常重要。 在本文中,作者提供了深度学习时代的显著性目标检测的全面深入调查。综述旨在全面涵盖深度SOD和相关问题的各个方面,从算法分类到未解决的开放问题。除了对现有的SOD方法和数据集进行分类研究外,还研究了一些重要的、但在很大程度上尚未得到充分研究的问题,如SOD中特征的影响,以及SOD模型的鲁棒性和可移植性。对于这些新颖的研究,作者构建了一个新的数据集和标注,并在前人研究的基础上推导出baselines。所有显著性预测图、构建的带标注的数据集和用于评估的代码都可以在https://github.com/wenguanwang/SODsurvey上获得。 图1 显著性目标检测(SOD)的简要年表。最早的SOD模型可以追溯到Liu et al. [29]和Achanta et al. [30]。2015年,SOD模型首次采用深度学习技术。有关更详细的描述,请参见原文。 表1 总结之前的工作。 在本文中,作者的贡献总结如下: 从多个角度对深度SOD模型进行系统回顾。根据网络架构、监督级别、学习范式等对现有的深度SOD模型进行分类和总结。所提出的分类旨在帮助研究人员更深入地了解SOD在深度学习时代的关键特征。 一种基于属性特征的深度SOD模型性能评价方法。并提供了考虑对象类别、场景类别和挑战因素的带标注的属性特征。在此基础上,对六种常用的SOD模型的性能进行了评估,并讨论了这些属性特征对不同算法的影响以及深度学习技术带来的改进。 关于输入扰动影响的讨论。研究了不同类型的图像扰动对六种典型SOD算法的影响。这项研究有望为噪音频繁出现的实际应用提供有用的建议。 首次对SOD模型进行对抗攻击分析。在诸如识别这样的典型任务中,DNA被证明非常容易受到视觉上难以察觉的adversarial attacks,尽管这种attack如何影响SOD模型仍未被研究。文章为这一问题的首次研究提供了精心设计baseline attacks和评估,这可以作为未来研究深度SOD模型的鲁棒性和可移植性的baseline。 跨数据集综合研究。SOD数据集的采集往往带有一定的偏差[41],因此,采用代表性的基线模型对现有的SOD数据集进行跨数据集泛化研究。 对未决问题和未来方向的概述。文章也深入研究了模型设计、数据集收集、SOD与其他主题的关系等几个基本问题,为今后的研究指明了方向。 表2 常用SOD方法综述。 图2。过去SOD模型的分类。(a)基于MLP方法; (b)-(f)基于FCN的方法,主要使用(b) single-stream网络、(c) multi-stream网络、(d) side-out fusion网络、(e) bottom-up/top-down网络和(f) branch网络架构。(g)基于混合网络的方法。 表3 统计流行的SOD数据集。 表4 在6个著名数据集上对29个最先进的深度SOD模型和3个性能最好的经典SOD方法的基准测试结果。 图4 从6个SOD数据集中随机选取图像作为混合基准的样本图像。显著的区域被一致地突出显示。列出了相应的属性。有关更详细的描述,请参见5.2节。 表7 基于F-measure的上下100幅图像属性统计。(.)表示具有特定属性的图像的百分比。ND-avg表示三种最优启发式模型的平均结果:HS[34]、DRFI[48]和wCtr[35]。D-avg表示三个表现最好的深度模型的平均结果:DGRL[88]、PAGR[89]和PiCANet[39]。(两个最大的变化,红色为正,蓝色为负;) 结论 本文是首次以深度学习技术为核心对SOD进行的全面综述。作者首先从网络架构、监督级别等多个不同的角度对基于深度学习的显著性目标检测(SOD)模型进行仔细的回顾和组织。然后,总结了流行的SOD数据集和评估标准,并编写了一个覆盖主要SOD方法的全面性能的基准。 所有显著性预测图、我们构建的数据集、标注和用于评估的代码都将会Open。由于深度学习技术的惊人发展,SOD取得了显著的进步,但仍有很大的改进空间。我们期望这项调查将提供一种有效的方式来了解SOD的现状,更重要的是,可以为未来的SOD探索提供见解。 |
|
来自: LibraryPKU > 《机器学习》