来自百度团队的KITTI立体匹配霸榜论文详解

taotao_2016 2019-12-13

展开全文

导读

受众目标：

对立体匹配任务感兴趣并有一定深度学习基础的相关研究者。

论文信息：

名称：“Learning Depth with Convolutional Spatial Propagation Network”
作者：来自百度团队。”Cheng Xinjing，Peng Wang和Ruigang Y ang，IEEE高级成员。

介绍：

该团队提出卷积空间传播网络（CSPN），简称CSPN，用于深度估计和立体匹配任务。CSPN通过递归卷积操作传播，卷积网络可以很好地学习相邻像素之间的关系。与空间传播网络（SPN）相比，CSPN在实际应用中要快2～5倍。本研究使用二维CSPN模组在网路中嵌入稀疏的深度样本，并应用三维卷积模组和空间金字塔共用模组。实验结果表明，这些模块有助于提高系统性能。在立体匹配任务中，该方法目前在2012年和2015年的KITTI基准数据集测试中排名第一。本文也只介绍了应用于立体匹配任务时的相关信息。下面将进一步介绍CSPN的网络结构和实验结果。

M2S_CSPN Network

整体网络架构图

可通过3D CSPN（彩色最佳视图）通过变换内核预测进行立体深度估计。

来自百度团队的KITTI立体匹配霸榜论文详解

将CSPN应用于立体匹配任务时，一般采用类似PSMNet的网络结构。如上图所示，首先将立体图像对输入到具有共享权重的两个cnn中，生成相应的特征映射。空间池模块用于连接子区域的空间表示。其次，利用得到的两个特征映射构造4D代价体。最后，将其发送到3D模块进行视差回归。

与PSMNet相比，本文所做的主要改进是用本文提出的CSPF和3dcpn代替PSMNet中的空间池模块和3D模块。下图显示了替换的3D模块，其中下采样率写入每个小块的右上角。红色、绿色和蓝色箭头表示跳过连接。

来自百度团队的KITTI立体匹配霸榜论文详解

我们的3D模块的详细信息（彩色最佳视图）。下采样率w.r.t. 图像大小显示在每个块的右上角，例如4x表示要素图的大小为h4×w4，其中h×w是图像大小。红色，绿色和蓝色箭头是跳过连接，表示在特定位置进行功能串联，与PSMNet相同

模块简介

CSPN模块及其扩展
作为网络的目标，在引入CSPN模块之前，首先引入所谓的亲和矩阵。汉语可以翻译成亲和力矩阵、相似性矩阵或相似性矩阵，用来确定空间中的两点是相似的性矩阵。在计算机视觉中，它指的是一个加权图，它把每个像素作为一个点，用一条边连接两个点。其中，两边的权重反映了不同计算机任务的相似性。下图显示了一个4点5边的无向图。每条边的权重为1。

来自百度团队的KITTI立体匹配霸榜论文详解

可以用4×5的亲和矩阵来描述，它表示点和边之间的关系。

来自百度团队的KITTI立体匹配霸榜论文详解

（a）SPN，（b）2D CPSN和（c）3D CSPN中的传播过程之间的比较。注意：对于3D CSPN，虚线体积表示4D体积中特征通道的一个切片，尺寸为d×h×w×c
上下文金字塔模块（context pyramid module）

来自百度团队的KITTI立体匹配霸榜论文详解

上下文金字塔模块的不同结构。（a）PSMNet应用的空间金字塔池（SPP）模块[89]（b）我们的卷积SPP（CSPP）模块使用具有不同内核大小和跨度的2D CSPN。（c）使用3D CSPN的卷积特征融合（CFF）。（d）我们最终的组合SPP模块，即卷积空间金字塔融合（CSPF）

实验及结果

训练细节

实验中使用的网络基础是PSMNet，采用相同的训练策略。具体如下：

采用Adam优化器，,；

batch size=16，在8个Nvidia P40 GPU上进行训练；

训练时将图像裁剪为512*512大小；

首先在场景流数据集上训练10个阶段，学习率为0.001。后来，该模型针对KITTI立体声数据集进行了微调。共训练600个阶段，学习率由每200个阶段0.001下降20%。最后，只计算基蒂立体数据中具有真值的稀疏点。

数据集：

共有三个数据集：

场景流、KITTI Stereo 2012和KITTI 2015，下面将简要介绍这些数据集。

场景流数据集是一个大规模的数据集，包含35454对经过训练的立体图像对和4370对经过测试的立体图像对，像素分辨率为960540，由不同的合成序列渲染而成。

KITTI Stereo 2012数据集是从移动的汽车上获取的街景数据集。它包含194个训练立体图像对和195个测试立体图像对。图像分辨率为1240*376。地面真值通过360度V elodyne HDL64。获得激光扫描仪。本文将训练数据集进一步划分为160个测试数据和34个验证数据，并以彩色图像作为输入。

与KITTI 2012相比，KITTI 2015包括200对训练立体声对和200对测试立体声对。分辨率与KITTI 2012相同，但包含动态场景。KITTI 2015数据集进一步划分为160个训练和40个经验证的立体声对。

评价指标

不同的数据集有不同的评价指标。场景流的评估指数使用EPE（端点误差），即KITTI 2012和KITTI 2015使用错误像素的百分比进行评估。具体地，当像素的视差误差大于某一阈值t时，将其视为错误像素。然后计算出在输出Noc（非遮挡）区域和输出所有区域中错误像素的比例。对于KITTI 2012数据集，阈值可以是2、3、4、5，对于KITTI 2015数据集，阈值t为3，这比KITTI 2012更严格。此外，对立体对的左图像和右图像进行匹配评估。

消融研究

基于场景流数据对网络模块进行了烧蚀研究，验证了网络模块的有效性

3D模块测试结果
为了证明3D-CSPN相对于2D-CSPN的优势，首先使用2D-CSPN进行深度细化，将EPE从1.119降低到0.992。用3D-CSPN代替2D-CSPN后，EPE进一步降低到0.971。上表表明，这两个3D CSPN将取得最好的效果。最后一行是将3D模块与增强的ASPP模块组合时，将误差降低到基线的30%左右。

来自百度团队的KITTI立体匹配霸榜论文详解

CSPF模块测试结果

来自百度团队的KITTI立体匹配霸榜论文详解

评估用于增强SPP模块的不同组件。对于所有模块都被替换的情况，采用“3dcpn-ds”作为3D模块，ds是视差空间的缩写CSPP“是指在空间池网格上使用2D CSPN，将EPE误差从0.971降低到0.954。另一种具有扩展卷积的空间池策略，即atrus-SPP，简称ASPP，具有与SPP相似的效果。如“ACSPP（atrus-CSPP）”行所示，当2D-CSPN与ASPP结合使用时，误差比SPP（0.954）小得多（0.902）。在“卷积特征融合”（CFF）中，利用所提出的融合策略对空间金字塔所汇集的特征进行融合，EPE误差从0.954降低到0.905。最后，将ACSPP与CFF（即ACSPF）相结合，得到了最佳的性能。下图是从场景流数据集进行网络训练后在KITTI数据集上验证的输出结果的一部分。可以看出，预测结果与真实值非常接近。网络在学习并传播亲和矩阵后，更好地利用了上下文信息，显著提高了效果。

来自百度团队的KITTI立体匹配霸榜论文详解

通过在模型中学习亲和度矩阵并将其传播以更好地利用上下文，我们可以应对更具挑战性的案例。显着改善的区域以绿色虚线框突出显示（彩色最佳视图）。
网络在Scene Flow， KITTI 2012和KITTI 2015数据集上的结果：

来自百度团队的KITTI立体匹配霸榜论文详解

结论

在本文中，我们提出了一个有效的模块，即卷积空间传播网络（CSPN），用于两个深度估计任务，即深度完成和立体深度估计。CSPN可以与任何类型的深度估计神经网络共同学习，并且可以看作是线性扩散过程，可以保证模型的稳定性。与以前的空间传播网络相比，CSPN的效率更高（在实践中，尤其是图像较大时，速度要快2-5倍），并且在深度完成方面更准确（提高了30％以上）。

论文链接：https:///pdf/1810.02695.pdf