导读 受众目标:
论文信息:
介绍: 该团队提出卷积空间传播网络(CSPN),简称CSPN,用于深度估计和立体匹配任务。CSPN通过递归卷积操作传播,卷积网络可以很好地学习相邻像素之间的关系。与空间传播网络(SPN)相比,CSPN在实际应用中要快2~5倍。本研究使用二维CSPN模组在网路中嵌入稀疏的深度样本,并应用三维卷积模组和空间金字塔共用模组。实验结果表明,这些模块有助于提高系统性能。在立体匹配任务中,该方法目前在2012年和2015年的KITTI基准数据集测试中排名第一。本文也只介绍了应用于立体匹配任务时的相关信息。下面将进一步介绍CSPN的网络结构和实验结果。 M2S_CSPN Network
可通过3D CSPN(彩色最佳视图)通过变换内核预测进行立体深度估计。 将CSPN应用于立体匹配任务时,一般采用类似PSMNet的网络结构。如上图所示,首先将立体图像对输入到具有共享权重的两个cnn中,生成相应的特征映射。空间池模块用于连接子区域的空间表示。其次,利用得到的两个特征映射构造4D代价体。最后,将其发送到3D模块进行视差回归。 与PSMNet相比,本文所做的主要改进是用本文提出的CSPF和3dcpn代替PSMNet中的空间池模块和3D模块。下图显示了替换的3D模块,其中下采样率写入每个小块的右上角。红色、绿色和蓝色箭头表示跳过连接。 我们的3D模块的详细信息(彩色最佳视图)。 下采样率w.r.t. 图像大小显示在每个块的右上角,例如4x表示要素图的大小为h4×w4,其中h×w是图像大小。 红色,绿色和蓝色箭头是跳过连接,表示在特定位置进行功能串联,与PSMNet相同
实验及结果
实验中使用的网络基础是PSMNet,采用相同的训练策略。具体如下: 采用Adam优化器,,; batch size=16,在8个Nvidia P40 GPU上进行训练; 训练时将图像裁剪为512*512大小; 首先在场景流数据集上训练10个阶段,学习率为0.001。后来,该模型针对KITTI立体声数据集进行了微调。共训练600个阶段,学习率由每200个阶段0.001下降20%。最后,只计算基蒂立体数据中具有真值的稀疏点。
共有三个数据集: 场景流、KITTI Stereo 2012和KITTI 2015,下面将简要介绍这些数据集。 场景流数据集是一个大规模的数据集,包含35454对经过训练的立体图像对和4370对经过测试的立体图像对,像素分辨率为960540,由不同的合成序列渲染而成。 KITTI Stereo 2012数据集是从移动的汽车上获取的街景数据集。它包含194个训练立体图像对和195个测试立体图像对。图像分辨率为1240*376。地面真值通过360度V elodyne HDL64。获得激光扫描仪。本文将训练数据集进一步划分为160个测试数据和34个验证数据,并以彩色图像作为输入。 与KITTI 2012相比,KITTI 2015包括200对训练立体声对和200对测试立体声对。分辨率与KITTI 2012相同,但包含动态场景。KITTI 2015数据集进一步划分为160个训练和40个经验证的立体声对。
不同的数据集有不同的评价指标。场景流的评估指数使用EPE(端点误差),即KITTI 2012和KITTI 2015使用错误像素的百分比进行评估。具体地,当像素的视差误差大于某一阈值t时,将其视为错误像素。然后计算出在输出Noc(非遮挡)区域和输出所有区域中错误像素的比例。对于KITTI 2012数据集,阈值可以是2、3、4、5,对于KITTI 2015数据集,阈值t为3,这比KITTI 2012更严格。此外,对立体对的左图像和右图像进行匹配评估。
基于场景流数据对网络模块进行了烧蚀研究,验证了网络模块的有效性
结论 在本文中,我们提出了一个有效的模块,即卷积空间传播网络(CSPN),用于两个深度估计任务,即深度完成和立体深度估计。CSPN可以与任何类型的深度估计神经网络共同学习,并且可以看作是线性扩散过程,可以保证模型的稳定性。与以前的空间传播网络相比,CSPN的效率更高(在实践中,尤其是图像较大时,速度要快2-5倍),并且在深度完成方面更准确(提高了30%以上)。 论文链接:https:///pdf/1810.02695.pdf |
|
来自: taotao_2016 > 《几何》