分享

【泡泡点云时空】基于3D地图的单张图像定位优化

 taotao_2016 2020-09-07

泡泡点云时空,带你精读点云领域顶级会议文章

标题:3D map-guided single indoor image localization refinement

作者:Qing Li, Jiasong Zhu , Jun Liu, Rui Cao , Hao Fu , Jonathan M. Garibaldi , Qingquan Li, Bozhi Liu , Guoping Qiu,

来源:ISPRS 2020

编译:Lionheart

审核:王志勇

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

在室内场景中,图像定位是基于GPS定位方法的重要补充,传统方法依赖图像检索或者运动恢复结构技术,定位精度差,甚至在弱纹理或者重复室内场景中失败,随着深度传感器的发展,在室内场景中3D无纹理地图能够容易的构建,如何有效利用3D无纹理地图来提升单张图像定位精度是一个尚未解决的问题,这篇文章中,我们提出了一个新的策略来通过从单个影像中估计3D几何信息来完成定位,其中3D几何信息来自深度神经网络方法,用于恢复影像初始6自由度。相较于之前的方法,通过多视图图像或视频来生成稀疏点云,我们的方法能够从单张图像中生产密集点云,我们通过评估输入图像的深度地图并执行3D空间匹配来完成姿态恢复。我们提出了一种新颖使用3D地图以及RGB-D图像的深度估计方法,具体的使用RGB图像来评估深度图,使用3D地图引导深度估计,我们将展示RGB图像在室内外场景中深度图估计的出色表现,我们同样展示使用深度图估计方法进行单张室内图像定位能够显著的提升定位和定向精度。

补充阅读

直接进行2D图像和3D模型进行匹配是非常有挑战性的一件事情,因为图像几何信息相较于3D模型存在歧义性,解决策略有二:

1)在2D空间中匹配

这种方法类似与图像索引,即在2D和3D空间中使用SIFT特征索引匹配,使用PNP的方法来进行姿态恢复。

2)在3D空间中匹配

重要的是估计3D图像的深度信息,生成3D点云匹配3D地图,传统的方法使用sfm来评估图像的深度,输入是多张图像,但在弱纹理场景失效,而且深度估计需要消耗很长的时间。

论文主要方法

  图1基于3D地图的图像定位流程,包括四个阶段(1)初始姿态估计(2)局部地图定位(3)点云生成(4)几何匹配

1)姿态初始估计

初始姿态估计是方法流程中的一个重要步骤,方法从全部的3D地图中确定初始的局部3D地图,ICP算法严重依赖获得好的结果。姿态初始估计也是基于学习的方法,利用图像在特征空间和标记空间中的相对几何特征。网络由两个共享加权的ResNet50、两个全局位姿回归单元和一个相对位姿回归单元组成,它们由三个完全连接的层组成。结合全局位姿损失函数设计了三种损失函数来训练网络。

2)局部3D地图提取

全局地图包含大量的点,与全局地图进行匹配影响配准效率,为了保证ICP配准效率与准确性,基于初始姿态估计结果来提取局部3D地图。

3)点云生成

使用两步方法来生成RGB图像点云,首先使用深度学习网络生成深度图进而转换成点云,第二步基于密集分布策略来删除不正确的点,第二步对六自由度估计至关重要,错误的深度估计严重影像3D几何配准。

4)基于ICP配准的几何匹配

给定局部3D地图和从单张图像中预测的点云,使用ICP方法配准他们,从而获得坐标系下绝对位置和姿态。

主要实验

图 2 NYU-Depth-v2数据集上深度估计结果对比展示

图3 深度估计方法定量对比结果

图 4 基于CNN的定位结果定量化对比

结论与讨论

我们还在7个场景数据集上评估了定位方法,实验结果证明了方法在提高定位精度方面的有效性。原则上,我们的方法同样适用于单一的户外图像定位。我们已经在户外数据集上测试了算法,由于难以获得精确的三维地图,性能不如室内图像。我们未来的工作将集中于将这种方法应用到户外场景中。大内存消耗是该方法的一个问题,因为它依赖于场景。ICP在配准花费了大量的时间。在我们的实验中,最初的姿态估计几乎不需要花费时间,大约需要0.01秒来估计姿态。从局部地图生成初始深度图的平均成本约为0.5。深度图细化需要0.02秒。优化定位花费了大量的时间,这取决于ICP的迭代次数。时间范围从0.1到0.7秒。

Abstract

Image localization is an important supplement to GPS-based methods, especially in indoor scenes. Traditional methods depending on image retrieval or structure from motion (SfM) techniques either suffer from low accuracy or even fail to work due to the texture-less or repetitive indoor surfaces. With the development of range sensors, 3D colourless maps are easily constructed in indoor scenes. How to utilize such a 3D colourless map to improve single image localization performance is a timely but unsolved research problem. In this paper, we present a new approach to addressing this problem by inferring the 3D geometry from a single image with an initial 6DOF pose estimated by a neural network based method. In contrast to previous methods that rely multiple overlapping images or videos to generate sparse point clouds, our new approach can produce dense point cloud from only a single image. We achieve this through estimating the depth map of the input image and performing geometry matching in the 3D space. We have developed a novel depth estimation method by utilizing both the 3D map and RGB images where we use the RGB image to estimate a dense depth map and use the 3D map to guide the depth estimation. We will show that our new method significantly outperforms current RGB image based depth estimation methods for both indoor and outdoor datasets. We also show that utilizing the depth map predicted by the new method for single indoor image localization can improve both position and orientation localization accuracy over state-of-the-art methods.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多