ICCV2021 SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation

自遮挡下的6dof位姿估计。 从单个RGB图像直接回归杂乱环境中对象姿势(即3D旋转和平移)的所有6个自由度(6DoF)是一个具有挑战性的问题。而端到端的方法最近有所改进。在高效率下显示了有希望的结果,但在姿态精度方面,与基于PnP/RANSACP的精细方法相比,它们仍然较差。在这项工作中,我们通过一种新的关于自遮挡的推理来解决这一缺点,以便为三维对象建立一个两层表示,这大大提高了端到端6D姿势估计的准确性。我们的框架,命名为SO Pose,以单个RGB图像作为输入,并分别生成2D-3D对应作为自遮挡信息利用共享编码器和两个独立解码器。然后将两个输出融合,以直接回归6DOF姿态参数。结合对齐对应、自遮挡和6D姿势的跨层一致性,我们可以进一步提高准确性和鲁棒性,在各种具有挑战性的数据集上性能sota.

img

CVPR2021 StablePose: Learning 6D Object Poses from Geometrically Stable Patches

作者的思路来源于16年的一篇文章,将目前效果较好的方法、框架和历史方法融合,实现了较好的效果 第一步是检测对象并提取面片。这里可以使用任何基于RGB的对象检测方法。我们采用Pix2Pose中提出的检测器,该检测器也用于最近的许多姿势估计工作。然后,我们根据检测到的对象mask裁剪深度图像,并将裁剪后的深度图像投影到三维点云中。对于每个对象点云,论文提取平面面片和圆柱形面片。 许多现有方法可用于从点云提取面片。作者通过实验发现,CAPE对于我们的数据模式(即,从具有遮挡的对象的单视图深度图像转换而来的点云)是快速且相对鲁棒的。 由于单视图的信息不够全面,所以对所有面片进行姿态估计效果并不好。所以采用基于三面片的深度学习姿态估计。 流程:给定一个对象点云,论文枚举所有三元组作为候选面片组。然后分析各组的稳定性。论文将稳定性度量通过阈值的组收集到几何稳定的面片组。然后,将稳定组中的面片与三维模型上标准姿势的对应面片对齐。 将每个稳定组输入深度网络,以预测相应对象的6D姿势,并通过平均所有稳定组获得的6D姿势来获得最终姿势,权重是组的稳定性度量。论文提出了一种深度神经网络,它可以预测6D对象姿势,而不依赖于面片对应。 对于实例级位姿估计,说实话效果并不好。但是类别级位姿估计的提升比较明显,充分利用了几何信息

img

CVPR2021, FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation

简介部分:使用RGBD图像,融合RGB图像和深度图,是对DenseFusion的改进。改进了融合模块,融合应用于每个编码和解码层。 还提出了一种3D关键点选择方法,简化了关键点定位 作者认为先在RGB图像出估计初始位姿,再通过点云ICP(Posecnn)或multi-view hypothesis verification来优化非常耗时,而且使用不了端到端的RGB图像优化。 将RGB和点云分割开在某些情况下性能不佳,比如具有相似外观或具有反射表面的物体 孤立的CNN和PCN对这种情况都识别不出太好的结果,但是融合方法应该1+1>2,而不是1+1=2 提出一种全流双向融合网络,在每个编码层和解码层上执行融合,RGB中的外观信息和点云中的几何信息可以作为特征提取过程中的补充信息,相似图像的不同物体可以通过点云信息分辨,物体反射表面引起的深度缺失可以通过图像分辨。 因此,必须分别从RGB图像和点云进行特征提取,作者提出的融合机制则弥补了信息鸿沟 pipline沿用PVN3D,但是PVN3D仅考虑了3d keypoints之间的距离,一些选定的关键点可能会出现在不显著的区域,如没有显著纹理的光滑表面,很难去定位 PVN3D第一次使用key points来进行6D pose estimation 作者同时考虑了对象纹理和几何信息,提出了新的3d keypoints方法,便于网络定位,提高姿态估计性能。 (图1:文中提到的文献综述,图2:和PVN3D的对比,图3:论文pipline)

img

img

img

CVPR2022 FS6D: Few-Shot 6D Pose Estimation of Novel Objects

本文提出一个少样本开集 6D 位姿估计问题:对于没见过的新物品,已训练的网络模型只需依据几张 RGBD 图像就能在新测试场景中估算出该物品的 6D 位姿,而无需依赖物品的高精度 CAD 模型以及额外的训练。为了提高模型的泛化性,提出一个具有丰富纹理和形态多样性的大型仿真数据集用于网络预训练。同时,讨论求解该问题的可行算法并提出一个稠密原型匹配网络用于 6D 位姿估计。在公开数据集上,该方法大幅领先于其他可行算法。

最后,讨论解决该问题的可行算法并建立基准来促进未来该方向的研究。

img

$\mathbf{R}_{6 \mathrm{~d}}=\left[\mathbf{R}_{\cdot 1} \mid \mathbf{R}_{\cdot 2}\right]$
$\mathbf{R}_{6 \mathrm{~d}}=\left[\mathbf{r}_1 \mid \mathbf{r}_2\right]$