RTM3D论文简读

网友投稿 227 2022-09-24

RTM3D论文简读

code1: ​​paper: ​​code2: ​​Detection Network​​

​​results​​​​Conclusion​​

摘要

在这项工作中,我们提出了一个高效和准确的单眼三维检测框架。大多数成功的三维探测器将投影约束从三维边界框带到二维框作为一个重要的组件。二维盒的四个边只提供了四个约束条件,由于二维检测器的误差较小,性能显著下降。与这些方法不同的是,我们的方法预测了图像空间中三维边界框的九个视角关键点,然后利用三维和二维视角的几何关系来恢复三维空间中的维度、位置和方向。在这种方法中,即使对关键点的估计噪声很大,也可以稳定地预测对象的特性,这使我们能够在较小的体系结构下获得快速的检测速度。训练我们的方法只使用对象的3D属性,而不需要外部网络或监督数据。我们的方法是第一个实时的单眼图像三维检测系统,同时在KITTI基准上取得了最先进的性能。

论文的贡献

在本文中,我们提出了一种高效、准确的单眼三维检测框架,该框架可用于三维检测而不依赖二维探测器的三维检测。该框架可分为两个主要部分,如图所示。1.首先,我们执行了一个完整完全卷积体系结构来预测9个二维关键点,它们是来自8个顶点和3D边界框中心点的投影点。这9个关键点提供了三维边界框上的18个几何约束。受CenterNet[47]的启发,我们对八个顶点与中心点之间的关系进行了建模,以解决关键点分组和顶点顺序问题。利用SIFT、SUFT等传统的关键点检测方法[26,1]计算了一个图像金字塔来解决标度不变问题。CenterNet也采用了类似的策略作为后处理步骤,以进一步提高检测精度,从而降低了推理速度。请注意,二维对象检测中的特征金字塔网络(FPN)[23]不适用于关键点检测网络,因为在小规模预测的情况下,相邻的关键点可能会重叠。我们提出了一种新的多尺度关键点检测金字塔来产生尺度空间响应。通过软加权金字塔,可以获得关键点的最终激活图。给定这9个投影点,下一步是尽量减少由对象的位置、维度和方向参数化的三维点视角上的重新投影误差。我们将重投影误差表示为se3空间中多元方程的形式,可以准确有效地生成检测结果。我们还讨论了不同的先验信息对我们的基于关键点的方法的影响,如维数、方向和距离。获取此信息的前提是不要增加太多的计算,以免影响最终的检测速度。为了将这些先验和重投影误差项建模为整体能量函数,以进一步改进三维估计。

我们将单目三维检测表示为关键点检测问题,并结合几何约束,更有效、更准确地生成三维对象的特性。我们提出了一种新的单阶段、多尺度的三维关键点检测网络,为多尺度目标提供了准确的项目点。我们提出了一个整体能量函数,可以共同优化先验和三维目标信息的整体能量函数。在KITTI基准的评估上,我们是第一个只使用图像的实时三维检测方法,在相同的运行时间下,在比较其他竞争对手时获得了更好的精度。

Method

在本节中。我们首先描述了关键点检测的总体架构。然后,我们详细介绍了如何从生成的关键点中找到3D车辆。

Keypoint Detection Network

Backbone.

为了在速度和准确性之间的权衡,我们使用两种不同的结构作为骨干:ResNet-18[13]和DLA-34[45]。所有模型都采用一个RGB图像I∈RW×H×3,并使用因子S=4对输入进行降采样。用于图像分类网络的ResNet-18和DLA-34构建,最大降样本因子为×32。我们通过三次双线性插值和1×1卷积层对瓶颈进行了三次上采样。在上采样层之前,我们将相应的低级特征图连接起来,同时添加一个1×1的卷积层以减少信道尺寸。经过三个上采样层后,通道分别为256、128、64。

Keypoint Feature Pyramid.

图像中的关键点的大小没有差异。因此,关键点检测不适合于使用特征金字塔网络(FPN)[23],它检测不同金字塔层的多尺度二维盒。我们提出了一种新的方法,即关键点特征金字塔网络(KFPN)来检测点向空间中的尺度不变关键点,如图所示。3.假设我们有F尺度特征图,我们首先将每个尺度f,1

Detection Head

检测头由三个基本组件和六个可选组件组成,可任意选择,以提高具有少量的计算消耗的三维检测的精度。受中心网[47]的启发,我们将一个关键点作为连接所有功能的主要中心。由于在截断的情况下,对象的三维投影点可能超过图像边界,因此将更适当地选择二维框的中心点。

results

Conclusion

本文提出了一种更快、更准确的针对自动驾驶场景的单目三维目标检测方法。我们将三维检测重新定义为关键点检测问题,并展示了如何利用关键点和几何约束来恢复三维边界盒。我们专门定制了用于三维检测的点检测网络,它可以仅使用图像输出三维盒的关键点和对象的其他先验信息。我们的几何模块在容易优化损失函数之前制定了这个问题。我们的方法生成了一个稳定和准确的三维边界框,而不包含独立的网络,额外的注释,同时实现了实时运行速度。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Ultra Fast Structure-aware Deep Lane Detection(ECCV)论文简读
下一篇:SocialMarketing:综艺植入下半场,品牌还能怎么玩?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~