论文解读avod-net用于自动驾驶的聚合视图3d对象检测网络

一颗小树x 一颗小树x     2022-12-11     225

关键词:

前言

AVOD-Net融合了视觉图像激光雷达点云信息。AVOD-Net和MV3D-Net比较像,AVOD-Net算是MV3D-Net的加强版。该论文通过聚合不同视角的数据,实现了自动驾驶场景下3D物体的实时检测。

论文地址:Joint 3D Proposal Generation and Object Detection from View Aggregation

开源代码:https://github.com/kujason/avod

MV3D-Net博客:https://guo-pu.blog.csdn.net/article/details/119001476

目录

一、框架了解

二、提取特征

三、数据整合

四、3D Bounding Box的编码上添加了几何约束

五、模型效果


一、框架了解

先看下总体网络结构:(可以点击图片放大查看)

输入的数据:有二种,分别是点云俯视图和二维RGB图像。输出数据:类别标签、3D边界框。

相对于MV3D-Net的改进措施

  • 1)去掉了激光点云的前视图输入。
  • 2)在俯视图中去掉了强度信息。

去掉这两个信息仍然能取得号的效果,就说明俯视图和图像信息已经能够完整诠释三维环境了。

二、提取特征

先看一下AVOD-Net如何提取特征的。 

 它主要提取出二部分数据,分别是图像特征、点云俯视图特征,其中图像+点云俯视图融合特征,在数据整合起到作用。后面将这二种特征进行融合。

它使用了全分辨率特征,所以为了在整合时降低维度,先进性了1X1的卷积。

AVOD使用的是FPN,包含了encoder和decoder,它可以在保证特征图相对于输入是全分辨率的,而且还能结合底层细节信息和高层语义信息,因此能显著提高物体特别是小物体的检测效果。(对比:MV3D-Net 是使用的VGG16做特征提取。)

三、数据整合

再看看数据整合。

AVOD使用的是裁剪和调整(crop and resize)。

四、3D Bounding Box的编码上添加了几何约束

MV3D, Axis Aligned, AVOD三种不同的3D Bounding Box编码方式如下图所示,

  •  AVOD利用一个底面以及高度约束了3D Bounding Box的几何形状,即要求其为一个长方体。
  • MV3D只是给出了8个顶点,没有任何的几何约束关系。

此外,MV3D中8个顶点需要一个24维(3x8)的向量表示,而AVOD只需要一个10维(2x4+1+1)的向量即可,做到了很好的编码降维工作。

五、模型效果

与其他模型的对比:

KITTI上,AVOD目前(2018.7.23)名列前茅,在精度和速度上都表现较好,与MV3D, VoxelNetF-PointNet对比的结果如下表所示。

模型预测效果:

 本文参考:https://zhuanlan.zhihu.com/p/86340957https://zhuanlan.zhihu.com/p/40271319

论文地址:Joint 3D Proposal Generation and Object Detection from View Aggregation

开源代码:https://github.com/kujason/avod

本文只提供参考学习,谢谢。

论文解读mv3d-net用于自动驾驶的多视图3d目标检测网络

...,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View3DObjectDetectionNetworkforAutonomousDriving开源代码ÿ 查看详情

论文解读mv3d-net用于自动驾驶的多视图3d目标检测网络

...,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View3DObjectDetectionNetworkforAutonomousDriving开源代码ÿ 查看详情

论文解读smoke单目相机3d目标检测(cvpr2020)

...,也是基于这个模型改进的;于是令我产生了一些兴趣。论文名称:SMOKE:Single-StageMonocular3DObjectDetectionviaKeypointEstimation论文地址:https://arxiv.org/ 查看详情

论文阅读用于自动驾驶的高清地图生成技术(代码片段)

High-DefinitionMapGenerationTechnologiesforAutonomousDriving回顾了最近利用2D和3D地图生成的高清地图生成技术。介绍了高清地图的概念及其在自动驾驶中的作用,并对高清地图生成技术进行了详细概述。introduction高清地图包含自动驾驶所... 查看详情

ida-3d解读基于实例深度感知的自动驾驶立体视觉三维目标检测

摘要三维目标检测是自动驾驶和虚拟现实中重要的场景理解任务。基于激光雷达技术的方法具有高性能,但激光雷达昂贵。考虑更一般的场景,没有3d激光雷达数据的数据集,我们提出一个3d对象立体视觉检测的方法&#... 查看详情

自动驾驶激光点云3d目标检测voxelnet论文简述(代码片段)

...#xff0c;本文分析激光雷达视觉当中经典的算法模型VoxelNet。论文:VoxelNet:End-to-EndLearningforPointCloudBased3DObjectDetection这是2017年的论文出自苹果公司算法团队,这篇论文对于刚学习激光雷达目标检测的同学来讲非常有参考价 查看详情

长篇自动驾驶技术综述论文(下)

长篇自动驾驶技术综述论文(下)三维目标检测 鉴于经济性,可用性和研究的广泛性,几乎所有的算法都使用相机作为主要的感知方式。把相机应用在ADS中,限制条件除了前面讨论到的光照等因素外,还有一个问题就是目标... 查看详情

stereor-cnn解读基于立体r-cnn的自动驾驶三维目标检测

摘要本文充分利用立体图像中的稀疏、密集、语义和几何信息,提出了一种用于自动驾驶的三维目标检测方法。我们的方法,称为StereoR-CNN,扩展了FasterR-CNN用于立体输入,以同时检测和关联左右图像中的目标。我... 查看详情

自动驾驶激光点云3d目标检测pointpillar论文简述(代码片段)

之前有针对VoxelNet这篇论文做过简述,今天的主题是PointPillar。PointPillar是2019年提出来的模型,相比于之前的点云处理模型,它有3个要点:提出Pillar这个概念,将类PointNets模型能够以Pillar为基础单位学习点云特... 查看详情

cvpr2023|旷视研究院入选论文亮点解读

近日,CVPR2023论文接收结果出炉。近年来,CVPR的投稿数量持续增加,今年收到有效投稿9155篇,和CVPR2022相比增加12%,创历史新高。最终,大会收录论文2360篇,接收率为25.78%。本次,旷视研究院有13... 查看详情

论文解读sortdeep-sort多目标跟踪算法

前言基于视觉的目标跟踪在智能监控、动作与行为分析、自动驾驶等领域都有重要的应用。例如,在自动驾驶系统中,目标跟踪算法要对运动的车、行人、其他物体的运动进行跟踪,对它们的未来的位置、速度等信息作出预测。... 查看详情

论文解读+实践yolop全景驾驶感知同时处理三大视觉任务

...团队,在全景驾驶感知方面提出的模型,致敬开源精神。论文地址:https://arxiv.org/abs/2108.11250开源代码:https://github.com/hustvl/YOLOP目录 查看详情

ida-3d解读基于实例深度感知的自动驾驶立体视觉三维目标检测

摘要三维目标检测是自动驾驶和虚拟现实中重要的场景理解任务。基于激光雷达技术的方法具有高性能,但激光雷达昂贵。考虑更一般的场景,没有3d激光雷达数据的数据集,我们提出一个3d对象立体视觉检测的方法&#... 查看详情

论文解读sortdeep-sort多目标跟踪算法(代码片段)

前言基于视觉的目标跟踪在智能监控、动作与行为分析、自动驾驶等领域都有重要的应用。例如,在自动驾驶系统中,目标跟踪算法要对运动的车、行人、其他物体的运动进行跟踪,对它们的未来的位置、速度等信息... 查看详情

dagan论文解读

...模跨模态attention机制训练实验SOTA方法比较消融实验结论论文:《Depth-AwareGenerativeAdversarialNetworkforTalkingHeadVideoGeneration》github:https://github.com/harlanhong/CVPR2022-DaGAN解决问题现有问题:现有视频生成方案主要利用2D表征,人脸3D信... 查看详情

cvpr2019论文解读:单眼提升2d检测到6d姿势和度量形状

CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状ROI-10D:MonocularLiftingof2DDetectionto6DPoseandMetricShape论文链接地址:https://arxiv.org/pdf/1812.02781.pdf  摘要内容:本文提供了基于端到端单目3D目标检测和度量形状检索的深度学习... 查看详情

自动驾驶激光点云3d目标检测voxelnet论文简述(代码片段)

...#xff0c;本文分析激光雷达视觉当中经典的算法模型VoxelNet。论文:VoxelNet:End-to-EndLearningforPointCloudBased3DObjectDetection这是2017年的论文出自苹果公司算法团队,这篇论文对于刚学习激光雷达目标检测的同学来讲非常有参考价值... 查看详情

stereor-cnn解读基于立体r-cnn的自动驾驶三维目标检测

摘要本文充分利用立体图像中的稀疏、密集、语义和几何信息,提出了一种用于自动驾驶的三维目标检测方法。我们的方法,称为StereoR-CNN,扩展了FasterR-CNN用于立体输入,以同时检测和关联左右图像中的目标。我... 查看详情