正文

cvpr2021商汤自动驾驶！详述面向量产的3d目标与车道线检测

人工智能博士  人工智能博士  2023-02-04  177

关键词：

本文笔记来源：商汤科技高级研究员李弘扬的公开课

大佬讲的公开课，受益匪浅，值得学习，作为一次记录

1. 1 团队介绍

商汤科技自动驾驶团队依托公司为背景，以 SenseParrots 作为基础平台，进行超大规模的网络学习；在自动驾驶的核心技术方面，从视觉感知、激光雷达感知、多传感器融合等多方面持续发力；在产品应用的层面上，团队在车路协同、V2X 等方面都有不同级别和维度的项目在持续推进当中。团队的研究分为两个维度：L4 级别自动驾驶的落地和从 L0 到 L2 级别辅助驾驶的落地。

1.2 自动驾驶算法流程概述

Source from Apollo; revised

首先介绍自动驾驶在感知算法层面的流程图，数据处理模块是非常重要和关键的模块，其中包括大规模数据采集，车道线上传以及自动标注等过程。Image signal Processing（ISP）模块用于调节性噪比、白平衡、颜色通道等成像质量方面的内容。Network training & Optimization 用于 Object detection 、Lane detection 相关的工作。自动驾驶是一个非常复杂的系统，需要多传感器的融合，比如需要结合车道线的检测结果与自车信息进行在线标定，再结合车辆自身的 GPS、惯导等信息，动态地来输出车身位姿等 3D Geometry。随后将最终的车道线与目标检测结果输入到决策规划控制模块。

本次课程主要介绍 Object Detection 和 Lane Detection，包括在单目和 3D 两个 setting 下的工作的介绍。

Part 2 3D 物体检测

2.1 背景介绍

3D 目标检测在整个自动驾驶的 Pipeline 里是非常重要的一环，轨迹预测、意图判断、报警、规划控制等环节需要有 3D 信息作为输入源。其中一种检测方案，是直接使用 Lidar、Radar 等带有 3D 信息的传感器，或者使用 Camera，通过网络学习 2D 到 3D 的映射关系。Camera 所需的配置比较简单，成本低；在实际的工程化落地的过程当中，在雨雪或雾霾天气下，Camera 的鲁棒性要更高，且检测距离更远，30 fov 的相机可以达到 300 米。

有关 3D 检测任务的 paper 大致可以分成两类。第一类是 Pseudo-Lidar 的方法，通过 image 的 depth map 和对应的 image 的信息，投影到世界坐标系下，再套一个 3D 点云检测的 Pipeline，就可以进行预测。这种方法的优势是受内外参影响比较小，在 BEV 视角检测可以缓解目标远近尺寸不一致的问题，且朝向回归更加直观。第二类是直接通过 image 进行回归，对图片做预处理和 feature 提取后得到中间结果，利用这些结果做网络的 forward，得到最终的 3D 结果。此种方案更加受欢迎，且耗时较小。

在实际应用中，3D 检测任务存在一些问题，例如 Mono3D 模型对内外参依赖严重，截断、遮挡目标的检测性能下降明显、远距离小目标检测性能下降明显等。

从这些问题出发，下面将介绍本团队的一些研究工作。

2.2 Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

本工作的出发点在于，目前 3D 物体检测对朝向的预测不太准确，希望能够做一些额外的优化。其次希望不直接去回归 3D 检测框，而是利用中间的结果，对中间结果做一些约束，再通过 Geometry 的变化得到 3D 信息。

本工作的方案分成两部分。上支路预测定位信息，即 location；下支路对单个目标预测关键点的 heatmap，location，输出局部朝向信息。将局部预测结果投回到全局空间，输出最终的 3D 检测结果。

实验结果表明，性能得到了明显的提高，并且可以较好地嵌入 M3D-RPN 网络。且不同距离下的误差较为稳定。

2.3 Exploring Intermediate Representation for Monocular Vehicle Pose Estimation

这项工作主要解决外参变化的影响。车辆行驶中的颠簸会引起外参的变化，导致 3D 检测的深度预测不太准。这种任务需要额外的分支去预测外参，利用估算出来的相机外参把 Backbone 提出来的 feature 变化到同一个视角下，对同一视角的 feature 做 2D 检测和 3D 检测回归。

实验结果表明，在不同视角下获得的效果比较明显，尤其在颠簸路段，可以使稳定性获得较大提升。

2.4 总结

● 增加多种图像平面的检测点，用于辅助提升 3D 检测的性能

● 增加 2D 和 3D 的一致性约束，有助于模型性能提升

● 深度信息对 3D 目标检测性能提升明显，对截断目标也有一定帮助

● BEV 视角下的 3D 检测能将任务简化，对远近目标不一致问题又较大的优化

● 利用模型估算相机外参数，可以提升模型的泛化性能

Part 3 3D车道线检测

3.1 问题介绍与动机

车道线检测是从图像分割开始的，但由于在实际控制规划等后续模块中，需要在世界坐标系下，所以车道线检测有以下几个步骤：图像平面的车道线检测、投影到 (水平) 地面 (IPM, inverse perspective mapping)、根据车道线模型进行拟合等后处理。

但是这种方法存在一定的问题。如果用单目去做车道线检测，不依托别的模块，比如说在线标定等，车道线会在 BEV 下出现非常严重的抖动，且水平路面假设在复杂场景 (上下坡等) 不成立。学术数据集 (CULane/TuSimple等) 在线型/路沿等 attribute 上的缺失，与量产应用存在差异。

3.2 现有工作介绍

AAAI 2018 https://arxiv.org/abs/2103.12040

In ArXiv https://arxiv.org/abs/1712.06080

从 2D 的经典的方法，例如 Special CNN 开始考虑，基于分割的任务去做 multi class 的分割，预测四条车道线。这个方法非常经典，但也有些不足，如固定的数量多车道线、需要聚类等后处理、模型比较大等。

一些 SOTA 的方法，如 LaneAF 引入了 Affinity Fields 的概念，打破了固定数量的限制。另外还有一些 Row-wise 的方法，其中比较代表性的是 CondLaneNet，这是阿里的一个工作，利用 conditional convolution，实现了更精细的车道线检测，并且引入了 Recurrent instance module 用于解决车道线分叉场景。

在 Anchor based 的 LaneATT 中，用一条线作为 anchor，并且在整个图片的左右、下面设置了上千个 anchor，对车道线关于 anchor 的 offset 进行回归，在车道线检测方面提升了很多点。

在3D车道线检测中具有代表性的是 3D-LaneNet 和 Gen-LaneNet。

3D-LaneNet 是一个一阶段模型，采用了 Anchor Based 的方法；Gen-LaneNet 是基于 3D-LaneNet 的提升，它是一个二阶段模型。第一阶段首先对 2D 层面进行图像分割，然后利用外参的真值将分割的图像投影到 virtual top view，最终预测得到 3D 下的结果。

3.3 未来可延伸方向讨论

在模型方面：

● Learning-based Online Calibration

● Incorporating Temporal Info

● Take-aways from 2D Lane Detection

● Take-aways from Depth Estimation, Object Detection, Multi-task learning

在数据集方面：

● Real world 3D Evaluation Metrics

● AP/F1 in different x/y

● Category/type:虚/实/黄/白

● Others:路沿/Stopline等

Part 4 实际量产方面对感知模块的需求和思考

在学术界中，以自动驾驶为例，需要检测图像里面所有的物体，mAP 越高越好，但在工业界，我们只关心 CIPO（危险目标），且泛化能力一定要强，并且需要考虑算力与性能的 trade off。

从纯学术技术到量产落地：工业界考量因素

● Philosophy 1: 相对自车，更关心前方物体和左右车道线，要求性能 maximize in all circumstances

● Philosophy 2: 相比bounding box，更关心3D空间下(x,y,z)的物体间位置关系，即物体位置(深度)、速度、加速度、轨迹

● Philosophy 3: 性能很重要，同时关心模型在某款芯片上部署时的效率问题;希望多任务学习，最大化利用芯片资源

● Philosophy 4: 大规模数据采集、处理、部署

Part 5 Q&A

1. 请问多任务方案是怎么做的？

多任务方案大致有两个派别，一个是从 optimization 的角度算 loss，另一个是改网络的 architecture。多任务学习最重要的就是 task A 和 task B，同时学的时候能不能互相帮助，甚至带来提升。前提是这两个任务要比较像，例如 tracking 和 detection 是前后模块，有高度绑定的关系，可以互相来提升。或者引入一个额外的任务，其中包含 feature 或者 domain knowledge，帮助 task A 和 task B 同时提升。

2. 前向运动 co-image 是不是会退化？

激光雷达是一圈采集，转一圈只打一个点。在自车有运动的情况下，确实会有一些畸变。自车相对其他静止目标的畸变可以靠自车的运动信息做补偿。如果自车和其他目标之间有相对运动，只靠自车信息补偿是不够的。在数据出真值的时候，根据多帧的信息去判断，做一个运动模型，根据这个运动模型，对目标车上的激光雷达点云做补偿。

3. 深度信息如何获得？

深度信息可以直接通过激光点云获得。

往期推荐阅读：

王博Kings：无人驾驶系列知识入门到提高0

王博Kings：无人驾驶系列知识入门到提高1

王博Kings：无人驾驶系列知识入门到提高2

王博Kings：无人驾驶系列知识入门到提高3

王博Kings：无人驾驶系列知识入门到提高4--动态环境感知与2D检测

王博Kings：无人驾驶系列知识入门到提高5--动态环境感知与3D检测

王博Kings：无人驾驶系列知识入门到提高6-动态环境感知与跟踪

王博Kings：无人驾驶系列知识入门到提高7-高精度地图 V2X HD MAP

cvpr2021商汤自动驾驶！详述面向量产的3d目标与车道线检测

本文笔记来源：商汤科技高级研究员李弘扬的公开课大佬讲的公开课，受益匪浅，值得学习，作为一次记录1.1团队介绍商汤科技自动驾驶团队依托公司为背景，以SenseParrots作为基础平台，进行超大规模的网... 查看详情

论文解读smoke单目相机3d目标检测（cvpr2020）

前言 SMOKE是一种用于自动驾驶的实时单目3D物体检测器。为什么会注意这边文章呢？是因为这两天发布的百度Apollo7.0 的摄像头障碍物感知，也是基于这个模型改进的；于是令我产生了一些兴趣。论文名称：SMOKE:Single-StageMo... 查看详情

roadmap：面向自动驾驶的轻型语义地图视觉定位方法

文章：RoadMap:ALight-WeightSemanticMapforVisualLocalizationtowardsAutonomousDriving作者：TongQin,YuxinZheng,TongqingChen,YilunChen,andQingSu编译：点云PCL来源：CVPR2021本文仅做学术分享，如有侵查看详情

自动驾驶量产上车只是挑战开始！运营难搞，鹅厂献策

明敏发自凹非寺量子位|公众号QbitAI自动驾驶技术上车，智能车规模化量产上路，然后呢？当自动驾驶成为一种面向用户的持续服务，更长尾的运营中的问题，又该如何应对和解决？目前，行业内随着L2&... 查看详情

cvpr2020smoke单目相机3d目标检测环境搭建篇(代码片段)

前言SMOKE是一种用于自动驾驶的实时单目3D物体检测器。为什么会注意这边文章呢？是因为这两天发布的百度Apollo7.0 的摄像头障碍物感知，也是基于这个模型改进的；于是令我产生了一些兴趣。论文名称：SMOKE:Sing... 查看详情

2021，自动驾驶的“五代十国”

如果要用一个词来形容2021年的自动驾驶行业，可能是：规模效应。提起“自动驾驶”，大部分人已经不会再一头雾水。许多大众耳熟能详的科技公司，基本都已经进入了这一领域，苹果、小米、华为、滴滴等... 查看详情

自动驾驶感知算法实战3——自动驾驶2d和3d视觉感知算法概述

自动驾驶感知算法实战专栏：https://blog.csdn.net/charmve/category_12097938.html目录导读一、2D视觉感知1.目标检测1.1两阶段检测1.2单阶段检测1.3Anchor－free检测（无Anchor检测）1.4Transformer检测2.目标跟踪3.语义分割二、3D视觉感知1.单目3D感知... 查看详情

自动驾驶感知算法实战3——自动驾驶2d和3d视觉感知算法概述

照着这本“书”，3年量产自动驾驶卡车

贾浩楠发自凹非寺量子位|公众号QbitAI自动驾驶卡车规模化离落地还有多远？不远了。因为你现在网购的商品，很可能就有自动驾驶卡车参与运输。与之相关的一份成绩单，刚刚对外公布：L3级自动驾驶卡车2个车型... 查看详情

量产自动驾驶2022格局：三类玩家，两大硬指标，分出三大梯队

曹原允中发自凹非寺量子位|公众号QbitAI自动驾驶的两条路线之争，在2022年似乎完全分出了结果。一方面，完全无人驾驶路线，以Robotaxi为代表的纯L4路线，进展遇冷，发展遇阻，甚至有明星独角兽公司轰然... 查看详情

读后：defmo:deblurringandshaperecoveryoffastmovingobjects(cvpr2021)

fastmovingobjects(FMOs)FMOsaredefinedasobjectsthatmoveoveradistancelargerthantheirsizewithinthecameraexposuretime(orwithinasingletimeframeinvideo).FMO被定义为在相机曝光时间内（或在视频中的单个时间帧内）移动距离大于其尺寸的对象。在自动驾驶中检测石头、查看详情

自动驾驶产品化竞备开启：百度apollo如何定义量产车？

自动驾驶是一个非常复杂的系统工程，涉及感知、规划、决策与执行等环节，也与政策法规、成本制约紧密相关。从首辆自动驾驶汽车StanfordCart的小车花费五小时穿过摆满椅子的房间，到谷歌第一个在2009年启动无人... 查看详情

毫末智行开自动驾驶公司先河：自建智算中心！辅助驾驶「量产第一」，城市noh明年落地百城...

...台等方式在特斯拉践行。现在，同样的剧本正在中国自动驾驶行业上演。毫末智行——被业内以“自动驾驶量产第一”认知的创业公司——在AIDay上最新发布：智算中心。完全服务自动驾驶研发，而且是自查看详情

禾多科技与rti达成合作，加速自动驾驶在中国量产落地

...合作伙伴关系。双方将基于各自创新优势，携手加速自动驾驶技术在中国汽车市场量产普及。△RTI官网截图作为目前极少数拥有全栈自动驾驶研发能力的科技创新公司之一，禾多科技可为汽车主机厂商提供自动驾驶域控... 查看详情

中国最懂自动驾驶量产公司秀肌肉：自动驾驶算力怪兽百亿参数云端超大模型百万公里路测里程...

...非寺量子位报道|公众号QbitAI这可能是中国进展最迅猛的自动驾驶公司。刚刚结束的毫末智行Q3品牌日，这家被业内人视作“中国最懂量产自动驾驶”的公司晒出最新成绩单：增收快，成立不到2年的毫末智行，今年... 查看详情

cvpr2023|gpt-4与文心一言同台竞技，居然是为了自动驾驶uniad工作！

...中技术大魔王，国内百度的文心一言是国内技术一霸，那自动驾驶中的技术魔王，你听过说吗？另外，ChatGPT和文心一言都好评的自动驾驶端到端模型，大家不好奇吗？图源：文心一言；关键词：技术大魔王ChatGPT的横空出世解决... 查看详情

smoke单目相机3d目标检测训练模型(代码片段)

...的博客：【论文解读】SMOKE单目相机3D目标检测（CVPR2020）_一颗小树x的博客-CSDN博客_smoke论文CVPR2020SMOKE单目相机3 查看详情

smoke单目相机3d目标检测训练模型(代码片段)

...的博客：【论文解读】SMOKE单目相机3D目标检测（CVPR2020）_一颗小树x的博客-CSDN博客_smoke论文CVPR2020SMOKE单目相机3 查看详情