【翻译】Computer Vision for Autonomous Vehicles:Problems,Datasets and State-of-Art

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

自动驾驶计算机视觉研究综述：难题、数据集与前沿成果

摘要：

近年来计算机视觉、机器学习和自动驾驶等人工智能相关领域发生了惊人的进展。然而，和每一个飞速发展的领域一样，人工智能领域也出现了业内人员难以跟上行业节奏或者业外人员难入行的问题。虽然已经有人发表了几篇关于这方面的专题调查论文，但是到目前为止，还没有关于自动驾驶计算机视觉（computer vision for autonomous vehicle）难题、数据集和方法的综合性调查。本文通过提供有关自动驾驶计算机视觉这一主题的最新调查以填补这一空白。我们的调查既包括最为相关的历史资料，也包括识别、重建、运动估测、追踪、场景理解以及端到端学习等当前最先进的专业主题。为了完成这一目标，我们首先通过分类学对每个方法进行分类，接着在 KITTI、ISPRS、MOT 和 Cityscapes 等若干个挑战性的基准数据集上分析每个方法的最佳性能。此外，我们还讨论了一些开放问题和当前的研究挑战。考虑到访问的轻松性和缺失的引用，我们还提供了一个具有主题和方法导航功能的互动平台，提供额外信息和每篇论文的项目链接。

前言：

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两点：第一，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

在此论文中，我们聚焦于第二个问题，也就是自动驾驶视觉（autonomous vision)，并调查了目前自动驾驶汽车中感知系统的表现。面向此目标，我们首先给出了问题分类，归类了已有的数据集，以及在这些类别中可使用的技术（论文成果），描述了每种方法的优缺点。第二，我们在数个流行数据集上分析了一些顶尖成果的表现。特别是我们给出了 KITTI 基准的全新深度质量分析，这些分析展示了那些用提交到评估服务器上的方法运行出来的最容易与最困难的例子。基于这些分析，我们讨论了开放的研究问题和挑战。为了更轻松的阅读，我们还给出了一个交互式在线工具，使用图像可视化了我们的分类，并提供了额外的信息与项目主页链接。通过提供详尽的综述，希望我们的成果能够成为自动驾驶视觉领域研究人员进行研究的有用工具，也能降低新人进入该领域的门槛。

目前也有其他相关的研究。Winner et al. (2015) 详细解释了主动安全性与驾驶辅助系统，考虑到了它们的结构与功能。他们的研究注重覆盖到辅助驾驶系统的所有方面，但关于机器视觉的章节只覆盖到了自动驾驶视觉问题中最基础的概念。Klette (2015) 给出了基于视觉的驾驶辅助系统的概述。他们描述了高层次的感知问题的大部分方面，但并不像我们一样提供了在各种任务上顶级成果的深度评测。Zhu et al. (2017) 提供了智能汽车环境感知的概述，聚焦于车道检测、交通信号／灯识别以及汽车追踪问题，该论文可与我们的研究互补。但相较之下，我们的目标是通过提供广泛的综述和对比（包括所有领域的成果），在机器人、智能汽车、摄影测绘学和计算机视觉社区之间架起一座桥梁

1、自动驾驶的历史

1.1 自动驾驶项目

创建的.由于这个项目完成了第一次从Pittsburgh，PA,Sand Diego和CA的自动驾驶，在1995年是一个重要的里程碑。在许多大学，研究中心和自动驾驶公司的倡议下，美国政府在1995年成立了自动化公路系统联盟（NAHSC）。和美国一样，日本于1996年在各大自动驾驶高斯和研究中心成立了高级巡航公路系统研究协会来促进我自动驾驶导航的研究。Bertozzi等人（2000）调查了许多自主性挑战性任务的方法这些项目之后开发的道路。他们得出结论，算法计算能力越来越好，但像反射，湿面潮湿，阳光直射，隧道和阴影这样的困难仍然使数据解释具有挑战性。因此，他们建议提高传感器性能，也指出，应该重点并且认真的考虑自动驾驶对行人法律方面的责任和影响。总之，自动化可能会限制仅仅用在特殊的基础设施上，然后慢慢的普及开来。
可以实现在高速公路上自动驾驶，在这个成功的案例推动下，Franke等人描述了在复杂的城市交通场景下的自动驾驶的实时视觉系统。虽然在此之前公路场景情况已经有很多深入的研究，但城市场景却从未得到解决。他们的系统包括基于深度的障碍检测和立体追踪，以及针对相关物体（比如：交通信号）的单目检测和识别框架。
整合所有系统的最新车型。 Bertozzi等人（2011）在VisLab洲际自治挑战赛（意大利到中国的半自主驾驶）展示了其系统的稳健性。车载系统允许检测障碍物，车道标记，沟渠，护堤，并识别前方是否存在车辆和车辆位置。感应系统提供的信息用于执行不同的任务，如leading-following和前进&停止。
PROUD项目Broggi等人（2015年）略微修改了BRAiVE原型Grisleri＆Fedriga（2010）使得汽车可以在帕尔马城市道路和高速公路的常规交通情况下开车。为了实现这一目标，他们丰富了一份公开授权的地图，其中包含有待完成的机动信息（比如行人过路，交通信号灯等）。该车辆能够在没有人为干涉的情况下处理复杂的场景，例如回旋处，交叉口，优先道路，站点，隧道，人行横道，交通信号灯，高速公路和城市道路。
的SLAM问题和 H¨ane等人的 (2015)空白区于检测的问题。除了这些研究目标，该项目还非常重视在现实环境中部署和评估系统。
2016年3月4日完成了超过1,498,000英里的驾驶距离，在美国加利福尼亚州奥斯汀市的Mountain View，WA和柯克兰。不同的传感器（例如摄像机，雷达，LiDAR，车轮编码器，GPS）可以全方位的检测行人，骑自行车的人，车辆，道路工作等等。据他们的事故报道，Google的自驾车只涉及14次碰撞，13次是由别人造成的。在2016年，这个项目分引入到了一家独立的自动驾驶技术公司Waymo5。
Tesla Autopilot是由特斯拉开发的高级驾驶员辅助系统，该系统于2015年第一次推出其版本为7的软件。系统的自动化级别允许完全自动化，但是如果有必要的话需要驾驶员充分注意。从2016年10月起，特斯拉生产的所有车辆配备了8台摄像机，12台超声波传感器和一个前置雷达，以实现全自动驾驶。
长距离测试演示：1995年，PROMETHEUS项目里Dickmanns等人（1990）;弗兰卡等人（1994）; Dickmanns等人（1994年）的团队演示了从德国慕尼黑到丹麦欧登塞以高达175公里/小时的速度进行的第一次自动长途驾驶，其中约95％为自主驾驶。同样，在美国Pomerleau和Jochem（1996年）在‘No hands across from America（没明白什么意思，大概是场什么行程，知道的博友可以教教我hiahia~）’中从华盛顿特区飞往圣地亚哥，整个行程中有98％的自动驾驶和偶尔的手动纵向控制。
2014年，Zieglar等人（2014年）以近乎完全自动的方式，展示了从曼海姆（Mannheim）到德国普福尔茨海姆（Pforzheim Germany）的103km的骑行，也就是众人所熟知的Bertha Benz纪念路线。他们展示了一种装配有close-to-production传感器硬件的自动驾驶车辆。由雷达radar和立体视觉来进行物体检测和空白区域分析。单目视觉用来检测交通信号灯和物体分类。两种互补的算法，基于点特征和基于场景标记，允许相对于手动注释的数字路线图进行精确定位。他们得出结论，甚至认为自动驾驶虽然成功完成了，但是整体行为远远达不到细心的驾驶司机的水平。
最近，Bojarski等人（2016年）从霍尔姆德尔（Holmdel）到新泽西州蒙茅斯县的大西洋高原，以及在花园州立大道没有任何干扰的自动行驶了10英里，也不是说100%，其中98%是在自动驾驶。为了实现这一目标，在NVIDIA DRIVETM PX自动驾驶车中使用了一种从图像直接预测车辆控制的卷积神经网络。该系统在第11节中有更详细的讨论。
虽然所有上述表现令人印象深刻，一般假设精确注释路线图以及预录用于本定位的地图证明了自主性系统仍然不及人的能力。最重要的是，不仅需要视觉信息的强大的感知，也需要一般的人工智能才能达到人的可靠性水平那样即使在复杂的城市情况下也能安全地做出反应。
1.2 自动驾驶竞赛
European Land Robot Trial （ELROB）是现实场景和地形中无人系统的示范与竞赛，主要集中在军事方面，如侦察监视，自主航行和车队运输。与自主驾驶挑战相反，ELROB场景通常包括崎岖地形的导航。2004年，美国国防高级研究计划署（DARPA）发起了第一个专注于道路场景（主要是泥土路）的自动驾驶比赛。DARPA 2004年大挑战赛获得了100万美元的奖金，该队首先完成了从加利福尼亚州内华达州过境的150英里的路线。然而，机器人车辆都没有完成路线。一年后，也就是2005年，DARPA公布了第二版的挑战，5辆车顺利完成了路线（Buehler等人（2007））。DARPA大挑战赛的第三场比赛，被称为城市挑战赛（Buehler等人（2009）），于2007年11月3日在乔治航空加利福尼亚州的基地。这个挑战涉及到一个96公里的城市地区航线，在这段路程中车辆在与其他车辆进行谈判并汇合到一起时，必须遵守交通法规。
2011年首次和2016年第二版的专注于自动合作驾驶行为的大型合作驾驶挑战（GCDC8，见Geiger et al。（2012a））在荷兰赫尔蒙德举行。在比赛中，球队不得不谈判车队，加入车队和引导车队。获胜者是基于选择的分配给随机混合团队的系统选出来的。

2. 数据集和基准

提供了通过提供数据集通过提供专门的真值（ground truth）问题实例，它们允许通过提供有关其能力与局限的核心信息，数据集还可以对方法进行量化评估。特别地，这些数据集中的几个比如Geiger等人（2012b）;Scharstein＆Szeliski（2002）; Baker等人（2011）;Everinghamet al。（2010）; Cordts等人（2016）也提供在线评估服务器允许在延期测试（held-out）中进行公平的比较，而且为该领域的研究人员提供更新的目前最好的算法。这种方式可以让研究人员很容易地确定目前的进展和剩下的挑战。在自主车辆的环境中，KITTI数据集Geiger等人（2012b）和Cityscapes数据集Cordts 等人（2016）为重建、运动估计和识别任务引入了挑战性的基准，因此缩小了实验室设置与挑战现实世界的情况之间的差距。仅仅几年前，大家认为有数百个注释的例子的数据集对于解决很多问题是足够的。然而，有数百到数千个有标签的例子的数据集的引入，通过以监督的方式训练大容量深度模型，已经使得许多计算机视觉学科的重大突破。然而，收集大量的注释数据不是一个容易的事情，特别是对于诸如光流或者语义分割的任务。这使得集体努力通过搜索尽可能多的方式来自动化过程，例如通过半监督学习或合成，从而在多个领域产生了这种数据。

2.1 真实数据集
虽然可以使用合成数据检查几个算法方面，但实际数据集对于确保算法在实际情况下的性能是必要的。例如，在实践中使用的算法需要处理复杂的对象和环境，同时面对挑战性的环境条件，例如直接照明，镜面反射，雾或雨。获取ground truth通常是劳动密集型的，因为这种信息通常不能用传感器直接获得，而是需要繁琐的手动注释。例如，（Scharstein＆Szeliski（2002），Baker等人（2011））在受控实验室环境中获得了密集的像素级注释，而Geiger等人（2012B）; Kondermann等人（2016）使用LiDAR激光扫描仪提供实际街景场景的稀疏像素级注解。
最近，亚马逊的Mechanical Turk的众包已经变得非常受欢迎，为大型数据集创建注释，例如Deng等人（2009）;Lin等人（2014）; Leal-Taix'e等人（2015）; Milan等人（2016）。然而，通过Mechanical Turk获得的注释质量通常不太合适被认为是参考，并且通常需要在后处理中最初的重大努力和清理所获得的标签中也是非常需要的。在下文中，我们将首先讨论最流行的计算机视觉数据集和基准，以解决与自主视觉相关的任务。此后，我们将专注于数据集尤其致力于自动驾驶车辆的应用。
立体与 3D 重建类数据集
由Scharstein＆Szeliski（2002）引入的Middlebury立体声基准测试仪提供了多个立体声数据集，用于比较立体匹配算法的性能。通过在分段平面场景中手工标记和重建平面分量获得像素级地面真值。Scharstein和Szeliski（2002）进一步提供立体声算法的分类法，允许通过比较设计决策和测试台来进行定量评估。使用均方误差以及估计值和地面真实视差图之间坏像素的百分比来评估提交给其基准网站的方法。
Scharstein & Szeliski (2003) 和 Scharstein et al. (2014)为Middlebury基准引入了一种新颖的数据集，这个数据及包含更多复杂的场景和普通的物体，比如椅子、桌子、植物等对象。在这两个工作中，均使用一个结构化的照明系统来创造ground truth。对于最新版本的Middlebury v3，Scharstein等人（2014）采用新颖的2D子像素对应搜索和相机自动校准技术以及投影机为高分辨率立体图像生成高精度的地面实况。与现有数据集相比，该新版本的差异和整改精度明显提高，可以进行更精确的评估。 Figure 1是来自数据集的示例深度图：
Seitz等人的Middlebury多视点立体声（MVS）基准测试（2006）是注册地面真相3D模型用于比较MVS方法一种校准的多视图图像数据集。基准测试在MVS方法的进步中发挥了关键作用，但只有两个场景，尺寸相对较小。相比之下，Jensen等人的TUD MVS数据集（2014年）提供了124个不同的场景，这些场景也被记录在受控实验室环境中。参考数据通过组合来自每个摄像机位置的结构光扫描获得，并且所得到的扫描非常密集，平均每个包含13.4million个点。对于44个场景，通过以90度的间隔旋转和扫描四次获得完整的360度模型。与迄今为止的数据集相比，Sch¨ops等人（2017年）提供了在受控实验室环境中未仔细分级的场景，从而代表了现实世界的挑战。Sch¨ops et al. (2017) 录制了高分辨率DSLR单反相机图像以及各种室内和室外场景中同步的低分辨率立体视频。高精度激光扫描仪允许以强大的方法注册所有图像。高分辨率图像可以评估详细的3D重建，同时提供低分辨率立体图像来比较移动设备的方法。
光流类数据集
Baker等人的“Middlebury流量标准” （2011）提供了具有非刚性运动序列，合成序列和Middlebury立体声基准序列（静态场景）的子集的序列，用于评估光流方法。对于所有非刚性序列，通过使用toothbrush牙刷追踪在物体上喷洒的隐藏的荧光纹理来获得地面真实流。数据集包含八个不同的序列，每个序列具有八个帧。每个序列提供一对帧的地面实况。
除了有限的大小之外，由于数据集需要实验室条件，允许在各个捕获之间操纵光源，所以缺少像复杂结构，照明变化和阴影这样的真实世界挑战。此外，它只包含最多十二个像素的非常小的运动，不承认对快速运动提供的挑战的调查。然而，与其他数据集相比，Middlebury数据集可以评估子像素精度，因为它提供了非常精确和密集的地面实例。使用角度误差（AEE）和估计流量与地面实数之间的绝对终点误差（EPE）来测量性能。
Janai等人（2017）提出了一个新颖的光流数据集，其中包括复杂的现实世界场景，与Middlebury的实验室设置相反。高速视频摄像机用于通过密集采样的时空容量跟踪像素来创建精确的参考数据。该方法允许以自动方式在挑战性的日常场景中获取光流场地真相，并且增加诸如运动模糊的现实效果以在不同条件下比较方法。 Janai等人（2017年）提供了160个不同的现实世界动态场景序列，具有比以前的光学数据集显着更大的分辨率（1280x1024像素），并比较了这些数据的几种最先进的光学技术。
对象识别与分割类数据集
大量的公开数据集，如ImageNet（Deng等人（2009）），PASCAL VOC（Everingham等（2010）），Microsoft COCO（Lin等人（2014）），Cityscapes（Cordts （2016））和TorontoCity（Wang等人（2016年））对物体分类，目标检测和语义分割任务中深入学习的成功产生了重大影响。
由Everingham等人（2010）提供的PASCAL视觉对象类（VOC）挑战是对象分类，物体检测，物体分割和动作识别的基准。它由具有高质量标注的Flickr收集的有挑战性的消费者照片组成，并且包含姿势，照明和遮挡的大变化。自从介绍以来，VOC的挑战一直很受欢并且逐年更新并适应社区的需求直到2012年计划结束。而2005年的第一个挑战只有4个不同的类，2007年引入了20个不同的对象类。多年来，基准规模在2012年达到总共11,530张图像当中共有27,450张ROI注释物体。
2014年，Lin等（2014）介绍了Microsoft COCO数据集，用于物体检测，实例分割和上下文推理。它们在自然环境中提供包含常见对象的复杂日常场景的图像。数据集总共包括91个对象类，250万个注释实例和328k个图像。 Microsoft COCO在PASCAL VOC对象分割基准测试中每个类的实例数显著增加。所有物体都在广泛的人群工作人员的努力下对每个实例进行标注。与PASCAL VOC类似，IOU度量用于评估。
追踪类数据集
航空图像数据集
自动驾驶数据集
长期自控（Long-Term Autonomy）类数据集
2.2 合成类数据集
对于真实的例子，产生地面真相是非常劳动密集型的，并且在需要像素级注释时通常甚至不可能大规模地实现。另一方面，可以容易地获取大规模合成数据集的像素级基础真值。然而，创造现实的虚拟世界是耗时的。电影和视频游戏的普及导致了行业创造非常现实的3D内容，这些内容丰富了使用合成数据集完全替代实际数据的希望。因此，最近已经提出了几个合成数据集，但是现实主义和多样性是否足以替代现实世界的数据集仍然是一个悬而未决的问题。此外，创造现实的虚拟内容是一个耗时和昂贵的过程本身和权衡实数和合成（或增强）数据之间还不清楚。
MPI Sintel
飞行椅和飞行物
游戏引擎

3. 摄像头模型与校准

3.1 校准
3.2 全向摄像头
3.3 事件摄像头

4.表征

5. 目标识别

传感器
标准流程
5.1 2D 目标检测

5.2 从 2D 图像构建 3D 目标侦测
5.3 从 3D 点云构建 3D 目标侦测
5.4 行人检测
5.5 行人姿势估测
5.6 讨论
6. 语义分割

方程（formulation）
结构化 CNN

条件随机场（conditional random field）

讨论

基于建议的样例分割（Proposal-based Instance Segmentation）
无需建议的样例分割

6.2 . Label Propagation
6.3 多框架语义分割（Semantic Segmentation with Multiple Frames）
6.4 3D 数据的语义分割

在线方法
3D CNN

6.5 街景的语义分割
6.6. Semantic Segmentation of Aerial Images

6.6.1 ISPRS 分割挑战赛

6.7 道路分割

6.7.1 可用空间估计
7. 再建构

7.1 立体方法
7.2 多视角 3D 重构
7.3 再建构与识别
8. 运动与姿势估测

8.1 2D 运动估测-光学流
8.2 3D 运动估测-场景流
8.3. Ego-Motion 估计

8.4. 同步定位与构图 (SLAM)
8.5. 定位

9. 追踪

追踪的目标是给定传感器测量数据的情况下实时评估一个或多个目标的状态。典型来说，目标的状态由它在一定时间的位置、速度和加速度来表达。追踪其他车辆对自动驾驶任务而言非常重要。举个例子，汽车刹车距离随速度变化会有次方级的变化。为了防止相撞，系统需要足够提前做出反应。其他车辆的轨迹足以预测停车的位置和可能相撞的情况。

在自行车和行人的案例中，比较难以预测未来的行为，因为他们可能会突然改变方向。然而，结合其他车辆的分类进行追踪，能够调整汽车在这种情况下的速度。此外，追踪其他汽车可被用来进行自动距离控制，提前预估其他车辆可能做的变动。

9.1 立体追踪
9.2 行人追踪
9.3 顶级成果
9.4 讨论

10. 场景理解

自动驾驶的基本需求之一是充分理解其周遭环境，比如复杂的交通场景。户外场景理解的复杂任务包括若干个子任务，比如深度估计、场景分类、目标探测与追踪、事件分类以及更多，其中每一个子任务描述场景的一个特定方面。联合建模这些特定方面以利用场景不同元素之间的关系并获得一个整体理解，这样做是有益的。大多数场景理解模型的目标是获得一个丰富但紧凑的场景表征，这个场景包含所有的元素，比如布局元素、交通参与者以及彼此之间的关系。相比于 2D 图像域中的推理，3D 推理在解决几何场景理解的问题上起着重要作用，并以 3D 目标模型、布局元素、闭塞关系等形式促使场景产生了更多的信息表征。场景理解的一个特殊挑战是城市市区与郊区交通情景的阐释。相较于高速公路和农村公路，市区场景包含了很多独立移动的交通参与者，道路与十字路口几何布局中的更多变化性，以及由于模糊的视觉特征和光照变化所带来的难度升级。

从单一图像到视频
结合目标探测与跟踪
- 其他表征
11. 传感器运动控制的端到端学习
当前最先进的自动驾驶方法包含大量的模型，例如（交通信号、灯、汽车、行人的）探测、（车道、门面的）分割、运动估计、交通参与者的跟踪，重建。然后，这些组件的结果按照控制系统的规则组合起来。但是，为了解决操控汽车方向和速度的问题，这需要稳健地解决场景理解中的诸多开放性难题。最近的文献提出了作为替代性方案的若干个端到端自动驾驶方法。端到端驾驶使用的是从一个感觉输入（比如，正面摄像头图像）直接映射到驾驶操作（比如，转向角）的独立系统。
结论
本文中，我们就自动驾驶计算机视觉的难题、数据集和方法提供了一个综合性调查。为了完成这一目标，我们的调查同时涵盖了最为相关的历史资料，以及识别、重建、运动估测、追踪、场景理解、端到端学习等当前最先进的专门主题。通过使用 KITTI 基准的全新深入质量分析并考虑其他数据集，我们还讨论了开放问题和当前这些主题下的研究挑战。我们的交互式在线工具平台运用图形可视化了分类方法，从而可使你轻松浏览被调查的文献。将来，我们计划在这一交互式平台上不断更新相关文献，为这一领域提供一个实时的概观。我们希望该项调查和该工具平台可进一步激发新研究，并且通过这一详尽的概述，使得初学者更容易进入该领域