热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

论文笔记_CV_AD_ASurveyofComputerVisionResearchforAutomotiveSystems

目录1现状1.1KITTI(国际计算机视觉算法评测数据集)1.2KITTI与其他数据库比较2自动驾驶中计算机视觉研究任务2.1stereomatching2.2Visu

目录

1 现状

1.1 KITTI (国际计算机视觉算法评测数据集)

1.2 KITTI与其他数据库比较

2 自动驾驶中计算机视觉研究任务

2.1 stereo matching

2.2 Visual Odometry

2.3 3D Object Detection

3 关于实时性

4 深度卷积神经网络




1 现状


  • 目前的自动驾驶,严重依赖于一些特殊的传感器
    • Velodyne 传感器(激光传感器)
      • 提供360度实时三维距离地图(360 degree real-time 3D distance map);
      • 三维距离地图可用于障碍物检测导航;
      • 缺点:costs 70,000 dollars。
    • 详细的精确地图
      • 例如,地图应该包括交通灯的高度。

1.1 KITTI (国际计算机视觉算法评测数据集)


  • 提供了一套视觉基准套件(vision benchmark suite),
    • 创建目的
      • 鼓励计算机视觉研究团体开发算法,以减少对Velodyne激光雷达传感器和详细地图的依赖。
    • 任务包含
      • stereo matching
      • optical flow
        • 光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度

      • visual odometry,
      • 3D object detection
      • 3D tracking
    • 硬件:包含一辆标准旅行车,配备两个高分辨率彩色和灰度摄像机
    • 提供的数据:
      • 内容包括:
        • 以 Velodyne 激光扫描仪和GPS定位系统数据,作为 ground truth;
        • 提供原始数据,提供预处理数据作为每个任务的基准;
        • 提供评价指标和网站,让用户有相同的评价标准和一个平台,方便比较他们的结果。
      • 优点:KITTI提供了在真实世界中,而不是在实验室环境中记录的更真实的数据
      • 数据来源:在一个中等城市卡尔斯鲁厄(Karlsruhe)的乡村地区和高速公路上开车,就能捕捉到所有的基准
      • 详细参数说明:
        • Andreas Geiger and Philip Lenz and Raquel Urtasun, ”Are we ready for Autonomous Driving? The
          KITTI Vision Benchmark Suite
          ,” Conference on Computer Vision and PatternRecognition (CVPR),2012.
    • KITTI评估网站提供了一个平台,让用户提交他们的方法,并以不同的方式进行比较,如运行时、环境、额外的输入信息和编码语言。

1.2 KITTI与其他数据库比较


2 自动驾驶中计算机视觉研究任务


2.1 stereo matching


  • 定义:
    • 从数字图像中提取三维信息的方法。两个水平放置的摄像机被用来获取一个场景的不同视角。通过对这两幅图像的比较,可以用视差形式,得到相对深度信息。
  • 代表论文(state-of-the-art method of stereo matching in KITTI benchmark):
    • Fatma Gney and Andreas Geiger,”Displets: Resolving Stereo Ambiguities using Object Knowledge,”
      Conference on Computer Vision and PatternRecognitionRecognition (CVPR), 2015.
      • 使用一组汽车的三维CAD模型作为先验知识,使输出的视差图,适合这些模型,作为长距离正则化器,来解决反射或无纹理的问题。
  • 面临问题:
    • 对于反射或无纹理的表面,不容易恢复出二视图的差异。

2.2 Visual Odometry


  • 定义:
    • 视觉测程[3],是通过分析相关的相机图像,来确定位置和方向的过程。
  • 意义:
    • GPS不可用时,提供 aid localization, 在小范围内;
    • 提供更精确的位置信息。
  • 操作步骤:
    • a. 从 video 中,特征提取;
      • 或者,来自激光雷达系统或立体摄像机,获取三维信息。
    • b. 构造光流(key step);
    • c. 分析光流,评估相机运动
  • 代表工作:
    • V-LOAM:Ji Zhang and Sanjiv Singh, ”Visual-lidar Odometry and Mapping: Low-rift, Robust, and Fast,” IEEE International Conference on Robotics and Automation(ICRA), 2015.

2.3 3D Object Detection


  • 定义:
    • 检测某一类特定语义对象的实例的技术。
  • KITTI benchmark中,检测目标为:Car, Cyclist, and Pedestrian。
  • 目前,大部分方法,都是使用单个相机图像来做,
    • 目前(2015)没有使用 LIDAR 系统或者是 stereo camera(立体相机)提供的3D信息,但这在未来值得研究。
  • 代表论文:
    • Xiaoyu Wang and Ming Yang and Shenghuo Zhu and Yuanqing Lin,”Regionlets for Generic Object Detection,” International Conference on Computer Vision, 2013.

3 关于实时性


  • 实时性的定义:人们通常将实时约束设置为每秒30帧。30帧/秒并不是一个特定的目标要求,这是人眼无法识别的阈值。
  • 软件层次,代表工作:
    • [10] Ge, Junfeng, Yupin Luo, and Gyomei Tei., “Real-time pedestrian detection and tracking at nighttime for driver-assistance systems,” Intelligent Transportation Systems, IEEE Transactions on 10.2 (2009): 283-298.
  • 硬件层次,代表工作
    • [11] Hiromoto, Masayuki, and Ryusuke Miyamoto. “Hardware architecture for high-accuracy real-time pedestrian detection with CoHOG features,” Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on. IEEE, 2009.
      • 在FPGAs上尝试并行执行计算,进行行人检测;
      • 使用的行人检测特征描述:Co-occurrence histograms of oriented gradients 共现直方图的方向梯度(Co-HOG)。

4 深度卷积神经网络


  • 卷积神经网络取得显著成功的方面:
    • 目标识别
    • 目标检测
    • 目标分割
  • 这主要是因为CNNs具有良好的表示法(或图像特征)
    • 另外关键的因素是:计算能力的提高和大的标记数据集,这使我们能够将网络扩展到数千万个参数。

 


推荐阅读
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
author-avatar
鼠宝宝-fen
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有