作者:鼠宝宝-fen | 来源:互联网 | 2023-09-10 11:39
目录1现状1.1KITTI(国际计算机视觉算法评测数据集)1.2KITTI与其他数据库比较2自动驾驶中计算机视觉研究任务2.1stereomatching2.2Visu
目录
1 现状
1.1 KITTI (国际计算机视觉算法评测数据集)
1.2 KITTI与其他数据库比较
2 自动驾驶中计算机视觉研究任务
2.1 stereo matching
2.2 Visual Odometry
2.3 3D Object Detection
3 关于实时性
4 深度卷积神经网络
1 现状
- 目前的自动驾驶,严重依赖于一些特殊的传感器
- Velodyne 传感器(激光传感器)
- 提供360度实时三维距离地图(360 degree real-time 3D distance map);
- 三维距离地图可用于障碍物检测和导航;
- 缺点:costs 70,000 dollars。
- 详细的精确地图
1.1 KITTI (国际计算机视觉算法评测数据集)
- 提供了一套视觉基准套件(vision benchmark suite),
- 创建目的
- 鼓励计算机视觉研究团体开发算法,以减少对Velodyne激光雷达传感器和详细地图的依赖。
- 任务包含
- stereo matching
- optical flow
- visual odometry,
- 3D object detection
- 3D tracking
- 硬件:包含一辆标准旅行车,配备两个高分辨率彩色和灰度摄像机
- 提供的数据:
- 内容包括:
- 以 Velodyne 激光扫描仪和GPS定位系统数据,作为 ground truth;
- 提供原始数据,提供预处理数据作为每个任务的基准;
- 提供评价指标和网站,让用户有相同的评价标准和一个平台,方便比较他们的结果。
- 优点:KITTI提供了在真实世界中,而不是在实验室环境中记录的更真实的数据
- 数据来源:在一个中等城市卡尔斯鲁厄(Karlsruhe)的乡村地区和高速公路上开车,就能捕捉到所有的基准
- 详细参数说明:
- Andreas Geiger and Philip Lenz and Raquel Urtasun, ”Are we ready for Autonomous Driving? The
KITTI Vision Benchmark Suite,” Conference on Computer Vision and PatternRecognition (CVPR),2012.
- KITTI评估网站提供了一个平台,让用户提交他们的方法,并以不同的方式进行比较,如运行时、环境、额外的输入信息和编码语言。
1.2 KITTI与其他数据库比较
2 自动驾驶中计算机视觉研究任务
2.1 stereo matching
- 定义:
- 从数字图像中提取三维信息的方法。两个水平放置的摄像机被用来获取一个场景的不同视角。通过对这两幅图像的比较,可以用视差形式,得到相对深度信息。
- 代表论文(state-of-the-art method of stereo matching in KITTI benchmark):
- Fatma Gney and Andreas Geiger,”Displets: Resolving Stereo Ambiguities using Object Knowledge,”
Conference on Computer Vision and PatternRecognitionRecognition (CVPR), 2015. - 使用一组汽车的三维CAD模型作为先验知识,使输出的视差图,适合这些模型,作为长距离正则化器,来解决反射或无纹理的问题。
- 面临问题:
- 对于反射或无纹理的表面,不容易恢复出二视图的差异。
2.2 Visual Odometry
- 定义:
- 视觉测程[3],是通过分析相关的相机图像,来确定位置和方向的过程。
- 意义:
- GPS不可用时,提供 aid localization, 在小范围内;
- 提供更精确的位置信息。
- 操作步骤:
- a. 从 video 中,特征提取;
- 或者,来自激光雷达系统或立体摄像机,获取三维信息。
- b. 构造光流(key step);
- c. 分析光流,评估相机运动。
- 代表工作:
- V-LOAM:Ji Zhang and Sanjiv Singh, ”Visual-lidar Odometry and Mapping: Low-rift, Robust, and Fast,” IEEE International Conference on Robotics and Automation(ICRA), 2015.
2.3 3D Object Detection
- 定义:
- KITTI benchmark中,检测目标为:Car, Cyclist, and Pedestrian。
- 目前,大部分方法,都是使用单个相机图像来做,
- 目前(2015)没有使用 LIDAR 系统或者是 stereo camera(立体相机)提供的3D信息,但这在未来值得研究。
- 代表论文:
- Xiaoyu Wang and Ming Yang and Shenghuo Zhu and Yuanqing Lin,”Regionlets for Generic Object Detection,” International Conference on Computer Vision, 2013.
3 关于实时性
- 实时性的定义:人们通常将实时约束设置为每秒30帧。30帧/秒并不是一个特定的目标要求,这是人眼无法识别的阈值。
- 软件层次,代表工作:
- [10] Ge, Junfeng, Yupin Luo, and Gyomei Tei., “Real-time pedestrian detection and tracking at nighttime for driver-assistance systems,” Intelligent Transportation Systems, IEEE Transactions on 10.2 (2009): 283-298.
- 硬件层次,代表工作
- [11] Hiromoto, Masayuki, and Ryusuke Miyamoto. “Hardware architecture for high-accuracy real-time pedestrian detection with CoHOG features,” Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on. IEEE, 2009.
- 在FPGAs上尝试并行执行计算,进行行人检测;
- 使用的行人检测特征描述:Co-occurrence histograms of oriented gradients 共现直方图的方向梯度(Co-HOG)。
4 深度卷积神经网络
- 卷积神经网络取得显著成功的方面:
- 这主要是因为CNNs具有良好的表示法(或图像特征)
- 另外关键的因素是:计算能力的提高和大的标记数据集,这使我们能够将网络扩展到数千万个参数。