热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

用于轨道交通障碍物检测的改进MaskRCNN

1.文章信息文章题目为《ImprovedMaskR-CNNforobstacledetectionofrailtransit》,是2022年发表在Measuremen

1. 文章信息

文章题目为《Improved Mask R-CNN for obstacle detection of rail transit》,是2022年发表在Measurement上的一篇关于轨道交通领域的目标检测文章,聚焦在自动识别障碍物来提高自动驾驶列车的运行安全性。

2. 摘要

障碍物的准确识别对提高自动驾驶列车的安全性具有重要意义。为了提高主动识别的准确率,提出了一种ME Mask R-CNN。SSwin-Le Transformer用作特征提取网络,ME-PAPN用作特征融合网络。综合多种多尺度增强方法,提高了对小目标的检测能力。抽样方法为主要样本注意,采用适合列车障碍物特性的锚箱尺寸和比例。列车障碍物数据集基于多种测试场景,如南宁地铁1号线测试线、隧道线和夜间测试。测试结果表明,ME-Mask R-CNN实现了91.3%的mAP,平均检测时间为4.2 FPS,比Mask R-CNN高11.1%。

3. 介绍

随着轨道交通的快速发展和新信息技术的应用,智能列车被视为列车运输技术发展的主要方向,列车自动驾驶(ATO)已成为发展趋势。列车障碍物检测作为全自动运行列车的重要安全保障,已引起越来越多学者的关注。与汽车运行相比,列车障碍物检测在场景设置、风险分类和车辆制动控制方面存在显著差异。地铁列车障碍物检测场景具有类别少、检测精度高的特点。在危险等级分类中,更多的关注是轨道内部和沿线的障碍物。由于列车运行速度快,制动距离长,对远处障碍物的检测精度提出了更高的要求。

列车轨道上的异物入侵和行人非法进入是造成轨道安全事故的主要原因,因此对准确、快速的障碍物检测系统的需求越来越迫切。随着深度学习等技术的进步,基于计算机视觉的目标检测算法在轨道交通领域得到了广泛的应用。近年来,基于多传感器融合的障碍物检测技术成为研究热点。摄像头易受极端天气影响,缺乏空间信息,而雷达对远处障碍物的探测效果较差。由摄像机、激光雷达和毫米波雷达组成的障碍物检测系统可以获得二维和三维信息。

障碍物检测系统由前端采集系统、控制和处理系统组成。前端采集系统由长焦相机、短焦距相机、激光雷达和毫米波雷达组成。前端采集系统的功能是使用各种传感器来采集列车的前方路线。控制和处理系统通过处理前端采集系统输入的传感器信号来检测和识别列车前方的障碍物。当列车前方检测到危及列车安全运行的障碍物时,系统能及时发出预警信号。根据障碍物与列车之间的不同距离,进行分级报警和制动。由于摄像机更直接地进行障碍物检测,保证了实时性和准确性,因此文章从视觉算法方面进行了研究。

文章设计一种基于Mask R-CNN的高精度快速检测算法模型,提高小目标检测的精度,并在不同环境条件下具有较高的鲁棒性。贡献总结如下:

(1) 在特征提取网络方面,采用Swin-Transformer作为基线模型。在Swin Transformer块的窗口多注意模块中加入了空间洗牌,在MLP模块中加入了深度可分离卷积。SSwin-Le Transformer的提出增强了算法的长期依赖性和局部能力。

(2) 在特征融合网络方面,以PAFPN为基线模型,在金字塔融合中加入ASPP、RFA和BSF模块,提高了模型的多尺度性能,提出了ME-PAFPN。

(3) 提出了ME-Mask R-CNN算法对11种障碍物进行细粒度检测,使列车障碍物检测准确率达到91.3%。实验表明,ME-Mask R-CNN在准确度、检测速度和泛化能力方面具有最好的综合性能。

4. 相关工作

目前,列车障碍物检测分为传统检测算法和基于深度学习的目标检测算法。基于传统检测算法的方法分为帧差法和纹理特征法。

传统障碍物检测方法存在以下问题:(1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余。(2)手动设计功能对多样性变化的鲁棒性不理想,难以满足实际应用中的高性能要求。

近年来,基于深度学习的障碍物检测算法发展得更加成熟。由于检测框架的不同,目标检测技术分为一阶段和两阶段。随着网络结构的深化和更多新架构的出现,现有方法在特征提取和特征融合性能方面无法满足列车障碍物检测中对高精度和小目标检测性能的要求。此外,为了不断提高列车的安全水平,需要更多的细粒度目标检测方法,对目标进行像素级的语义分割可以更好地解决异物入侵问题。本文对Mask R-CNN模型进行了改进,促进了目标检测中不同尺度信息的增强和融合,提高了特征提取和特征融合的性能。

5. 模型

A. ME Mask R-CNN的总体架构

ME Mask R-CNN使用Mask R-CNN作为基线。原始模型的特征提取网络被SSwin Le Transformer取代,特征融合网络被ME-PAFPN取代,采样方法被PrIme Sample Attention(PISA)取代,下图所示为整体框架图。

a76f5ad0306f4990b831ebed76fedf12.png

ME Mask R-CNN算法的过程如下:输入图像进入主干,生成四个不同比例的特征地图。SSwin-Le Transformer类似于传统卷积主干的分层形式,可以更好地集成到Mask R-CNN检测框架。SSW-Le Transformer的模块包括分片、分片合并、基于移位窗口的洗牌多头自注意(SSW-MSA)和局部增强前馈网络(LeFF)。然后,通过颈部ME-PAFPN生成特征图,通过加强信息流对原有PAFPN进行改进。为了增强特征融合网络的多尺度能力,提高小目标的检测性能,在自顶向下分支和Botton-up分支中加入了残差特征增强(RFA)模块、萎缩空间金字塔池(ASPP)模块和平衡语义特征(BSF)模块。通过区域建议网络(RPN)对特征地图进行处理,对前景背景进行二元分类,对边界盒进行回归,生成区域建议。在RPN中,锚箱的大小和比例在列车障碍物检测场景中是自适应的。对区域建议执行ROI对齐,输入ROI头部进行类别分类和回归,以生成边界框和分割掩码。采样方法为PISA,并对原始样本进行加权以提高检测精度。

B. 特征提取网络

提出了一种基于SwinTransformer的改进SSwin-Le Transformer。如下图所示。

d3ba5d9b432be12c6752df2fa51940e7.png

首先,输入的H×W×3图像通过面片分割被分割成不重叠的面片。每个补丁被视为一个“令牌”,并用作序列输入,补丁大小为7×7。采用线性嵌入调整输入维数,使SSwin-Le Transformer块通过稳定的特征维数输入实现特征学习,并将这两个模块结合起来生成层次化特征表示。整个网络由四个阶段组成。在每个相邻阶段之间使用补丁合并,以减少令牌数量并增加特征维度。因此,主干网生成的特征地图有四个不同的特征维度,类似于传统的CNN主干网Resnet,并且具有在不同尺度下建模的灵活性。SSwin-LeTransformer和基于窗口的多头自关注(W-MSA)Transformer具有相似的结构。改进包括用SSW-MSA模块替换传统的W-MSA,用传统的MLP替换LeFF模块。

C. 特征融合网络

以PAFPN为基线模型,对提出的ME-PAFPN特征融合网络进行了改进。Mask R-CNN使用FPN。FPN在信息融合中存在以下问题:(1)主特征图的信息丢失。FPN以自上而下的路径传播。从主特征映射到最高特征映射,需要经过多个网络层,这增加了获取初始图像的难度。(2)多尺度信息丢失。FPN不完全支持考虑不同层间语义信息的差异。这些特征的直接融合会降低多尺度特征表示的能力。(3)非相邻层语义信息不融合。FPN只有相邻层的语义信息可以直接融合,非相邻层的语义信息被稀释,导致语义特征不平衡。

如下图所示,PAFPN通过构建自底向上的特征融合网络来减少主要特征层的传播路径,以增强整个特征层次的定位能力,因为对边缘或实例部分的高响应是准确定位实例的有力指标。红色虚线表示,在FPN算法中,主特征图通过自上而下的方式通过几十甚至数百个网络层,导致主特征图信息严重丢失。绿色虚线表示自下而上的特征融合。浅层特征通过底层原始FPN的融合连接到P2,然后随着自底向上的特征融合从P2转移到顶层。层数小于10层,可以更好地保留浅层特征信息。虽然PAFPN有另一种方法来改善主要特征信息的丢失,但FPN的多尺度信息丢失和非相邻层语义信息的非融合问题并没有得到解决。

92a5cafb7ee01f4351bc084b3b43dd92.png

残差特征增强(RFA)。在FPN的最高级别减少通道特性会导致信息丢失,并且只包含与其他层特性不兼容的单尺度上下文信息。为了弥补这一缺陷,RFA使用剩余分支向自顶向下的分支添加不同级别的空间上下文信息,并改进自顶向下的第一级特征表示。如下图所示,在特征层的最高级别使用比率不变自适应池来生成具有不同尺度的三个特征层。考虑到插值引起的混叠效应,采用自适应空间融合(ASF)将生成的概率图与上采样的分层特征图自适应地结合起来,使其具有多尺度特征信息。

a461f426f500456ec460191bf758cac6.png

萎缩的空间金字塔池(ASPP)。FPN仅通过1×1卷积减少通道数,削弱了多尺度特征表示。如下图所示,ASPP的四个平行分支通过阿托拉斯卷积生成不同尺度的图像,并以不同的阿托拉斯速率和卷积核合并,扩展了感受野,提高了提取抽象信息的能力。因此,ASPP模块用于改善每个分支融合阶段的模型性能。

17a74d1e6378766666f2daee6743aea6.png

平衡语义特征(BSF)。高层次的语义信息和浅层的细节信息可以相互补充,提高目标检测效果,融合后的特征需要处理各分辨率中的不平衡信息。BSF对四层特征图进行重新缩放、集成和细化,以实现对不平衡信息的处理。如下图(a)所示,为了聚合多级特征,对特征层使用上采样插值和自适应最大池。通过平均得到均衡的语义信息。在细化模块之后,使用相同但相反的过程来增强原始特征。在这个过程中,每一层从其他层获得相同的信息。如下图(b)所示,通过使用细化模块进行细化,细化使用非局部思想来增强融合特征并进一步改进结果。

7428f0885cf6afea118f810f9405af80.png

D. 抽样方法

ME Mask R-CNN使用主要样本注意(PISA)作为采样方法,具有精度和检测速度的优势。PISA是通过层次局部秩(HLR)和素数样本注意来实现的。分层局部秩(HLR)策略表明,影响目标检测训练的正样本是IOU较高的样本,而负样本是分类分数较高的样本。PISA使用IoU层次局部秩(IoU HLR)和分数层次局部秩(Score HLR)分别基于正样本和负样本的重要性进行排序,如下图所示。

9b99b0839ce3a7265fc1d935e0a4875e.png

主要样本注意策略将更多注意力集中在主要样本上,包括基于重要性的样本重新加权(ISR)和基于分类的回归损失(CARL)。PISA的训练过程增加了原始样本的权重,使分类获得更高的得分(ISR)。联合目标函数用于学习分类器和回归(CARL),以提高原始样本分数并抑制其他样本分数。

6. 实验及结果

A. 实验细节

采集的图像数据由真实的列车平台视频和从试车线视频中选择的关键帧组成。为了提高模型的泛化能力,每50帧选择一幅图像以获得不同的场景。经过处理,获得了3000幅不同场景的图像。使用图像注释软件Labelme在注释。注释数据包括所有检测到的目标的位置和类别信息。标签和图像被制成COCO数据集格式。对障碍物图像类别进行细化,将其分为11个类别,即人、轨道、盒子、标志、广告牌、配电箱、书包、纸板、信号、平台和头盔。设置的实验场景为试车线、夜间和隧道线场景。测试现场线路采用自然光照明,夜间试验采用列车探照灯照明,隧道线路现场采用隧道照明设备照明。数据集按90%和10%的比例分为训练集和测试集。训练参数如下表。

46578ac1399407d4e65c2923911a2da4.png

B. 结果比较

为了简化结果表格,分别命名了11个类别,人员为C1,轨道为C2,箱子为C3,标志为C4,广告牌为C5,配电箱为C6,书包为C7,纸板为C8,信号为C9,平台为C10,头盔为C11。在实验中,盒子、标志、书包、纸板、信号和头盔被定义为小目标。COCO检测和评估标准中的指标用于性能评估,包括IoU阈值为0.5的平均精度(mAP)、训练时间(time)、参数数(Params)、每秒浮点运算(GFLOPs)和每秒帧数(FPS)。与其他主流目标检测算法的结果对比如下表所示:

02a8feeb45ac9fb6f981a80cd8b90685.png

可以看出,Mask R-CNN、Faster R-CNN和Cascade R-CNN等两级算法的映射相似,Mask R-CNN的检测速度比其他两种算法慢。原因是添加到mask R-CNN算法中的mask分支可以进行语义分割,这是一种比后续危险分类的检测框更细粒度的表示。当检测速度满足要求时,这也是选择Mask R-CNN作为基线模型的原因。YOLOV4在检测精度方面不符合要求。如下图所示,小目标的地图增加了19.35%,但对于一些大目标和遮挡目标,改进是有限的,这可能是因为数据集中只有铁路场景,大目标的障碍物较少。随后,障碍物将被扩大,以增加场景的多样性,但检测精度已满足轨道边界检测的要求。

cbdb13e199174e786dc56baae4e62e96.png

下图比较了ME Mask R-CNN和更快的R-CNN、YOLOV4、Cascade R-CNN在自定义数据集上的测试结果。ME mask R-CNN的mask分支可以检测像素级别,并对被检测对象进行着色,从而对对象的风险级别进行分类。当其他目标检测算法对障碍物风险等级进行分类时,盒子检测结果容易造成大面积重叠,导致风险等级的分类不明确。ME Mask R-CNN在不同的场景和不同的照明条件下都很稳定。

aadcd5fad9b5007931f5fe0fcf9e65bd.png

7. 结论

在这项工作中,ME-Mask R-CNN被提出用于地铁列车障碍物检测。通过改进模型的局部容量和信息交换特性,增强了融合网络的多尺度特性,融合了不同层次的语义信息,提高了小目标的检测精度。在工作机上的实验表明,使用SSwin-Le变压器的mAP比使用SWN变压器的mAP提高了3.2%,使用ME-PAFPN的mAP比使用PAFPN的mAP提高了4.2%。针对列车障碍物检测场景设计的ME Mask R-CNN使mAP比Mask R-CNN增加11.1%,小目标检测精度提高19.35%,检测速度与检测精度平衡。

文章末尾提出未来研究的方向:

(1) 探索提高ME-Mask R-CNN的检测速度,降低Transformer中多头部注意的计算复杂度,并集成更多卷积以提高性能。研究模型部署技术包括修剪、量化和提炼。车载终端的硬件和软件用于加速模型的部署,使算法可用。

(2) 优化数据集的长尾分布,提高数据集的泛化能力,增加更多的检测场景和小障碍类型,优化小目标检测问题,并使用跨域数据集证明模型的泛化性能。

(3) 将采用多模态检测方法,设计基于视觉、激光雷达、毫米波雷达和其他多传感器融合技术的列车障碍物检测模型。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!


推荐阅读
  • 自动驾驶中的9种传感器融合算法
    来源丨AI修炼之路在自动驾驶汽车中,传感器融合是融合来自多个传感器数据的过程。该步骤在机器人技术中是强制性的,因为它提供了更高的可靠性、冗余性以及最终的 ... [详细]
  • 英特尔推出第三代至强可扩展处理器及傲腾持久内存,AI性能显著提升
    英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存,全面增强AI能力和系统性能。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 计算机学报精选论文概览(2020-2022)
    本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文,旨在为即将投稿的研究者提供参考。 ... [详细]
  • 汽车电子架构与CAN网络基础解析——鉴源实验室专业解读 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 七大策略降低云上MySQL成本
    在全球经济放缓和通胀压力下,降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧,旨在帮助企业有效控制成本,同时保持高效运作。 ... [详细]
  • H5技术实现经典游戏《贪吃蛇》
    本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术,我们将探讨如何构建这款游戏的两种主要玩法:积分闯关和无尽模式。 ... [详细]
  • 软件测试行业深度解析:迈向高薪的必经之路
    本文深入探讨了软件测试行业的发展现状及未来趋势,旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 2020年高薪专业排行榜揭晓:计算机科学之外还有哪些值得关注的选择?
    近日,《2020年中国大学生就业报告》正式发布,揭示了除计算机科学外,多个高薪专业值得关注。报告指出,金融工程、电子信息工程、软件工程等领域的毕业生薪资水平同样表现优异,这些专业的就业前景和发展潜力不容忽视。此外,随着新兴行业的崛起,如大数据分析、人工智能和生物技术,相关专业的人才需求也在持续增长,为学生提供了更多优质的职业选择。 ... [详细]
author-avatar
手机用户2502853355
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有