1. 文章信息
本次介绍的文章2022年发表在Expert Systems With Applications,题目为《Attention based CNN model for fire detection and localization in real-world images》
2. 摘要
火灾是对人类生命和环境造成重大危害的严重自然灾害。文章提出了一个自定义框架来检测火灾使用迁移学习与最先进的CNN训练在真实世界的火灾爆发图像。该框架还利用Grad-CAM方法实现了火在图像中的可视化和定位。该模型还使用了一种注意力机制,该机制显著地帮助网络获得更好的性能。通过Grad-CAM的结果可以观察到,注意力的使用可以使模型在图像中更好地定位火焰。在探索的大量模型中,EfficientNetB0成为解决这个问题的最合适的网络选择。对于所选的真实火灾图像数据集,95.40%的测试精度有力地支持了该模型从所提图像样本中检测火灾的有效性。此外,97.61的高召回率强调了该模型的假阴性可以忽略不计,这表明该网络对于火灾探测是可靠的。
3. 介绍
火灾是一种毁灭性的自然灾害,对人类生活和生态环境造成了巨大的破坏。户外环境的火灾探测已成为人类生命安全的首要问题和一项具有挑战性的任务。近年来,火灾探测系统受到了广泛的关注,有助于保护人员和财产免受火灾威胁。火的某些方面,如光、热和烟,可以通过传感器探测系统来探测。为了最大限度地减少各种火灾事故造成的破坏,各种类型的火灾探测算法最近引入了不同的技术。传统的火灾探测方法使用传感器探测烟雾、火灾大小、初始火焰位置、大气温度等。这些传感器由于成本低、操作简单而非常受欢迎,并已被广泛使用。然而,这些系统探测器可能存在一些缺点,如警报触发较晚,破坏了预警的目的,空间覆盖和信号传输。许多警报在密闭空间中起作用,因此在开放空间中变得低效,例如户外或公共空间,大型基础设施,如体育场、飞机吊架。此外,几乎所有的传感器都需要接近烟雾。由于传感器通常设置在天花板上,烟雾到达天花板所需的时间会造成延迟,从而破坏了早期预警的目的。
在过去几年里,基于摄像机馈线的火灾探测监控系统在计算机视觉研究领域,特别是在卷积神经网络中得到了重要的认可。然而,这些火灾探测方法仍有一些挑战需要克服。许多研究人员提出了通过手动选择特征来创建提议区域的解决方案。这种通过逐个确定提议区域来创建提议区域的过程忽略了在整个检测过程中使用CNN。因此,计算量大,检测速度慢。该问题需要一种有效、稳定的算法来检测火灾,具有高精度和自动化的特征选择,能够防止对人类生命和自然环境造成大规模破坏。当然,基于视觉的自动化系统可以被证明是检测此类事件的一个工具。这项工作也是基于这个想法,提出了一个基于深度学习的火灾探测框架,具有较高的准确性和显著的召回率。
文章设计框架的主要目标是利用真实世界的图像来检测和定位火灾。迁移学习的应用使实施过程更加高效。重复使用预先训练的火灾探测模型具有精度高的优点,从而产生有效探测火灾火焰的潜力。此外,在该模型中还实现了一种注意机制,将模型的焦点吸引到图像的相关部分。文中实施的基本程序概述如下:
1).考虑到传统基于传感器的火灾探测器的局限性,提出了一种有效的基于真实图像的火灾探测CNN框架。该框架避免了特征工程的冗长过程,能够从数据中自发地学习样本特征。
2).火灾图像的数据集并不丰富,也很难获得。因此,通过收集在最近关于这个问题的工作中使用的知名公共数据集的数据中收集的图像,创建了一个复合数据集。3).在迁移学习策略的激励下,许多最先进的CNN架构,如Resnet50, VGG16, GoogLeNetV3,和EfficientNetB0被试验效果。
4).对模型进行了广泛的微调,这样的微调模型在不同的时代数下产生了更好的性能。此外,所提出的框架的计算复杂性随着模型的准确性和大小而稳定,使其成为一个很好的检测系统。
5).框架设计使用了一个全局平均池2D(GAP)方案来提取特征,以及一个注意力机制,将模型的焦点指向图像的不同区域,以提高效果。
6).为了更好的视觉识别和定位,建议的工作还使用了Grad-CAM方法,以便突出显示图像的部分或区域。这有助于识别对这类图像的预测的影响,并提供了关于模型的失效模式的见解。
4. 相关工作
对于各种研究团体来说,由于与其他自然物体(如阳光和照明)的相似性等许多原因,利用计算机视觉技术和深度学习模型来自动探测火灾现在已经成为一个开放的挑战。传统的基于特征工程/提取的方法确实很有前景,但不是处理基于图像的问题的理想选择。因此,目前的深度学习方法已经在计算机视觉任务上获得了最先进的性能。此外,深度学习有多种应用,如图像、视频中的对象检测/分类,现在也用于任何活动的实时检测、语音识别和自然语言处理等。目前,基于计算视觉的火灾探测研究已经提出了基于CNN等深度神经网络的解决方案,并取得了良好的效果。因此,利用CNN来进一步提高火灾探测性能的研究还很少。目前的文献强调了一些针对火灾探测系统提出的解决方案,包括形状、颜色、纹理和运动特征。此外,在可疑烟雾区域被放大的情况下,采用了隐式扩大策略,提高了探测的及时性,有些还利用LSTM对总结出来的特征进行分类。此外,目前的解决方案受到数据集稀缺的问题,这限制了研究人员在分析所提出的模型的鲁棒性。因此,文章探索了一种计算轻量但一个有效的解决方案,基于视觉的火灾探测系统在一个显著的更大的数据集上训练和测试。
5. 模型建立
模型主要目的是利用基于注意力的CNN模型进行火灾探测,并利用Grad-CAM方法进行可视化定位。模型采用TensorFlow和Keras框架实现,模型的训练和测试在谷歌Colab门户网站上进行。GPU的实现有利于加速训练过程,特别是在微调过程中。对于已知的分类问题,使用不同的最先进的模型来训练网络。使用最先进模型的动机是具有良好的分类精度和速度效率。描述这项工作所采用的框架的流程图如下图所示。
A.数据集
用于训练和测试的火图像样本并不多。对于这个问题,大多数公开可用的数据集都太小,无法生成可靠有效的模型。因此,将包括火灾和非火灾的图像样本融合为一个单一的复合大数据集。为工作准备的合成数据集包括来自Dataset, 2021; DeepQuestAI, 2021; Saied, 2020; Carlo, 2021; Bansal,2021。训练数据总共有3988张火场图像和3989张非火场图像。这些图像来自不同的真实世界风景环境,如街道、建筑、人、室内、大厅和森林,这有助于构建一个强大的模型。该数据集对模型提出了重大挑战,因为它包括了混淆的彩色物体,如阳光场景和照明,使火灾探测的任务更加困难。
上图显示了用于训练和测试模型的一些来自复合数据集的样本图像。为了有效的训练和测试,将数据集以8:2的比例分割为训练集和测试集。验证数据占训练数据的10%。数据集中的图像被统一调整为800×600的大小。输入图像以NumPy数组的形式转换,并将大小调整为224x224像素,以减少存储大小。
B. 所提出模型的体系结构
受生物视觉感知过程的启发,CNN被开发出来。第一个广为人知的体系结构是1998年提出的LeNet,它在手写数字分类方面表现出了良好的性能。在后来的几年里,许多变体的CNN被提出。CNN的应用包括对象检测/分类、动作识别、姿态估计、图像分割和场景标记,也用于理解自然语言处理(NLP)和语音识别。CNN被广泛用于处理基于图像的问题,在大规模数据集上获得有希望的结果。这些网络已经成为深度学习的首选模型,因为它们的架构消除了手工制作特征提取阶段的需要。详细的模型体系结构如下图所示。
卷积层是对输入图像进行特征提取的关键层。在卷积层的初始部分使用Kernel/Filter进行卷积操作。对于彩色图像,滤波器具有与输入图像相同的深度,具有多个通道(RGB)。这些过滤器大小不一,并与输入数据一起使用来创建特征图。池化层,也称为子采样层,起着使卷积特征的空间大小最小化的作用。在该模型中,在网络主干网段后引入了一个特殊的池化层,即全局平均池化层(GAP)。这一层计算上一层中每个特征图的平均输出,上一层为每幅图像提取空间特征。全连接层模型的全连接层由两个或更多的隐藏层组成,其中的输入具有更高的表示。FC层学习识别不同形状和位置的完整物体。在设计的模型中,采用稠密层和L2范数正则化,正则化因子为0.01,使模型具有更好的泛化效果。随后,输出被送入一个可训练的层,即空间注意层,在那里它学习注意权值,得到一个用于分类部分的注意力汇集的特征向量。模型的分类层试图学习非线性映射。
在除最后一层外的所有层之间设置了一个以s形为激活函数的整流线性单元(Relu)激活函数。这个函数提供了一个概率分布,将输出映射为0到1的范围。在输出阶段,对体系结构进行了改革,在神经网络的基础上定义了一个新的顶级分类器,并添加了一个dropout层,以避免过拟合。此外,注意机制有效地增强了所提出的网络,在探索信息量最大的特征方面表现出了很大的改进。为了测试模型,使用了验证性能最好的训练参数。
C. 迁移学习
迁移学习是一个流行的概念,它重用预先训练的模型来开发针对新问题的神经网络模型。各种最先进的基于图像的预训练模型都是公开的,这些模型都是经过高效训练的基准数据集。然而,这些模型不能直接应用于任何其他与图像相关的问题,因为它们可能没有接受相关任务的训练。因此,这些预先训练的模型可以用于进一步微调,而不是从头开始开发模型。为了选择对相关分类问题有效的最佳架构,研究了大量的最先进的模型,如VGG-16、GoogLeNetV3、ResNet50和EfficientNetB0。虽然包括集成方法在内的其他模型构建方法已在各种研究中使用,但此类网络往往计算成本较高,因此这些方法尚未在本研究中使用。为了评估鲁棒性,使用了ResNet50残差学习框架,该框架对相关问题表现出略好的性能。残差网络允许通过称为残差模型的模块构建网络来训练深度网络。在使用的CNN中,EfficientNetB0框架被处理战略性地扩展深度神经网络。采用这种预先训练的神经网络是一个理想的选择,因为它具有显著更好的模型效率,也是一个轻量级的模型。在本研究中,在训练阶段,只对最上面的2层和新叠加的分类层进行训练,来自CNN的特征成为注意模型的输入,得到注意力汇集的特征描述,然后分类层对其进行处理,最终进行分类。
D. 注意机制
注意机制是近年来逐渐流行起来的一种新型模块。在提出的框架中,该技术集中在火灾分类的最重要的特征上,在性能上有显著的改进。在处理数据时,该机制更关注输入的不同部分。因此,所提出的模型集中并增加了对图像相关区域的关注。虽然近年来注意机制经历了各种各样的调整以适应多种任务,但应用的注意有多种类型。因此,本文提出的方法聚焦并设置额外的“注意”在图像的适用部分。许多研究人员发起了一项关于注意机制的研究,该研究在提出的框架中实施,以更好地了解图像中的区别特征。此外,文本使用了一种通道式注意机制来检测火灾等级。
E.模型参数
对于模型的训练个体变量,初始超参数、优化方法和损失函数保持一致。使用不同的优化器学习空间注意网络的权值,但AdaGrad优化器对所选问题表现出更好的性能。该网络的学习率为0.01(在某些情况下为0.001),批量大小设置为32。该模型通过在不同时期的训练进行了微调。为了获得这些参数的最佳精度,所有模型的最终结果都在20的epoch进行训练和比较。为了使模型具有更好的泛化性能,对学习算法进行了微小的修改,提高了模型对测试数据的性能。使用的一些正则化技术有:
1). 在密集层之间增加了0.2的衰减,在训练时,在特定的向前或向后传球过程中,不考虑某一组神经元。
2). L2范数也被称为岭回归(最小二乘法),与密集层一起使用。它使目标值和估计值之间的差值的平方和最小化。
各超参数被微调的可行值空间如下表所示。
6. 结果
模型的性能是通过一些统计指标来计算的,如精度、准确性、F-Score和召回率。这些参数的计算结果表明,所设计的模型具有很高的效率和精度。最后,本文采用了2种模型,并给出了相应的结果。
A.评价指标
对于分类问题,评估方案包括各种统计指标,如精度、召回率、f评分和准确性。混淆矩阵也被用来评估模型的性能。混淆矩阵显示了分类模块在进行预测时的困惑。问题的预测类显示在混淆矩阵的列中,而实际类则显示在该矩阵的行中。混淆矩阵可以分为4组分类:TP、TN、FP、FN,其他指标使用以下公式计算
B.实验结果
提出的架构已经通过4个最先进的架构进行了探索,每个架构都经过了多次训练,以确定最佳的模型。对参数进行微调,直到得到准确的结果。从各种模型的组合中,ResNet50和effecinetnetb0架构的结果足够准确,并进一步考虑以AdaGrad作为优化器,学习率为0.01的最佳验证精度。通过超参数微调得到的每个模型组合训练5次,并考虑最佳结果的平均值。观察发现,当增加注意层时,模型的测试性能略有改善,差异显著,为2%。可以得出结论,EfficientNetB0是一个更好的替代方案,因为网络的总参数要少得多,使它比ResNet50更轻。具有最佳参数的两种体系结构的结果如下表所示。
上图显示了表中所示的所有网络变体的性能度量值的图表。
上图为测试过程中得到的混淆矩阵结果。这些曲线是使用Adagrad优化器训练的EfficientNetB0模型的结果,该模型具有20个epoch,批次大小为32。该模型的训练精度为99.90。设计框架的预测是通过使用一种技术来实现的,该技术从基于卷积神经网络(CNN)模型的测试数据集创建视觉解释,使它们在视觉上更加清晰。使用的方法是“梯度加权类激活映射”(Grad-CAM)。
C.模型性能比较
为了比较性能和检查提出的基于注意力的卷积神经网络的有效性,在提出的数据集上实施了以下方法进行比较。模型参数见下表。
上表显示,与该问题的其他解决方案相比,所提模型的可训练参数数量肯定是在较低的一侧。虽然火网模型的可训练参数较小,但无法对图像进行高效的火灾检测。与精度细节的比较结果如下表所示。
上表使用准备好的复合数据集的模型的总体性能达到95%以上,召回率达到97.61%。(Muhammad et al., 2018)的表现次之,epoch的数量最少。他们的模型是在GoogLeNet架构上训练的,在6个epoch内显示出89.41%的测试准确度。(Khan等人,2019年)的工作是一种经济系统,提出使用深层cnn对正常和雾霾物联网环境中的烟雾进行早期检测。他们的过程应用于一个自制的数据集,并使用了经过30个epoch(16个批处理大小)训练的VGG-16架构和一个SGD优化器。该模型在选定的数据集上显示出轻微的不拟合结果,但有0个误报。Jadon等人(2019)设计的模型设计了一种轻量级神经网络,名为FireNet,在100个时代都显示出良好的性能。In (NAMOZOV and CHO, 2018)提出了一种新颖的深度CNN模型,以实现对火灾和烟雾的高精度探测。VGG-12模型在本文提出的数据集上表现不佳,由于数据量不足,在火灾探测方面表现不佳。(Muhammad et al., 2019)设计了一种可在移动设备上部署的模型,并创建了一种用于探测火灾的轻量级深度神经网络系统。他们的网络计算成本低,因为它没有密集的、完全连接的层。与VGG模型相比,移动网络结构易于实现,训练速度快,因此结果性能优越。由(Valikhujaev, Abdusalomov,& Cho, 2020)提出的框架在他们的工作中使用了一种扩展卷积神经网络。该模型在一个定制的数据集上进行了测试,该数据集包括从互联网上收集并手工标记的火灾和烟雾图像。虽然该工作优于以往的方法,但假阳性仍占10.6%的时间,在准确性和假阳性方面仍有发展空间。为了探测火灾,(Dua, Kumar, Singh Charan,& Sagar Ravi, 2020)提出了一种基于迁移学习(深度CNN技术)的火灾探测系统。为了构建火灾探测系统,它采用了预先训练的深层CNN架构,如VGG和MobileNet。为了模拟真实世界的条件,这些模型在不平衡的数据集上进行了评估。另一方面,根据他们提出的模型,我们的数据集产生了21.9%的假阳性率。选择上述方法进行对比分析的思路是,这些方法是为火灾探测而开发的。此外,所有的网络在火灾探测方面都有其应用和特定的目标。
7. 结论
文章提出了一种基于注意力的CNN模型,用于真实图像的火灾探测。模型中还添加了一种注意机制,从而显著提高了数据的性能。所引入的神经网络在测试数据集上表现出了显著的良好性能,并且具有最小的假阴性。为了探索比基线方法更好的性能,进行了几次试验。从为这个问题探索的几个模型来看,EfficientNetB0是一种具有较少可训练参数的高效替代方案。因此得到的模型比最近提出的大多数解决这个问题的方法产生了更好的结果。未来的工作将致力于扩展现有的工作,并开发一个鲁棒的火灾和烟雾探测算法使用视频。在这一领域的未来研究还可以探索特殊生成网络的应用,如GAN网络。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!