DeepInsideConvolutionalNetworks:VisualisingImageClassificationModelsandSaliencyMaps中文翻译

作者：马丁乐_449 | 来源：互联网 | 2023-08-18 12:27

PDF版本下载：http:download.csdn.netdetailzcy0xy9739878DeepInsideConvolutionalNetworks:

PDF版本下载&＃xff1a;

http://download.csdn.net/detail/zcy0xy/9739878

Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps
摘要
本文提出了图像分类的可视化模型&＃xff0c;这一模型使用了深度卷积网络&＃xff08;Convnet&＃xff09;。基于分别计算分类得分的梯度&＃xff0c;我们考虑了两种可视化技术&＃xff1a;第一种生成了一张图可以最大化图像分类的得分&＃xff0c;由Convnet捕获。第二种对于给定的图片和类&＃xff0c;计算其显著性图。我们的研究表明&＃xff0c;这种显著图可以用在弱监督目标分割上&＃xff08;使用卷积网络&＃xff09;。最后&＃xff0c;我们建立了基于梯度的卷积网络与反卷积神经网络的联系。
一、介绍
随着Convnet现在被用来构建大规模图像识别&＃xff0c;理解Convnet内部的视觉表现&＃xff0c;模型内部结构变得越来越重要&＃xff0c;本文就聚焦于此&＃xff0c;认真探讨了这个课题。以前的研究中&＃xff0c;Erhan通过寻找一张可以最大化神经元激励活动的输入图像来实现可视化。这一方法被用于可视化非监督深度体系结构&＃xff0c;比如深信服网络Deep Belief Network&＃xff0c;后来又被李等人用于探究深度非监督自编码分类模型的内部结构。最近&＃xff0c;Zeiler提出要把Convnet也给可视化了。针对卷积层的可视化&＃xff0c;他们提出了反卷积网络结构&＃xff0c;其目的是为了根据输出重建每一层的输入。
在本文中&＃xff0c;我们提出了深度图像分类Convnet的可视化&＃xff0c;这一网络的数据集是大型ImageNet挑战数据集。最后&＃xff0c;我们就做了三件小事&＃xff0c;很惭愧。第一个是我们论证了对输入图像进行数值优化&＃xff0c;可以获得卷积分类模型的可视化结果。注意&＃xff0c;在我们的实验中&＃xff0c;网络训练是有监督的&＃xff0c;因为这样我们才能知道在会后的全连接层中&＃xff0c;哪个神经元应该被设置到最大来可视化感兴趣类。据我们所知&＃xff0c;我们是第一个使用这一方法来可视化ImageNet分类卷积网络的人&＃xff0c;我们老高兴了。第二个是我们提出了一种在给定图像&＃xff08;特定图像的类显著图&＃xff09;里计算给定类的空间支持的方法&＃xff0c;方法采用了一个单层BP传播Convnet。在3.2中我们也说了&＃xff0c;这样的显著图可以被用与弱监督目标定位。第三&＃xff0c;在第4部分&＃xff0c;我们展示了基于梯度的可视化方法推广到了反卷积网络重构中。
Convnet实现的一些细节
我们的可视化实验使用一个单层深度Convnet&＃xff0c;数据集是ILSVRC-2013&＃xff0c;包含了1.2M张图片&＃xff0c;被分成1000各类别。
二、分类模型可视化
这一部分描述了一种可视化分类模型的技术&＃xff0c;是通过图像分类Convnet来学习的。给定一个分类Convnet和感兴趣的类&＃xff0c;可视化的方法包括数值生成一幅图像。
具体而言&＃xff0c;令Sc(I)为分类C的得分&＃xff0c;得分由一幅图片I在Convnet的分类层计算得来。我们需要找到L2规则化图像&＃xff0c;使得Sc尽可能的高。

其中lamda是归一化参数&＃xff0c;局部最优的I可以通过BP方法得到。这一过程与Convnet的训练步骤相关联&＃xff0c;该步骤中BP被用于最优化层的权重。不同的是&＃xff0c;在我们的实验中最优化是根据输入图像来确定的&＃xff0c;并且在训练阶段权值被固定。我们用全0图像来初始化优化过程&＃xff0c;然后把训练集平均图像加入到结果中。几个类的分类模型可视化展示在fig1中

值得注意的是&＃xff0c;我们使用了分类得分Sc&＃xff0c;而不是soft-max层返回的分类后摇&＃xff08;posterior&＃xff09;

原因是可以通过最小化分类得分来最大化分类后摇&＃xff08;posterior&＃xff09;。因而我们最优化Sc来确保优化仅仅集中在针对c的类。我们也尝试了最优化后摇Pc&＃xff0c;但是结果并不好&＃xff0c;这证明了我们的想法。
三、特定图像类的显著图
在这一部分&＃xff0c;我们阐述了在给定图像中一个分类Convnet是怎么跟特定类的空间支持联系的。给定图像I0&＃xff0c;类c&＃xff0c;以及分类有着分类得分函数Sc&＃xff08;I&＃xff09;的Convnet&＃xff0c;我们会根据I0中各个像素的得分来对他们排序。我们从一个激励的例子开始&＃xff0c;考虑类c的线性分类模型

图像I被表示成矢量形式&＃xff0c;wc和bc分别是模型中的权重值和偏移值。在本例中&＃xff0c;显然元素w的大小定义了其对应像素I在分类c上的重要性。在深度Convnet的例子中&＃xff0c;分类得分Sc&＃xff08;I&＃xff09;是一个I的非线性函数&＃xff0c;所以前面的推理不能马上应用过来。然而&＃xff0c;给定一幅图像I0&＃xff0c;我们可以通过计算第一级泰勒级数把Sc(I)近似成一个I0邻域的线性方程

W是Sc在点I0相对于图像I的导数
另一种使用分类得分导数计算特定图像分类显著图的解释是&＃xff1a;导数的大小表示了为了尽可能影响得分哪一个像素需要被改变。谁都知道像素对应于图像中的目标位置。我们注意到一个相似的技术已经被应用到贝叶斯语境分类上了。
3.1 分类显著图提取
给定图像I0与类c&＃xff0c;显著图M2是这样计算的&＃xff1a;首先&＃xff0c;导数w 通过BP来求出&＃xff1b;接下来&＃xff0c;重新排列矢量w的元素获得显著图&＃xff1b;在灰度图中&＃xff0c;w元素的个数等于I0中的像素个数&＃xff0c;所以显著图可以如下计算&＃xff1a;

H(i j)是w中元素的坐标&＃xff0c;对应于第i行第j列。在多通道图中&＃xff0c;假设&＃xff08;i, j&＃xff09;像素的颜色通道c对应于w的元素中的h(I,j,c)。为了在像素点&＃xff08;i&＃xff0c;j&＃xff09;上对某个类求导&＃xff0c;我们令w为各个颜色通道上最大的那个

注意&＃xff0c;显著图使用分类ConvNet训练图像标签得到的&＃xff0c;除此之外的信息都不需要&＃xff08;比如图像分类中的目标的范围的框子&＃xff09;。对特定图像制定类的显著图的计算非常的快&＃xff0c;因为他仅仅需要一个BP传播。
我们在随机测试数据集上按照得分最高的类可视化显著图fig2.与ConvNet分类步骤类似&＃xff0c;分类预测在10个裁剪子图上计算出来&＃xff0c;我们计算10个子图集的显著图&＃xff0c;然后求平均。

3.2 弱监督目标定位
给定图像给定类&＃xff0c;弱监督分类显著图可以编码目标的位置&＃xff0c;因此可以被用于目标定位。我们再次简要地描述了一个简单的目标定位步骤&＃xff0c;我们用它来完成ILSVRC-2013挑战数据集的定位任务。
给定图像和相应的类显著图&＃xff0c;我们使用GraphCut颜色分割来计算出目标分割的边缘。这么用的灵感是来自于这样一个事实&＃xff1a;显著图可能只能捕获最为目标中discriminative的部分&＃xff0c;所以显著图的阈值可能不能把整个目标都标出来。所以&＃xff0c;需要根据最显著的那部分区域&＃xff0c;延伸到目标的整体区域&＃xff0c;我们准备通过颜色连续性来实现这一点。前景色和背景色模型按照高斯混合模型设置好。前景模型阈值设置为整幅图片显著性的95%&＃xff1b;背景色设置为整幅图最小的30%显著性&＃xff08;下图的右中&＃xff09;。使用公开的算法实现GraphCut分割。一旦前景和背景的图像像素标签被计算完毕&＃xff0c;目标分割的边缘被设置为前景像素的最大连通域&＃xff08;下图的右边&＃xff09;。

我们把我们的目标定位方法输入到ILSVRC-2013定位挑战数据集。考虑到数据集需要输出目标边框&＃xff0c;我们计算了目标边框的矩形框。这样的步骤重复执行在预测最高的5个分类上。方法取得了46.4%错误率在ILSVRC-2013测试数据集上。注意这里是弱监督方法&＃xff0c;而且目标定位任务没有被考虑进去。尽管进行了简化&＃xff0c;这一方法的成果依然比ILSVRC-2012 challenge数据集上执行的50%错误率要低&＃xff0c;那时候采用的是基于部分模型和Fisher矢量特征编码的全监督算法。
4 与反卷积网络的关系
在这一部分&＃xff0c;我们建立了基于梯度的可视化方法以及反卷积结构。像下面我们所展示的&＃xff0c;n层基于DeconvNet的重建的输入Xn与计算可视化神经元激励函数f相对于Xn的导数类似&＃xff0c;所以DeconvNet实际上对应于通过ConvNet的梯度BP。

这几段介绍了卷积层&＃xff0c;RELU修正层&＃xff0c;max-pooling层的导数计算。

我们得出结论&＃xff1a;除了RELU层&＃xff0c;使用DeconvNet来计算近似特征图重构Rn&＃xff0c;与使用BP计算&＃64;f/&＃64;Xn相似&＃xff0c;这是我们可视化算法的一部分。所以&＃xff0c;基于梯度的可视化可以被看做一种归纳&＃xff0c;因为基于梯度的技术可以被用于任何层活动的可视化&＃xff0c;不仅仅是卷积层。特别的是&＃xff0c;在本文中&＃xff0c;我们在最后的全连接层可视化了分类得分神经元。
注意&＃xff0c;我们的类模型可视化描述了类的概念&＃xff0c;这个类指的是ConvNet所分的类&＃xff0c;而不是任何特定图片。同时&＃xff0c;类显著可视化是image-specific的&＃xff0c;从这个意义上来说&＃xff0c;它跟image-specific卷积层可视化是有联系的。
5 结论
在本文中&＃xff0c;我们展示了2中深度分类ConvNets的可视化技术。第一个是产生一个人工图像&＃xff0c;该图像代表了感兴趣的类。第二个是计算image-specific类显著图&＃xff0c;根据给定的类标明给定图像的高亮区域。我们展示了这样的显著图可以被用于初始化GraphCutbased目标分类&＃xff0c;而不需要训练分割或检测出目标。最后&＃xff0c;我们论述了基于梯度的可视化技术推广反卷积重构步骤。

推荐阅读

python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
python
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
python
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
bit
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
request
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
fetch
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
config
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
config
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
request
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
request
浅析卷积码的应用及其优势：探讨卷积编码在通信系统中的关键作用与特性

本文详细介绍了卷积编码的基本原理，并深入分析了其在通信系统中的应用及其显著优势。卷积编码通过在编码过程中引入冗余信息，有效提高了数据传输的可靠性和抗干扰能力，成为现代通信系统中不可或缺的关键技术。文章还探讨了卷积编码在不同场景下的具体实现方法及其性能特点。 ... [详细]

蜡笔小新 2024-11-08 20:36:21
shell
精选Linux经典著作在数字图书馆展出

数字图书馆近期展出了一批精选的Linux经典著作，这些书籍虽然部分较为陈旧，但依然具有重要的参考价值。如需转载相关内容，请务必注明来源：小文论坛（http://www.xiaowenbbs.com）。 ... [详细]

蜡笔小新 2024-11-08 10:55:29
config
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
config
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
request
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29

马丁乐_449

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章