论文：LearningaDiscriminativeFilterBankwithinaCNNforFinegrainedRecognition

作者：mobiledu2502861763 | 来源：互联网 | 2023-09-05 15:28

Abstract与早期使用CNN特性的多阶段框架相比，最近采用的端到端深度精细识别方法从本质上提高了CNN的中层学习能力。以前的方法是通过引入一个辅助网络将定位信息

Abstract

与早期使用CNN特性的多阶段框架相比&＃xff0c;最近采用的端到端深度精细识别方法从本质上提高了CNN的中层学习能力。以前的方法是通过引入一个辅助网络将定位信息注入到主分类网络中&＃xff0c;或者通过一个复杂的特征编码方法来获取更高阶的特征统计量来实现这一点。我们证明了中层表示学习可以在CNN框架内得到增强&＃xff0c;通过学习一组卷积滤波器来捕获特定的类别有区别的patch而不需要额外的部分或边框标注。该滤波器组具有良好的结构、适当的初始化和鉴别学习&＃xff0c;通过一种带有卷积滤波器监督和非随机层初始化的新型非对称多流结构。实验结果表明&＃xff0c;我们的方法在3个公开的细粒度识别数据集( (CUB-200-2011, Stanford Cars and FGVC-Aircraf )上达到了最先进的水平。

1. Introduction

细粒度目标识别涉及区分同一超类别的子类别(例如&＃xff0c;鸟类、汽车和飞机)&＃xff0c;解决方案通常利用来自局部区域的信息来捕捉细微的差异。深度学习在该任务中的早期应用是基于卷积神经网络(CNN)的特点构建了传统的多阶段框架; 现在基本都是基于CNN端到端的学习可以分为两种&＃xff1a;1. 定位分类子网络&＃xff1b;2. 端到端的特征编码

早期多阶段的框架利用了低层CNN特征寻找具有判别力的区域和语义部分&＃xff0c;对这些构建中层表示用于分类。他们对比以前的方法有着不错的效果&＃xff0c;这表明了CNN学习中间层表示还有很大的进步空间&＃xff0c;基于这个发现&＃xff0c;作者想要学习一个提高CNN学习中间层表示能力的一个网络。

定位分类子网络: 由定位网络提供的定位信息增强了分类网络的中层学习能力 &＃xff0c;但这需要额外的标签&＃xff08;bounding boxes, part locations ),而且在分类和定位之间存在着一个权衡&＃xff08;要同时考虑两个任务的准确率&＃xff09;&＃xff0c; 这可能会降低单个集成网络的分类性能。
端到端的特征编码&＃xff1a; 通过编码卷积特征图的高阶统计信息&＃xff0c;增强CNN的中级学习。与定位分类子网络相比&＃xff0c;有效的端到端编码网络在非刚性和刚性视觉域上的可解释性和一致性更低。

本文解决了端到端两类网络所面临的问题。主要贡献是在CNN框架中以端到端的方式学习有区别的mid-level patches&＃xff0c;而不需要额外的部分或边框注释。主要由一个1x1的过滤器称为patch detectors&＃xff0c;以一个非对称多流结构利用局部信息和全局信息&＃xff0c;同时引入滤波器监督与非随机层初始化来激活在由判别力区域的过滤器。

3 . DFL

在这里插入图片描述

简单来讲&＃xff0c;patch detecors&＃xff08;显著区域检测器&＃xff09;就是一个1x1的卷积核&＃xff0c;对于使用预训练提取出来的特征CxHxW&＃xff0c;其中每一个Cx1x1的向量表示为原始图片中对应位置的patch。这里我们主要是为了学习一个对于显著区域有着高响应的1x1的过滤器&＃xff0c;通过使用这个卷积层我们获取一个heatmap&＃xff0c;对应上图中的response map&＃xff0c;通过全局最大相应我们可以找到一个对应于原图的显著区域

在这里插入图片描述

这里主要由三个分支&＃xff0c;左面&＃xff08;G-Stream)提取图片的全局特征&＃xff1b;中间&＃xff08;P-Stream)提取图片的局部特征&＃xff1b;右面&＃xff08;side branch&＃xff09;专注于进一步对P-Stream提取的显著区域特征分类&＃xff0c;把具有特征的一些局部特征划分到某一类。在这里插入图片描述

G-Stream没有什么特别可说的&＃xff0c;本文主要亮点在P-Stream和Side Branch;

P-Stream将通过VGG conv4_x输出的特征图输入Conv6(1X1的卷积核)&＃xff0c;其中conv4_x的输出为[-1, 512,56,56]通过Conv后输出为[-1,KM,56,56], k为每个类别提取的显著区域个数&＃xff0c;M为类别&＃xff0c;再通过pool6全局最大池化输出为[-1, KM, 1, 1]表示为该张图片提取了KM的显著区域&＃xff0c;每个类K个。pool6后面接着一个全连接层用来分类然后计算loss。

P-Stream仅仅这样训练不能保证获得期望的局部特征&＃xff0c; 于是提出了Side Branch学习特定类别的判别器 &＃xff0c;它通过一个跨通道平均池化将pool6的输出&＃xff0c;对每k个局部特征进行平均池化输出为[-1, M, 1,1]再接上softmax得到每一类的概率。

Non-Random Init

另一个文章中的要点就是1x1卷积核的初始化了&＃xff0c;事实上如果对1x1的卷积核进行随机初始化&＃xff0c;可能会导致网络陷入局部最优的情况&＃xff0c;因此在这里引入非随机初始化。

这里让第i类的某张图片输入vgg网络得到conv_4输出的特征图&＃xff08;CxHxW&＃xff09;&＃xff0c; 对每一个Cx1x1的向量进行L2正则化得到一个HxW的能量图&＃xff0c; 对能量图进行非最大值抑制挑选N个最大响应&＃xff0c;对这N个最大响应取K个聚类中心进行k-means聚类&＃xff0c;获得H * W * C特征图的K个中心&＃xff0c;用来初始化第i类显著区域检测器。将上文提及的卷积核分为M组&＃xff0c;每组K个。每个聚类中心是一个 Cx1x1的向量。然后用这K个向量来分别初始化每组的显著性区域检测器。

注&＃xff1a;

The P-Stream uses the output of conv4 3 and the minimum receptive field in this feature map corresponds to a patch of size 92 × 92 with stride 8.

vgg conv4_3的输出为512x56x56&＃xff0c;原图448x448&＃xff0c;这里不能认为56x56的每个像素对应一个原图一个8x8的视野&＃xff0c;要明白感受野的概念&＃xff0c;这里给出一个vgg各层的感受野

推荐阅读

go
全卷积网络fcn详解_全卷积神经网络原理

全卷积网络fcn详解_全卷积神经网络原理原文链接：全卷积网络FCN详解背景CNN能够对图片进行分类，可是怎么样才能识别图片中特定部分的物体，在2015年之前还是一个世界难题。神经网 ... [详细]

蜡笔小新 2023-10-10 14:32:07
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
metadata
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
go
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
go
go利用(*interface{})(nil)传递参数类型的原理及应用

本文介绍了在go语言中利用(*interface{})(nil)传递参数类型的原理及应用。通过分析Martini框架中的injector类型的声明，解释了values映射表的作用以及parent Injector的含义。同时，讨论了该技术在实际开发中的应用场景。 ... [详细]

蜡笔小新 2023-12-10 11:37:12
function
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
function
python3 logging

python3logginghttps:docs.python.org3.5librarylogging.html，先3.5是因为我当前的python版本是3.5之所 ... [详细]

蜡笔小新 2023-10-17 18:11:45
sum
C#设计模式之八装饰模式（Decorator Pattern）【结构型】

一、引言今天我们要讲【结构型】设计模式的第三个模式，该模式是【装饰模式】，英文名称：DecoratorPattern。我第一次看到这个名称想到的是另外一个词语“装修”，我就说说我对“装修”的理 ... [详细]

蜡笔小新 2023-10-17 17:43:55
sum
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
range
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
range
注意力汇聚：NadarayaWatson 核回归

Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看， ... [详细]

蜡笔小新 2023-10-10 12:37:01
sum
开发笔记:共享单车数据分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了共享单车数据分析相关的知识，希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]

蜡笔小新 2023-10-10 10:55:15
range
seaborn箱线图_Seaborn线图的数据可视化

seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]

蜡笔小新 2023-10-10 04:04:09
range
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52

mobiledu2502861763

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章