ACNet:特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类|CVPR2020

作者：君与龙_501 | 来源：互联网 | 2023-05-18 13:16

论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数来定义从根节点到叶子节点的计算路径，结合所有叶子节点的预测值进行最终的预测，论文的创意和效果来看都十分不错

来源：晓飞的算法工程笔记公众号

论文: Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

论文地址：https://arxiv.org/abs/1909.11378

Introduction

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支，由于类别间的相似性非常大，一般人比较难区分，所以是个很有研究意义的领域。受神经树研究的启发，论文设计了结合注意力卷积的二叉神经树结构(attention convolutional binary neural tree architecture, ACNet)用于弱监督的细粒度分类，论文的主要贡献如下：

提出结合注意力卷积的二叉神经树结构ACNet用于细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数从而定义从根节点到叶子节点的计算路径，类似于神经网络。这样的结构让算法有类似于神经网络的表达能力，以及能够从粗到细的层级进行特征学习，不同的分支专注于不同的局部区域，最后结合所有叶子节点的预测值进行最终的预测
添加attention transformer模块来加强网络获取关键特征进行准确分类
在三个数据集CUB-200-2011、Stanford Cars和Aircraft上达到了SOTA

#Attention Convolutional Binary Neural Tree

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

ACNet包含4个模块，分别是主干网络(backbone network)、分支路由(branch routing)、attention transformer和标签预测(label prediction)，如图2所示。将ACNet定义为 $(T, O) (\mathbb{T},\mathbb{O})$ ， $\mathbb{T}$ 为树状拓扑结构， $\mathbb{O}$ 为树边的操作集。论文使用满二叉树 $\mathbb{T}=\{\mathcal{V},\mathcal{E}\}$ ， $\mathcal{V}=\{v_1,...,v_n \}$ 为节点， $\mathcal{E}=\{e_1,...,e_k \}$ 为边，对于树深 $h$ ，共 $n=2^h-1$ 节点， $k=2^h-2$ 边。每个节点为路由模块，决定下一个计算节点，边采用attention transformer进行操作。另外，满二叉树 $\mathbb{T}$ 采用了非对称结构，例如左边使用两个transformer模块，右边使用一个transformer模块，这样有利于提取不同尺寸的特征

Architecture

Backbone network module

由于细粒度类别的关键特征都是高度局部的，需要使用相对较小的感受域来提取特征，因此主干网络使用截断的VGG-16网络，输入改为 $448 \times 448 448\times 448$

Branch routing module

分支路由用来决定子节点的选择，结构如图2b所示， $k k$ -th层的 $i$ -th路由模块 $\mathcal{R}_i^k(\cdot)$ 由 $1\times 1$ 卷积和global context block组成

global context block的大概结构如上图a所示，来自GCNet的论文中。在context modeling和fusion步骤使用了simplified NL block，在transform步骤使用了SE block，这个模块能够很好地结合上下文信息来提取特征，最后使用global average pooling、element-wise square-root、L2正则化以及sigmoid**的全连接层输出标量 $[0,1]$
假设分支路由模块 $R_i^k(x_j)$ 输出样本 $x_j\in X$ 到右边节点的概率为 $\phi_i^k(x_j)\in [0,1]$ ，则输出到左边节点的概率为 $1 - \phi_i^k(x_j)$ ，概率越大的节点对最终结果的影响越大

Attention transformer

Attention transformer模块用于加强网络获取关键特征的能力，在 $3 \times 3 3\times 3$ 卷积后面插入结构如图2c所示的attention模块，该模块的旁路输出一个大小为 $\mathbb{R}^{C\times 1\times 1}$ 的channel attention map对输入特征进行加权

Label prediction

对于ACNet的每个叶子节点，用标签预测模块 $P_{i} \mathcal{P}_i$ 来预测目标 $x_j$ 的类别， $r_i^k(x_j)$ 为目标 $x_j$ 从根节点到k层第i个节点的累计概率，预测模块由 $1\times 1$ 卷积层、max pooling层、L2归一化层、全连接层和softmax层组成，通过求和所有的叶子节点的预测结果和路径累计概率的乘积得到最终的预测 $\mathcal{C}(x_j)={\sum}_{i=1}^{2^{h-1}}\mathcal{P}_i(x_j)r_i^h(x_j)$

最终的预测结果 $\mathcal{C}(x_j)$ 的各项和为1，论文对其进行了证明，有兴趣的可以去看看，主要基于叶子节点的累计概率和为1，各叶子节点的预测结果和也为1

Training

Data augmentation

在训练阶段，使用裁剪和翻转操作进行数据增强，首先将图片缩放至短边512像素，然后随机裁剪到 $448 \times 448 448\times 448$ ，随机进行翻转

Loss function

ACNet的损失函数由两部分组成，分别为叶子节点预测产生的损失以及最终结果产生的损失。 $h h$ 为树高， $y^*$ 为GT， $L(\mathcal{P}_i(x_j),y^*)$ 为最终预测结果的负对数似然损失， $L(\mathcal{P}(x_j),y^*)$ 为第 $i$ 个叶子预测结果的负对数似然损失

Optimization

主干网络使用在ILSVRC上预训练的模型，使用"xavier"进行所有卷积层的随机初始化，整个训练过程包含两阶段，第一阶段固定主干网络训练60周期，第二阶段则使用小学习率对整个网络进行200周期的fine-tune

Experiments

训练共需要512G内存，8张V100，下面的实验主要跟弱监督的细粒度算法进行对比，即不需要额外的标注的细粒度算法

CUB-200-2011 Dataset

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Stanford Cars Dataset

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Aircraft Dataset

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Ablation Study

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Effectiveness of the tree architecture

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

如图5所示，使用树状结构能够显著提升准确率，使用Grad-CAM产生heatmap来对叶子节点对应的响应区域进行可视化，发现不同的叶子节点关注的特征区域各不一样

Height of the tree

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

Asymmetrical architecture of the tree

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

论文对比左右路径的attention transformer数的对称性对识别的影响

Effectiveness of the attention transformer module

如图5所示，attention transformer模块能够有效地提升模型的准确率

Components in the branch routing module

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

论文发现不同的分支路由模块关注的特征区域也不一样，图6的可视化结果分别为图2的R1、R2和R3节点使用Grad-CAM得到的响应区域

CONCLUSION

论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数来定义从根节点到叶子节点的计算路径，结合所有叶子节点的预测值进行最终的预测，论文的创意和效果来看都十分不错

如果本文对你有帮助，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020

推荐阅读

range
深度强化学习Policy Gradient基本实现

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然 ... [详细]

蜡笔小新 2024-09-25 17:01:10
io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
SENDMESSAGE函数巧应用

在这一期的SendMessage函数应用中，我将向大家介绍如何利用消息函数来扩展树型列表(TreeView)控件的功能相信对于树型列表控件大家十分的熟悉， ... [详细]

蜡笔小新 2024-09-29 19:45:57
sum
文本生成图像简要回顾 text to image synthesis

摘要文本生成图像作为近几年的热门研究领域，其解决的问题是从一句描述性文本生成与之对应的图片。近一周来，我通过阅读了近几年发表于顶会的近10篇论文，做出本文中对该方向的 ... [详细]

蜡笔小新 2024-09-29 11:02:00
io
Lodash 中文文档 (v3.10.1)“Collection” 要领

Lodash中文文档(v3.10.1)–“Collection”要领TranslatedbyPeckZegOriginalDocs:Lodashv3.10.1Docs乞助翻译文档的 ... [详细]

蜡笔小新 2024-09-28 08:08:39
io
gbdt伪代码,GBDT是什么意思

文章目录1.解释一下GBDT算法的过程1.1Boosting思想1.2GBDT原来是这么回事2.梯度提升和梯度下降的区别和联系是什么？3.GBDT的优点和局限性有哪 ... [详细]

蜡笔小新 2024-09-27 13:22:27
io
SciKitLearn标签编码器导致错误“参数必须是字符串或数字”

我有点困惑-在这里创建ML模型。我正在尝试从“大”数据框（180列）中获 ... [详细]

蜡笔小新 2024-09-26 18:39:21
io
vcharts的那些坑

每次用到v-charts我都一阵头疼，因为明明是相同的功能，但是我好像每次用到的解决方法都不一样？？每次都是在api中各种查，各种尝试…直到做了个各种数据图形的需求，决定还是好好整 ... [详细]

蜡笔小新 2024-09-26 15:35:07
io
Import acm certificate (like IAM server certificate)

Fixes#3560Itriedtodowhatproposedintheissue(inthisbranchhttps://gith ... [详细]

蜡笔小新 2024-09-26 15:25:53
io
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
range
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
range
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
future
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
io
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00