AOGNet：基于深度ANDOR语法网络的目标识别方法

本期推荐的论文笔记来自 PaperWeekly 社区用户 &＃64;duinodu。本文研究的问题是深度学习中的网络工程问题。如何设计更好的网络结构&＃xff0c;是目前的一个研究热点。这样的网络结构一旦被设计出来&＃xff0c;可以马上用于很多其他任务。

本文贡献主要有两点&＃xff1a;

1. 把语法模型和深度神经网络模型结合起来&＃xff0c;设计的模型同时兼顾特征的 exploration and exploitation&＃xff08;探索和利用&＃xff09;&＃xff0c;并在网络的深度和宽度上保持平衡&＃xff1b;

2. 设计的网络结构&＃xff0c;在分类任务和目标检测任务上&＃xff0c;都比基于残差结构的方法要好。

如果你对本文工作感兴趣&＃xff0c;点击底部的阅读原文即可查看原论文。

关于作者&＃xff1a;杜敏&＃xff0c;华中科技大学硕士生&＃xff0c;研究方向为模式识别与智能系统。

■ 论文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

■ 链接 | https://www.paperweekly.site/papers/1315

■ 作者 | duinodu

论文亮点

网络工程问题&＃xff0c;属于深度学习中比较基础的问题。网络工程的最大难点在于&＃xff0c;由于缺乏对深度神经网络的理论理解&＃xff0c;无法根据某种理论来设计网络结构&＃xff0c;实际中更多的不断地尝试&＃xff0c;根据实验反馈来确定某种结构是不是好。

而使用像增强学习、进化算法等自动学习网络结构的方法&＃xff0c;搜索空间巨大。有两个子空间&＃xff0c;一个是结构连接子空间&＃xff0c;一个是运算符子空间&＃xff0c;搜索空间是这两个空间的乘积&＃xff0c;自动学习网络结构的算法需要昂贵的计算资源。

本文的解决办法是&＃xff0c;把语法模型&＃xff08;grammer model&＃xff09;放到神经网络的设计中来&＃xff0c;在分类和目标检测任务中&＃xff0c;均取得比基于残差结构的模型更好的效果。

模型介绍

整个模型概览图如下&＃xff1a;

中间有 4 个 AOG 构建块&＃xff0c;每个 AOG 块的结构如下图所示&＃xff1a;

AOG 的全称叫 AND-OR graph&＃xff0c;是一种语法模型&＃xff08;grammer model&＃xff09;。在人工智能的发展历程中&＃xff0c;大体有两种解决办法&＃xff1a;一种是自底向上&＃xff0c;即目前非常流形的深度神经网络方法&＃xff0c;另一种方法是自顶向下&＃xff0c;语法模型可以认为是一种自顶向下的方法。

所谓的语法模型&＃xff0c;即规定 3-4 条规则&＃xff0c;构建 graph&＃xff0c;graph 可以认为是一种特征表达的范式&＃xff0c;它没有具体规定特征表达是什么形式&＃xff0c;但是如果遵循这种规则构建特征表达&＃xff0c;却能达到比较好的效果。本文使用如下三条语法规则&＃xff1a;

AOGNet 的构建流程如下&＃xff1a;

可以配合视频[1]&＃xff0c;看这个流程图。

网络工程分为两个部分&＃xff1a;设计连接结构和设计运算操作符&＃xff08;structure space 和 operator space&＃xff09;。

整个的 CNN 发展历程&＃xff0c;都可以归结到这两点。论文的相关工作部分&＃xff0c;很好地对 CNN 网络结构的演变&＃xff0c;梳理了一番&＃xff0c;有如下网络结构&＃xff1a;

LeNet-5&＃xff08;20 年前&＃xff09;
AlexNet&＃xff08;8 层&＃xff0c;在 operator space 提出两种新的操作符&＃xff1a;ReLU 和 Dropout)&＃xff09;
VGG Net&＃xff08;19 层&＃xff0c;多个连续的重复的小卷积核&＃xff0c;且卷积的 stride 很小&＃xff09;
network-in-network&＃xff08;用 1x1 的卷积&＃xff0c;在层层之间&＃xff0c;增大或者较少特征的维数&＃xff09;
GoogleNet&＃xff08;inception, bottleneck&＃xff09;
Highway network&＃xff08;skip connection&＃xff09;
Residual Network&＃xff08;Residual connection&＃xff09;
Fractal Net&＃xff08;another short path without residual&＃xff09;
DenseNet&＃xff08;concatenation scheme&＃xff09;
Dual Path Network SE-Net&＃xff08;channel-wise encoding&＃xff09;
Hourglass&＃xff08;subsampling & upsampling&＃xff09;

使用三条语法规则构建了网络连接方式&＃xff0c;网络中每个节点的运算操作符采用 Bottleneck &＃43; Conv_BN_ReLU 的方式。

其实可以不同的节点&＃xff0c;设计不同的运算符&＃xff0c;作者这里都统一成一样的。处理上面统一的运算符&＃xff0c;各个不同的节点还要分别做下面的运算。

实验结果

在 CIFAR 和 ImageNet-1k 上做了分类的实验&＃xff0c;在 VOC0712 做了目标检测的实验&＃xff08;使用 fasterRCNN 框架&＃xff09;。

文章评价

本文作者团队是朱松纯教授[2]组的&＃xff0c;他们组一直在做语法模型。之前读过他写的《人工智能的现状、任务、架构和统一》[3]&＃xff0c;看到这篇文章以及了解了语法模型&＃xff0c;才算是了解朱松纯组到底要做什么样的事情。

语法模型和深度神经网络&＃xff0c;是可以相互融合的方法&＃xff0c;前者基于规则&＃xff0c;后者基于大量数据拟合。本文只是语法模型的冰山一角&＃xff0c;另一篇论文 Interpretable R-CNN [4]&＃xff0c;也用到了语法模型&＃xff0c;和 RFCN 方法结合&＃xff0c;获得一种目标的 part configuration。

这种语法模型目前还在探索之中&＃xff0c;尤其是和深度神经网络结合的工作&＃xff0c;以及和 GAN、RL 等不同范式的深度学习方法结合&＃xff0c;应该会有有趣的工作。