热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AOGNet:基于深度ANDOR语法网络的目标识别方法

本期推荐的论文笔记来自PaperWeekly社区用户duinodu。本文研究的问题是深度学习中的网络工程问题。如何设计更好的网络结构,是目前的一个研究热点。这样的网络

本期推荐的论文笔记来自 PaperWeekly 社区用户 @duinodu本文研究的问题是深度学习中的网络工程问题。如何设计更好的网络结构,是目前的一个研究热点。这样的网络结构一旦被设计出来,可以马上用于很多其他任务。


本文贡献主要有两点:

1. 把语法模型和深度神经网络模型结合起来,设计的模型同时兼顾特征的 exploration and exploitation(探索和利用),并在网络的深度和宽度上保持平衡;

2. 设计的网络结构,在分类任务和目标检测任务上,都比基于残差结构的方法要好。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:杜敏,华中科技大学硕士生,研究方向为模式识别与智能系统。


■ 论文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

■ 链接 | https://www.paperweekly.site/papers/1315

■ 作者 | duinodu


论文亮点


网络工程问题,属于深度学习中比较基础的问题。网络工程的最大难点在于,由于缺乏对深度神经网络的理论理解,无法根据某种理论来设计网络结构,实际中更多的不断地尝试,根据实验反馈来确定某种结构是不是好。


而使用像增强学习、进化算法等自动学习网络结构的方法,搜索空间巨大。有两个子空间,一个是结构连接子空间,一个是运算符子空间,搜索空间是这两个空间的乘积,自动学习网络结构的算法需要昂贵的计算资源。 


本文的解决办法是,把语法模型(grammer model)放到神经网络的设计中来,在分类和目标检测任务中,均取得比基于残差结构的模型更好的效果


模型介绍


整个模型概览图如下:



中间有 4 个 AOG 构建块,每个 AOG 块的结构如下图所示:


AOG 的全称叫 AND-OR graph,是一种语法模型(grammer model)。在人工智能的发展历程中,大体有两种解决办法:一种是自底向上,即目前非常流形的深度神经网络方法,另一种方法是自顶向下,语法模型可以认为是一种自顶向下的方法。


所谓的语法模型,即规定 3-4 条规则,构建 graph,graph 可以认为是一种特征表达的范式,它没有具体规定特征表达是什么形式,但是如果遵循这种规则构建特征表达,却能达到比较好的效果。本文使用如下三条语法规则:




AOGNet 的构建流程如下:



可以配合视频[1],看这个流程图。 


网络工程分为两个部分:设计连接结构和设计运算操作符(structure space 和 operator space)。


整个的 CNN 发展历程,都可以归结到这两点。论文的相关工作部分,很好地对 CNN 网络结构的演变,梳理了一番,有如下网络结构:

  • LeNet-5(20 年前)

  • AlexNet(8 层,在 operator space 提出两种新的操作符:ReLU 和 Dropout))

  • VGG Net(19 层,多个连续的重复的小卷积核,且卷积的 stride 很小)

  • network-in-network(用 1x1 的卷积,在层层之间,增大或者较少特征的维数)

  • GoogleNet(inception, bottleneck)

  • Highway network(skip connection)

  • Residual Network(Residual connection)

  • Fractal Net(another short path without residual)

  • DenseNet(concatenation scheme)

  • Dual Path Network SE-Net(channel-wise encoding)

  • Hourglass(subsampling & upsampling)

使用三条语法规则构建了网络连接方式,网络中每个节点的运算操作符采用 Bottleneck + Conv_BN_ReLU 的方式。



其实可以不同的节点,设计不同的运算符,作者这里都统一成一样的。处理上面统一的运算符,各个不同的节点还要分别做下面的运算。




实验结果


在 CIFAR 和 ImageNet-1k 上做了分类的实验,在 VOC0712 做了目标检测的实验(使用 fasterRCNN 框架)。






文章评价


本文作者团队是朱松纯教授[2]组的,他们组一直在做语法模型。之前读过他写的《人工智能的现状、任务、架构和统一》[3],看到这篇文章以及了解了语法模型,才算是了解朱松纯组到底要做什么样的事情。 


语法模型和深度神经网络,是可以相互融合的方法,前者基于规则,后者基于大量数据拟合。本文只是语法模型的冰山一角,另一篇论文 Interpretable R-CNN [4],也用到了语法模型,和 RFCN 方法结合,获得一种目标的 part configuration。


这种语法模型目前还在探索之中,尤其是和深度神经网络结合的工作,以及和 GAN、RL 等不同范式的深度学习方法结合,应该会有有趣的工作。

相关链接

[1] AOGNet 构建流程视频

http://v.youku.com/v_show/id_XMzIxNDU4MTQ4NA

[2] 朱松纯教授主页

http://www.stat.ucla.edu/~sczhu/

[3] 人工智能的现状、任务、架构和统一

http://www.stat.ucla.edu/~sczhu/Blog_articles/浅谈人工智能.pdf

[4] Interpretable R-CNN

https://www.paperweekly.site/papers/1215






推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • MongoDB用户验证auth的权限设置及角色说明
    本文介绍了MongoDB用户验证auth的权限设置,包括readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase、dbAdminAnyDatabase、cluster相关的权限以及root权限等角色的说明和使用方法。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 1、工具VS2015OpenCV3.20下载地址:https:sourceforge.netprojectsopencvlibrary2、步骤1.下载工具ÿ ... [详细]
  • Introduction(简介)Forbeingapowerfulobject-orientedprogramminglanguage,Cisuseda ... [详细]
author-avatar
minggute_111
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有