热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ICLR666!自注意力可以替代CNN,能表达任何卷积滤波层丨代码已开源

鱼羊十三发自凹非寺量子位报道|公众号QbitAI像素层面上,CNN能做的,自注意力(self-attention)也都能做。统御NLP界的注意力机制&#
鱼羊 十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI

像素层面上,CNN能做的,自注意力(self-attention)也都能做。

统御NLP界的注意力机制,不仅被迁移到了计算机视觉中,最新的研究还证明了:

CNN卷积层可抽取的特征,自注意力层同样可以。

论文地址:https://arxiv.org/abs/1911.03584

这项工作来自洛桑理工学院,研究表明:

只要有足够的头(head)和使用相对位置编码,自注意力可以表达任何CNN卷积滤波层

此外,还中选ICLR 2020,在Twitter上也受到了广泛的关注。

在论文摘要末尾,作者还霸气的附上了一句:

代码已开源!

多头自注意力层如何表达卷积层?

众所周知,Transformer的兴起,对NLP的发展起到了很大的作用。

它与以往的方法,如RNN和CNN的主要区别在于,Tranformer可以同时处理输入序列中的每个单词

其中的关键,就是注意力机制

尤其是在自注意力情况下,可以无视单词间的距离,直接计算依赖关系,从而学习一个句子中的内部结构。

那么,问题来了:自注意力能替代CNN吗?

为了研究这个问题,需要先来回顾一下它们分别是如何处理一张图像。

给定一张图像,其大小为W x H x D。

卷积层

卷积神经网络由多个卷积层和子采样层组成。

每个卷积层可以学习大小为K x K的卷积滤波器,输入和输出的维度分别是Din和Dout。

用一个4D核张量(维度为K x K x Din x Dout)和一个偏置向量b(维度为Dout)来对层进行参数化。

下面这张动图便展示了如何计算q的输出值。

对于个K x K的卷积,计算给定像素(蓝色)的输出值。

多头自注意力层

CNN和自注意力层的主要区别是,一个像素的新值依赖于图像的其他像素

相对于感受野(receptive field)是K x K领域网格的卷积层,自注意力的感受野始终是全图像。

这就带来了一些“缩放”方面的挑战。

自注意力层由一个大小为Dk的键/查询,大小为Dh的头,一组头Nh,以及一个维度为Dout的输出组成。

对于每个头h,由一个键矩阵(key matrix)W(h)key,查询矩阵(query matrix)W(h)qry和一个值矩阵(value matrix)W(h)val来进行参数化。

映射矩阵Wout用来将所有头集合到一起。

由多头自注意力层计算查询像素(深蓝色)的输出值。右上角显示每个头的注意力概率示例,红色位置表示“注意力中心”。

再参数化

到这一步,你可能已经观察到了自注意力层和卷积层之间的相似性。

假设每对键 / 查询矩阵(W(h)key和W(h)qry)可以在任意shift△处专注于单个像素。

然后每个注意力头将学习一个值矩阵W(h)val

因此,卷积核的感受野中像素个数与头(Nh=K x K)的个数相关。

也就是说,使用一个多头注意力层就能模拟一个卷积层

将一个多头自注意力层应用于张量图像X。

用自注意力层表达卷积层时,有2个关键的要求:

多个头去处理卷积层感受野的每个像素:例如3 x 3的核需要9个头
使用相对位置编码来确保平移等变性(translation equivariance)

相对位置编码

自注意力模型的一个关键特性,是它的输出与输入像素的打乱方式无关。

在输入顺序比较重要的情况下,这会导致一些问题。

为了减轻这种限制,对序列中的每个标记(或图像中的像素)进行位置编码,并在应用自注意力机制之前将其添加到标记本身的表示中。

根据输入值和层输入的位置编码计算注意力概率:

可以看到,对于每个查询像素,每个头部都可以专注于图像的不同部分(位置或内容)。

由于卷积层的感受野不依赖于输入数据,所以只需要上面式子中的最后一项,就可以用自注意力来模拟CNN的表现。

而要实现CNN的平移等变性(equivariance to translation),可以通过用相对位置编码替代绝对位置编码的方式来实现。

学习注意力模式(Learned Attention Patterns)

那么,用自注意力层来表达卷积层,在实际当中能发挥什么样的作用?

研究人员设计了一个6层的全注意力模型,每层有9个头。

在CIFAR-10上训练这一模型,使其完成监督分类任务。模型达到了94%的准确率。

并且,研究人员用相对位置编码,分别学习了行偏移和列偏移编码。相对位置编码仅设定注意力概率,而非输入值。

上面这张图,是每个层(行)上的每个头(列)的注意力映射。中间的黑色方块是查询像素。

注意力概率表明,自注意力的行为与卷积是相似的。每个头都学会了聚焦图像的不同部分。

另外还可以观察到,第一层(1-3)专注于非常接近的和特定的像素,而较深层(4-6)专注于图像整个区域像素的更多全局斑块。

ICLR 2020获评“6-6-6”

这篇论文已经被ICLR 2020接收,评审们给出了3个6分。

一位评审在review中写道:

这篇论文从理论上证明了多头自注意力层可以表示卷积滤波器。

相当关键的是其中使用了自注意力层的相对位置编码。论文中称,这一结果可以扩展到其他形式的位置编码。

不过有一点需要注意,看起来,注意力层的权重需要任意大才能准确表示卷积层。

总的来说,我认为本文朝着了解注意力和卷积层之间的异同迈出了坚实的一步。

另一位评审表示,二次相对编码的推到是一个很好的理论构造。不过,由于作者仅在CIFAR上进行了实验,其贡献还不足以建立新的相对注意力机制。

对于这一研究,网友们也纷纷点赞。

谷歌大脑研究科学家David Ha评论道,对于图像和序列处理,自注意力是很好的统一先验。还可以用于学习对卷积层而言难以学习的图像。

不过,也有网友提出了质疑:

自注意力需要耗费大量计算和内存,实际上无法在最小图像之外的任何东西上实现。

代码已开源,实验可复现

正如论文摘要最后一句:

Our code is publicly available.

这项工作的代码已经在GitHub上开源。

注意的是,需要在有GPU的Ubantu上运行代码,而且要在新的Anaconda环境中安装一个Python包:

conda install pytorch torchvision cudatoolkit=10.0 -c pytorch
pip install -r requirements.txt

通过运行 run/ 文件夹里的代码,论文中的所有实验都可以复现,例如:

bash runs/quadratic/run.sh

最后,介绍一下论文作者。

论文一作,是正在瑞士洛桑联邦理工学院(EPFL)攻读博士的Jean-Baptiste Cordonnier。

他致力于无监督知识提取、图神经网络、自然语言处理和分布式优化的研究。研究成果已登上NeurIPS 2018、IJCAI 2019、ICLR2020等顶会。

传送门

博客:
http://jbcordonnier.com/posts/attention-cnn/

论文:
https://arxiv.org/abs/1911.03584

GitHub:
https://github.com/epfml/attention-cnn

可视化网站:
https://epfml.github.io/attention-cnn/



推荐阅读
  • 本文将详细介绍如何在Mac上安装Jupyter Notebook,并提供一些常见的问题解决方法。通过这些步骤,您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]
  • 本文介绍了在使用 pytest 进行代码覆盖率测试时,遇到 --cov-report=html 参数未识别错误的原因及解决方法。 ... [详细]
  • 单片微机原理P3:80C51外部拓展系统
      外部拓展其实是个相对来说很好玩的章节,可以真正开始用单片机写程序了,比较重要的是外部存储器拓展,81C55拓展,矩阵键盘,动态显示,DAC和ADC。0.IO接口电路概念与存 ... [详细]
  • window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]
  • Python 3 Scrapy 框架执行流程详解
    本文详细介绍了如何在 Python 3 环境下安装和使用 Scrapy 框架,包括常用命令和执行流程。Scrapy 是一个强大的 Web 抓取框架,适用于数据挖掘、监控和自动化测试等多种场景。 ... [详细]
  • 大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式
    大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]
  • 在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决
    在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤,并针对常见的问题提供了有效的解决方案。通过本文的指导,读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • Python错误重试让多少开发者头疼?高效解决方案出炉
    ### 优化后的摘要在处理 Python 开发中的错误重试问题时,许多开发者常常感到困扰。为了应对这一挑战,`tenacity` 库提供了一种高效的解决方案。首先,通过 `pip install tenacity` 安装该库。使用时,可以通过简单的规则配置重试策略。例如,可以设置多个重试条件,使用 `|`(或)和 `&`(与)操作符组合不同的参数,从而实现灵活的错误重试机制。此外,`tenacity` 还支持自定义等待时间、重试次数和异常处理,为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]
  • 在List和Set集合中存储Object类型的数据元素 ... [详细]
  • Python 程序转换为 EXE 文件:详细解析 .py 脚本打包成独立可执行文件的方法与技巧
    在开发了几个简单的爬虫 Python 程序后,我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标,首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中,我选择了 Qt 作为 GUI 框架,因为之前对此并不熟悉,希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程,包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]
  • 本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先,针对 MySQL 数据库,通过 `pymysql` 模块展示了如何连接和操作数据库,包括建立连接、执行查询和更新等常见操作。接着,文章深入探讨了 Redis 的基本命令和高级功能,如键值存储、列表操作和事务处理。此外,还提供了多个实际案例,帮助读者更好地理解和应用这些技术。 ... [详细]
  • 本文介绍了如何在iOS平台上使用GLSL着色器将YV12格式的视频帧数据转换为RGB格式,并展示了转换后的图像效果。通过详细的技术实现步骤和代码示例,读者可以轻松掌握这一过程,适用于需要进行视频处理的应用开发。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • 脑机接口技术在物联网行业中的应用与前景分析
    近期,国际研究人员开发了一种轻便的脑电图(EEG)采集与信号处理系统,并在物联网领域进行了初步应用研究。该系统配备了8个可扩展的采集电极和1个参考电极,具备高灵敏度的放大功能,能够有效捕捉和处理脑电信号。通过与物联网技术的结合,该系统有望在智能家居、健康监测和人机交互等领域发挥重要作用,展现出广阔的应用前景。 ... [详细]
author-avatar
栾先益_319
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有