热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【ViT论文】NotAllPatchesareWhatYouNeed:ExpeditingVisionTransformersviaTokenReorganizations

论文地址:http:arxiv.orgabs2202.07800项目地址:https:github.comyouweiliangevit在这项工作中&#

在这里插入图片描述


论文地址:http://arxiv.org/abs/2202.07800
项目地址:https://github.com/youweiliang/evit


在这项工作中,作者在 ViT 模型的前馈过程中重新组织图像标记,在训练期间将其集成到 ViT 中。由相应的类令牌注意力引导识别 MHSA 和 FFN(即前馈网络)模块之间的注意力图像令牌,然后,通过保留注意图像标记和融合非注意图像标记来重组图像标记,以加快后续的 MHSA 和 FFN 计算。
在相同数量的输入图像标记下,该方法减少了 MHSA 和 FFN 计算以实现高效推理。例如,在 ImageNet 分类任务中,DeiT-S的推理速度提高了 50%,而识别准确率仅下降了 0.3%。另外,在保持相同的计算成本的情况下,该方法使 ViT 能够将更多的图像标记作为识别精度提高的输入(更高分辨率的图像),在与普通 DeiT-S 相同的计算成本的情况下,将 DeiT-S 的 ImageNet 分类识别精度提高了 1%,同时也没有引入更多的参数。

在这里插入图片描述


注意标记识别(Attentive Token Identification)

通过计算每个token的所有Heads的平均注意力值作为该token的注意力值(如下列公式),之后识别出k个注意力值最大的tokens作为Attentive Tokens直接保留至下一阶段,而其他的inattentive tokens则被融合为一个新的token。




非注意标记融合(Inattentive Token Fusion)

尽管背景标记的信息量较少并且可以被丢弃而不会显着影响 ViT 模型的性能,但仍然可能有助于预测结果。另外,一些图像的目标对象可能具有占据图像的大部分区域。因此,当选择固定数量的令牌保留在 ViT 编码器中时,可能会删除一些包含有图像信息的令牌会对图像识别性能产生负面影响。
融合 inattentive tokens 来补充 attentive tokens(如图 2 所示)有利于保留由 inattentive tokens 提供的部分信息。
具体来说,非注意标记融合是一种对 inattentive tokens的加权平均操作(如下列公式)。



融合后的非注意标记被附加到保留的注意标记后发送到后续层。与 ViT 的计算量相比,非注意标记融合的计算成本可以忽略不计。


个人总结

这篇文章是2022年的一篇文章,但是感觉整个机制十分地简单粗暴,就是计算注意力分数然后取top-k的token,再把剩余token融合成1个token。根据k的大小不同,可以节省不同比例的计算量。图像的信息冗余性本身就比较大,因此这种方式如果k取比较合适的值,应当可以取得文章中的效果。


推荐阅读
  • 优化后的标题:深入探讨网关安全:将微服务升级为OAuth2资源服务器的最佳实践
    本文深入探讨了如何将微服务升级为OAuth2资源服务器,以订单服务为例,详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖,并配置Spring Security以实现对微服务的保护。通过这一过程,不仅增强了系统的安全性,还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践,包括如何配置OAuth2客户端和资源服务器,以及如何处理常见的安全问题和错误。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 单片微机原理P3:80C51外部拓展系统
      外部拓展其实是个相对来说很好玩的章节,可以真正开始用单片机写程序了,比较重要的是外部存储器拓展,81C55拓展,矩阵键盘,动态显示,DAC和ADC。0.IO接口电路概念与存 ... [详细]
  • SSL 错误:目标主机名与备用证书主题名称不匹配
    在使用 `git clone` 命令时,常见的 SSL 错误表现为:无法访问指定的 HTTPS 地址(如 `https://ip_or_domain/xxxx.git`),原因是目标主机名与备用证书主题名称不匹配。这通常是因为服务器的 SSL 证书配置不正确或客户端的证书验证设置有问题。建议检查服务器的 SSL 证书配置,确保其包含正确的主机名,并确认客户端的证书信任库已更新。此外,可以通过临时禁用 SSL 验证来排查问题,但请注意这会降低安全性。 ... [详细]
  • 在 Kubernetes 中,Pod 的调度通常由集群的自动调度策略决定,这些策略主要关注资源充足性和负载均衡。然而,在某些场景下,用户可能需要更精细地控制 Pod 的调度行为,例如将特定的服务(如 GitLab)部署到特定节点上,以提高性能或满足特定需求。本文深入解析了 Kubernetes 的亲和性调度机制,并探讨了多种优化策略,帮助用户实现更高效、更灵活的资源管理。 ... [详细]
  • 解决Only fullscreen opaque activities can request orientation错误的方法
    本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误,并提供了一种有效的解决方案。 ... [详细]
  • Flutter 开发中集成极光推送的详细步骤
    本文详细介绍了如何在 Flutter 项目中集成极光推送服务,包括配置和测试的具体步骤。 ... [详细]
  • 最详尽的4K技术科普
    什么是4K?4K是一个分辨率的范畴,即40962160的像素分辨率,一般用于专业设备居多,目前家庭用的设备,如 ... [详细]
  • javascript分页类支持页码格式
    前端时间因为项目需要,要对一个产品下所有的附属图片进行分页显示,没考虑ajax一张张请求,所以干脆一次性全部把图片out,然 ... [详细]
  • 原文网址:https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么?2、需求3、解决办法1:使用静态代理4 ... [详细]
  • 本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备,实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析,旨在提升网络安全意识。 ... [详细]
  • 解决问题:1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考:https:github.comsuyunzzzCSF论文题目ÿ ... [详细]
  • 在PHP中实现腾讯云接口签名,以完成人脸核身功能的对接与签名配置时,需要注意将文档中的POST请求改为GET请求。具体步骤包括:使用你的`secretKey`生成签名字符串`$srcStr`,格式为`GET faceid.tencentcloudapi.com?`,确保参数正确拼接,避免因请求方法错误导致的签名问题。此外,还需关注API的其他参数要求,确保请求的完整性和安全性。 ... [详细]
  • 每日前端实战:148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果
    通过点击页面右侧的“预览”按钮,您可以直接在当前页面查看效果,或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性,观众可以实时调整代码并观察变化。访问以下链接体验完整效果:https://codepen.io/comehope/pen/yRyOZr。 ... [详细]
  • 微信平台通过盛派SDK(sdk.weixin.senparc.com)允许服务号和订阅号使用appId和token读取关注用户的个人信息。然而,这一过程需严格遵守隐私保护和数据安全的相关规定,确保用户数据的安全性和隐私性。 ... [详细]
author-avatar
丨火云邪神丨
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有