ASFormer:TransformerforActionSegmentation论文阅读笔记

作者：民海育来仁湖 | 来源：互联网 | 2023-08-11 15:30

摘要为了解决动作分割类问题，作者设计了一个高效的基于transformer的动作分割任务模型，ASFormer，该模型具有以下三个特征&

摘要

为了解决动作分割类问题&＃xff0c;作者设计了一个高效的基于transformer的动作分割任务模型&＃xff0c;ASFormer&＃xff0c;该模型具有以下三个特征&＃xff1a;
&＃xff08;i&＃xff09;由于特征的高局部性&＃xff0c;作者明确地引入了局部连通性归纳先验。它将假设空间限制在一个可靠的范围内&＃xff0c;有利于动作分割任务用较小的训练集学习适当的目标函数。
&＃xff08;ii&＃xff09;作者应用了一个预定义的层次表示模式&＃xff0c;可以有效地处理长输入序列。
&＃xff08;iii&＃xff09;作者仔细设计了解码器&＃xff0c;以细化来自编码器的初始预测。在三个公共数据集上进行的大量实验证明了该方法的有效性。

简介

在解决使用Transformer的动作分割任务时&＃xff0c;有三个主要的问题&＃xff1a;
1.由于训练集的体积较小&＃xff0c;缺乏Transformer的归纳偏差。归纳偏差的缺乏扩大了它们可以表示的特征&＃xff0c;然而&＃xff0c;这需要大量的训练数据。与NLP任务和其他视觉任务相比&＃xff0c;动作分割任务的训练集相对较小&＃xff0c;很难从较大的假设空间中学习目标函数。
2.由于长输入视频缺乏自我注意&＃xff0c;Transformer很难形成有效的表示。在初始化时&＃xff0c;自注意层对序列中的所有元素施加了几乎一致的注意权重。然而&＃xff0c;动作分割任务的输入视频通常会持续数千帧&＃xff0c;比其他视觉任务中的图像补丁序列要长得多。由于视频的长度&＃xff0c;自我注意层学习适当的有意义的权重是一个挑战。每个自我注意层的缺陷进一步证实了一个严重的问题&＃xff1a;一个Transformer模型中的这些自我注意层很难相互合作&＃xff0c;形成输入的有效表示。
3.Transformer原来的编解码器结构不能满足动作分割任务的细化要求。多个动作片段之间的时间关系在动作分割任务中起着重要的作用&＃xff0c;例如取瓶装水后的动作通常是饮水。给定一个初始预测&＃xff0c;以前的工作通常在初始预测上应用TCNs或GCNs来执行一个细化过程&＃xff0c;以提高性能。然而&＃xff0c;在普通的编码器-解码器体系结构中的解码器并不是为这种用途而设计的。

在本文中&＃xff0c;作者将解决上述三个问题&＃xff0c;如下图所示。对于第一个问题&＃xff0c;作者观察到动作分割任务的一个特性是特征的高局部性&＃xff0c;因为每个动作都占据了持续的时间戳。因此&＃xff0c;局部连通性归纳偏差对动作分割任务非常重要。它将假设空间限制在一个可靠的范围内&＃xff0c;有利于用小的训练集学习一个适当的目标函数。作者通过在每一层中应用额外的时间卷积来引入这种强归纳先验。
在这里插入图片描述
对于第二个问题&＃xff0c;Transformer很难对长输入序列形成一个有效的表示&＃xff0c;我们用预先定义的层次表示模式约束每个自注意层&＃xff0c;迫使低层次的自注意层首先关注局部关系&＃xff0c;然后逐渐扩大它们的足迹&＃xff0c;以捕获高层中更长的依赖关系。局部到全局的过程为每个自我注意层分配了特定的任务&＃xff0c;以便它们能够更好地合作&＃xff0c;实现更快的收敛速度和更高的性能。这种分层表示模式还降低了总空间和时间的复杂度。最后&＃xff0c;我们提出了一种新的解码器设计来获得精确的预测。解码器中的交叉注意力机制允许编码器中的每个位置参与细化过程中的所有位置&＃xff0c;同时避免编码器对学习特征空间的干扰。
实验是在三个常见的公共数据集上进行的&＃xff0c;包括50salads&＃xff0c;breakfast和GTEA。实验结果表明&＃xff0c;该方法能够处理小的训练数据集和数千帧的长视频。
解码器的设计还利用了多个动作片段之间的时间关系&＃xff0c;以帮助获得更平稳和准确的预测。综上所述&＃xff0c;本工作的主要贡献包括&＃xff1a; 1)对具有三个显著特征的动作分割任务的探索&＃xff1a;明确引入了局部连通性归纳偏差、预定义的层次表示模式和解码器的新设计&＃xff1b;2)三个公共数据集上最先进的动作分割结果。

方法

在本工作中&＃xff0c;作者提出ASfromer来处理动作分割任务&＃xff0c;如上图所示。ASFormer采用了一个编解码器结构的Transformer。给定预先提取的帧视频特征序列&＃xff0c;编码器首先预测每一帧的初始动作概率。然后初始预测将被传递给多个连续解码器以执行增量细化。第一小节中&＃xff0c;我们首先说明编码器的结构&＃xff0c;展示我们如何处理小的训练数据集和有数千帧的长视频。在第二小节中&＃xff0c;我们介绍了解码器的设计和我们利用多个动作段之间的时间关系进行细化的方法。最后在第三节中&＃xff0c;我们介绍了我们实现和训练的细节。

Encoder

编码器的输入是预先提取的大小为T×D的特征序列&＃xff0c;其中T为视频长度&＃xff0c;D为特征维度。编码器的第一层是一个全连接层&＃xff0c;用来调整输入特征的尺寸。然后&＃xff0c;这一层后面是一系列的编码器块。在此之后&＃xff0c;一个全连接层将从最后一个编码器块中输出预测y∈RT×C&＃xff0c;其中C表示动作类的数量。
每个编码器模块包含两个子层。第一个是前馈层&＃xff0c;第二个是单头自注意层。我们在两个子层周围使用残差连接&＃xff0c;然后进行实例归一化和ReLU激活&＃xff0c;如上图(a)所示。与普通transformer不同的是&＃xff0c;我们使用一个扩展的时间卷积作为前馈层&＃xff0c;而不是点级全连接层。
该设计的灵感来自于动作分割任务的特性&＃xff0c;即a)缺乏大型训练集&＃xff0c;b)特征的高局部性&＃xff0c;因为每个动作都占据了输入视频中持续的时间段。与全连接层相比&＃xff0c;时间卷积层可以给我们的模型带来有益的局部归纳偏差。
自注意层很难学会在数千帧中专注于有意义的位置。对于输入视频&＃xff0c;这些自我注意层很难相互合作形成有效的表示。为了减轻这个问题&＃xff0c;我们预先定义了一个分层表示模式。这种层次模式的灵感来自于现代神经网络设计&＃xff1a;首先关注局部特征&＃xff0c;然后逐渐扩大接受域来获取全局信息。例如&＃xff0c;cnn通过连续的池化层来实现这种模式&＃xff0c;以扩大更高层的接受域&＃xff1b;或者使用随着扩张率逐渐增加的扩张卷积。由于这种层次模式的成功&＃xff0c;我们将每个自我注意层的接受域约束在一个大小为w的局部窗口内&＃xff08;例如&＃xff0c;对于帧t&＃xff0c;我们只计算其局部窗口内的框架计算注意权重&＃xff09;。然后&＃xff0c;局部窗口的大小在第i层&＃xff08;即&＃xff0c;w&＃61;2i&＃xff0c;i&＃61;1,2……&＃xff09;上加倍。同时&＃xff0c;随着编码器深度的增加&＃xff0c;我们还将时间卷积层的膨胀率提高了一倍&＃xff0c;并与自注意层保持一致。
对于一个带有J个blocks的编码器&＃xff0c;一个普通变压器的整个近似内存使用量为&＃xff08;J·T·T&＃xff09;&＃xff0c;其中T是视频长度。通过分层表示模式&＃xff0c;我们将总空间复杂度降低到&＃xff08;&＃xff08;2−ε&＃xff09;·2J·T&＃xff09;&＃xff0c;其中ε是一个很小的数字。在我们的设置中&＃xff0c;我们使用J &＃61; 9&＃xff0c;其中2J &＃61; 512几乎比t小10倍。与普通变压器相比&＃xff0c;我们的ASfrore适用于接收长输入序列。

Decoders

多个动作片段之间的时间关系在动作分割任务中起着重要的作用。在动作部分之间有一些先后的关系&＃xff0c;例如拿瓶子后的动作&＃xff0c;通常是喝水。在之前的工作中&＃xff0c;在初始预测上应用额外的TCNs或GCNs来执行细化过程可以提高性能。在本节中&＃xff0c;我们将说明新设计的解码器如何对编码器一次输出的初始预测执行细化任务。为了更好地解释&＃xff0c;我们首先引入一个单一的解码器&＃xff0c;并自然地将其扩展到多个版本&＃xff0c;以执行迭代细化。

A Single Decoder

解码器的输入是编码器输出的初始预测。解码器的第一层是用于调整维度的全连接层&＃xff0c;然后是一系列解码器块。每个解码器块的体系结构如上图©所示与编码器类似&＃xff0c;我们使用时间卷积作为前馈层&＃xff0c;而层次模式也应用于交叉注意层。
与自注意层相比&＃xff0c;交叉注意有以下区别&＃xff1a;查询Q和键K是从编码器和前一层的输出连接得到的&＃xff0c;而值V仅从前一层的输出得到。交叉注意机制允许编码器中的每个位置都能够参与细化过程中的所有位置。特征空间V完全由输入预测转换而成&＃xff0c;不会被编码器的参与者干扰&＃xff0c;因为生成的注意权值只用于在V内执行线性组合。

Multiple Decoders

人们自然会将单个解码器扩展到多个版本来执行迭代细化。在多解码器中&＃xff0c;每个解码器的输入来自前一个&＃xff0c;如上图(b)所示。
交叉注意机制允许引入外部信息来指导重新细化过程。我们希望逐渐减少外部信息的权重&＃xff0c;以避免误差积累的问题。对于每个解码器块中的输入x&＃xff0c;我们使用一个加权残差连接作为前馈层和交叉注意层的输出&＃xff1a;
在这里插入图片描述
我们为第一个解码器设置α &＃61; 1&＃xff0c;然后为之后的解码器指数降低α。

Loss Function

损失函数是每一帧的分类损失Lcls和平滑损失Lsmo的组合。分类损失是一个交叉熵损失&＃xff0c;而平滑损失计算超过帧级概率的均方误差。最终的损失函数L为&＃xff0c;
在这里插入图片描述
其中&＃xff0c;ytˆc是时间t时gt标签ˆc的预测概率。λ是在我们的实验中设置为0.25的平衡权重。最后&＃xff0c;为了训练完整的模型&＃xff0c;将编码器和所有解码器上的损耗之和最小化。

实验

在这里插入图片描述

推荐阅读

function
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
function
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
function
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
const
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
function
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
function
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
function
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
function
Word2vec from scratch (Skip-gram & CBOW)

在自然語言處理領域中，如何透過向量表達一個詞彙，是近幾年非常火熱的議題，在distributedrepresentation(densevector)尚未風行前，大多數的任務都以1-hotencoding作為詞彙的表示，其方法得到了高維度的稀疏向量，雖容易理解、簡單計算，但也帶來許多副作用；直至2013年，ThomasMikolov等人提出了word2vec，word2vec引用了一個概念，作者導 ... [详细]

蜡笔小新 2023-10-17 15:23:05
function
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
join
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
join
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
md5
动态多点××× 单云双HUB

动态多点是一个高扩展的IPSEC解决方案传统的ipsecS2S有如下劣势1.中心站点配置量大，无论是采用经典ipsec***还是采用greoveripsec多一个分支 ... [详细]

蜡笔小新 2023-10-17 09:16:50

民海育来仁湖

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章