热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

SpectralFormer:RethinkingHyperspectralImageClassificationwithTransformers

Abstract卷积神经网络(convolutionalneuralnetworks,CNNs)由于具有良好的局部上下文建模能力,已被证明是HS图像分类中一个强大的特

Abstract
卷积神经网络(convolutional neural networks, CNNs)由于具有良好的局部上下文建模能力,已被证明是HS图像分类中一个强大的特征提取器。然而,由于其固有的网络骨干网的限制,**cnn不能很好地挖掘和表示光谱特征的序列属性**。
I. INTRODUCTION

为了解决这个问题,我们从变压器的顺序角度重新思考HS图像分类,并提出了一种新的骨干网称为SpectralFormer。除了在经典的变压器中采用band-wise表示外,SpectralFormer还能够从HS图像的相邻波段学习光谱局部序列信息,从而产生组内(group-wise)光谱嵌入。更重要的是,为了减少有价值信息在分层传播过程中丢失的可能性,我们设计了一种跨层跳过连接,通过自适应学习融合跨层的“软”残差,将类记忆组件从浅层传递到深层。值得注意的是,提出的SpectralFormer是一个高度灵活的骨干网,它可以适用于像素(pixel)和小块(patch)输入
在这里插入图片描述

这些骨干网络及其变体能够获得很有希望的分类结果,但它们在光谱序列信息的表征(特别是在捕获沿光谱维数的细微光谱差异方面)的能力仍然不足。图1给出了HS图像分类任务中这些最先进的骨干网的概述插图。具体的局限性大致可以总结如下。


  • CNN作为一种主流的主干架构,在从HS图像中提取空间结构信息和局部上下文信息方面显示出强大的能力。然而,一方面,cnn很难很好地捕获序列属性,特别是中期和长期依赖关系。 另一方面,CNN 过于关注空间内容信息,从而在频谱上扭曲了学习特征中的顺序信息
  • RNN是为序列数据设计的,序列数据从HS图像中循序渐进地学习光谱特征。这种模式对谱带的阶数依赖性很大,容易产生梯度消失,因此很难学习长期依赖关系[30]。这可能进一步导致难以捕捉时间序列中显著的光谱变化。更重要的是,在真实的HS图像场景中,通常有大量的HS样本(或像素)可用,但RNNs不能并行训练模型,限制了实际应用中的分类性能。
  • 对于其他主干网络,如GANs、CapsNet、GCNs,尽管它们在学习光谱表示(如鲁棒性、等价性、样本之间的远程相关性)方面都有各自的优势,但有一点是相同的,即它们几乎都无法有效地对顺序信息建模。即光谱信息利用不足(这是利用HS数据进行精细土地覆被分类或制图的关键瓶颈)。

众所周知,Transformer中的自注意块能够通过位置编码的方式捕获全局序列信息。然而,变压器也存在一些缺陷,阻碍了其性能的进一步提高。例如,


  • Transformer在解决频谱特征的长期依赖性问题上表现出色,但它们失去了捕捉局部上下文或语义特征的能力(参见cnn或rnn);
  • Skip connection在Transformer中起着至关重要的作用。这可以通过使用 “残差”来更好地传播梯度或增强“记忆”来减少遗忘或丢失关键信息来很好地解释。但不幸的是,简单的附加跳过连接操作只发生在每个Transformer块内,削弱了不同层或块之间的连接性

SpectralFormer能够在每个编码位置从多个相邻波段学习局部光谱表示,而不是单个波段(在原始变压器中)。此外,SpectralFormer 设计了一个跨层跳过连接,通过自适应学习融合它们的“软”残差,逐步将类似记忆的组件从浅层传递到深层。本文的主要贡献如下:


  • 设计了两个简单但有效的模块,即组态光谱嵌入(GSE)和跨层自适应融合(CAF),分别学习局部细节的光谱表示和从浅层到深层传递类记忆成分

II. SPECTRALFORMER

在这里插入图片描述
Group-wise Spectral Embedding (GSE)

we propose to learn group-wise spectral embeddings,i.e., GSE, instead of band-wise input and representations.
GSE与BSE的不同就是,分组作为token输入,而不是单个波段作为一个token输入。

在这里插入图片描述
Cross-layer Adaptive Fusion (CAF)

Skip connection (SC)机制已被证明是一种有效的深度网络学习策略,可以增强层间的信息交换,减少网络学习过程中的信息丢失。然而,值得注意的是,短SC的信息“记忆”能力仍然有限,而长SC由于高、低层次特征之间的巨大差距,往往产生不充分的融合。这也是变压器存在的关键问题,对变压器的结构设计提出了新的挑战。为此,我们在SpectralFormer中设计了一个中等范围的SC来自适应地学习跨层特征融合(即CAF,见图5)。仅跳跃一个encoder层。(因为4层或5层的浅网络规模较小,无法添加多个CAF模块)。
在这里插入图片描述
Spatial-Spectral SpectralFormer
考虑空间信息版本

除了基于像素的HS图像分类,我们同样研究了基于patch的输入(受cnn启发),得出空间-光谱的SpectralFormer版本,即基于patch的SpectralFormer。与cnn直接输入一个3-D patch cube不同,我们将每个波段的2-D patch展开为相应的1-D矢量表示

给定一个3-D立方体X∈Rm×w×hX∈R^{m×w×h} XRm×w×h(w和h是patch的宽度和长度)(w和h是patch的宽度和长度)(whpatch)可以沿着空间方向展开
X=[x1,...,xi,...,xm],X = [x_1, ..., x_i, ..., x_m],X=[x1,...,xi,...,xm],
其中xi∈Rwh×1x_i∈R^{wh×1}xiRwh×1表示第i个波段的展开patch。这种输入方式在很大程度上保留了网络学习中的频谱序列信息,同时考虑了空间上下文信息


CONCLUSION

HS图像通常被收集(或表示)为一个具有空间光谱信息的数据立方体,通常可以认为是 沿着光谱维度的数据序列。与主要关注上下文信息建模的cnn不同,transformer已被证明是一种强大的架构,可以在全球范围内描述顺序属性。然而,传统的基于变压器的视觉网络,如ViT,在处理类hs数据时,不可避免地会出现性能下降的问题。这可能可以很好地解释,因为 ViT无法模拟局部详细的光谱差异 ,并有效地传递“内存”类组件(从浅层到深层)。为此,本文提出了一种新的基于变压器的骨干网,称为SpectralFormer,它更专注于光谱信息的提取

在未来,我们将通过使用更先进的技术,如注意力、自我监督学习,进一步改进基于Transformer的架构,使其更适用于HS图像分类任务,并试图建立一个轻量级的基于变压器的网络,以降低网络的复杂性,同时保持其性能。此外,我们还希望将光谱波段的更多物理特征和HS图像的先验知识嵌入到提议的框架中,从而产生更多可解释的深层模型。此外,CAF模块中跳过和连接编码器的数量可能是提高SpectralFormer分类性能的一个重要因素,在今后的工作中应予以重视。


推荐阅读
  • POJ 2482 星空中的星星:利用线段树与扫描线算法解决
    在《POJ 2482 星空中的星星》问题中,通过运用线段树和扫描线算法,可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据,还能确保时间复杂度的最优性,适用于各种复杂的星空模拟场景。 ... [详细]
  • [转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 本文详细解析了客户端与服务器之间的交互过程,重点介绍了Socket通信机制。IP地址由32位的4个8位二进制数组成,分为网络地址和主机地址两部分。通过使用 `ipconfig /all` 命令,用户可以查看详细的IP配置信息。此外,文章还介绍了如何使用 `ping` 命令测试网络连通性,例如 `ping 127.0.0.1` 可以检测本机网络是否正常。这些技术细节对于理解网络通信的基本原理具有重要意义。 ... [详细]
  • DVWA学习笔记系列:深入理解CSRF攻击机制
    DVWA学习笔记系列:深入理解CSRF攻击机制 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 在C#编程中,数值结果的格式化展示是提高代码可读性和用户体验的重要手段。本文探讨了多种格式化方法和技巧,如使用格式说明符、自定义格式字符串等,以实现对数值结果的精确控制。通过实例演示,展示了如何灵活运用这些技术来满足不同的展示需求。 ... [详细]
  • 【问题】在Android开发中,当为EditText添加TextWatcher并实现onTextChanged方法时,会遇到一个问题:即使只对EditText进行一次修改(例如使用删除键删除一个字符),该方法也会被频繁触发。这不仅影响性能,还可能导致逻辑错误。本文将探讨这一问题的原因,并提供有效的解决方案,包括使用Handler或计时器来限制方法的调用频率,以及通过自定义TextWatcher来优化事件处理,从而提高应用的稳定性和用户体验。 ... [详细]
  • 在Django中提交表单时遇到值错误问题如何解决?
    在Django项目中,当用户提交包含多个选择目标的表单时,可能会遇到值错误问题。本文将探讨如何通过优化表单处理逻辑和验证机制来有效解决这一问题,确保表单数据的准确性和完整性。 ... [详细]
  • 本文详细探讨了在ASP.NET环境中通过加密数据库连接字符串来提升数据安全性的方法。加密技术不仅能够有效防止敏感信息泄露,还能增强应用程序的整体安全性。文中介绍了多种加密手段及其实施步骤,帮助开发者在日常开发过程中更好地保护数据库连接信息,确保数据传输的安全可靠。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 本文介绍了UUID(通用唯一标识符)的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符,广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID,并提供了多种优化方法,以提高生成效率和兼容性。 ... [详细]
  • 利用树莓派畅享落网电台音乐体验
    最近重新拾起了闲置已久的树莓派,这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多,我决定将其重新启用。恰逢落网电台进行了改版,回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐,便萌生了同样的想法。通过一番调试,终于实现了在树莓派上流畅播放落网电台音乐的功能,带来了全新的音乐享受体验。 ... [详细]
  • 池子比率:BSV 区块链上的去中心化金融应用——Uniswap 分析
    池子比率:BSV 区块链上的去中心化金融应用——Uniswap 分析 ... [详细]
  • 理工科男女不容错过的神奇资源网站
    十一长假即将结束,你的假期学习计划进展如何?无论你是在家中、思念家乡,还是身处异国他乡,理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档,能够帮助你在假期中高效学习和提升专业技能。 ... [详细]
author-avatar
yan
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有