热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

MST++:MultistageSpectralwiseTransformerforEfficientSpectralReconstruction

摘要:现有的光谱重建(SR)主要方法集中在设计更深或更宽的卷积神经网络(CNN),以学习从RGB图像到其高光谱图像(HSI)的端到端映射。这些基于CNN的方法实现了令

摘要:现有的光谱重建(SR)主要方法集中在设计更深或更宽的卷积神经网络(CNN ),以学习从 RGB 图像到其高光谱图像(HSI)的端到端映射。这些基于 CNN 的方法实现了令人印象深刻的恢复性能,同时在捕获long-range dependencies 和self-similarity方面显示出局限性。为了解决这个问题,我们提出了一种新的基于Transformer的方法,Multi-stage Spectral-wise Transformer(MST++),用于高效光谱重建。特别地,我们采用基于 HSI 空间稀疏和频谱自相似特性的Spectral-wise Multi-head Self-attention(S-MSA)来组成基本单元,Spectral-wise Attention Block-频谱式注意块(SAB)。然后 SABs 建立单级谱式变换器(SST ),利用 U 形结构提取多分辨率上下文信息。最后,我们的 MST++由几个SST 级联而成,从粗到细逐步提高了重建质量。综合实验表明,我们的 MST++明显优于其他先进的方法。在 NTIRE 2022 光谱重建挑战赛中,我们的方法获得了第一名。




一、介绍

         高光谱成像在狭窄的波段(narrow bands)中记录真实世界的场景光谱,其中每个波段捕获特定光谱波长的信息。与普通的 RGB图像相比,HSIs 具有更多的光谱波段来存储更丰富的信息,并描绘所捕捉场景的更多细节。由于这一优点 , HSI 具有广泛的应用 ,例如医学图像处理,遥感,目标跟踪等等。尽管如此,这种具有丰富光谱信息的 HSI 是费时的,以至于光谱仪被用来沿着空间或光谱维度扫描场景。这种局限性限制了 HSIs 的应用范围,尤其是在动态或实时场景中。

        解决这个问题的一个方法是开发快照压缩成像(SCI)系 统和计算重建算法从 2D 测量到三维 HSI 立方体。然而,这些方法依赖于昂贵的硬件设备。为了降低成本,提出了从给定的 RGB 图像重建 HSI 的光谱重建(SR)算法,该图像可以容易地由 RGB 相机获得。

        传统的 SR 方法主要基于稀疏编码或相对较浅的学习模型。尽管如此,这些基于模型的方法表现能力有限,泛化能力差。近年来,随着深度学习的发展,人工智能取得了重大进展。深度卷积神经网络(CNN)已经被用于学习从 RGB 图像到 HSI 立方体的端到端映射函数。尽管已经取得了令人印象深刻的性能,但是这些基于 CNN 的方法在捕获远程相关性(long-range dependencies)和光谱间自相似性方面显示出局限性。

        近年来,自然语言处理(NLP)模型,Transformer ,已在计算机视觉中得到应用,并取得巨大成功。Transformer 中的multi-head self-attention(MSA)机制在建模长期依赖关系(modeling long-range dependencies)和无局部自相似性(no-local self-similarity)方面比 CNN 做得更好,这可以缓解基于 CNN 的 SR 算法的局限性。

        然而,直接使用标准Transformer的SR 会遇到两个主要问题。㈠Global和local Transformer记录空间区域的相互作用。然而,HSI 表示在空间上是稀疏的,而在频谱上是高度自相似的。因此,对空间相互依赖性进行建模可能比捕获光谱间相关性的成本效益低。(ii)一方面,standard globel MSA 的计算复杂度与空间维度成二次关系,这是一个难以承受的巨大负担。另一方面,基于局部窗口(local window-based)的 MSA 在位置特异性窗口(position-specific windows)内受到有限 receptive fields的影响。

         为了解决上述限制,我们提出了第一个Transfoemer-based的框架,Multi-stage Spectral-wise(MST++ ),用于从 RGB 图像进行有效的光谱重建。值得注意的是,我们的 MST++是基于先前的工作 MST,它是为光谱压缩成像复原而定制的。首先,我们注意到 HSI 信号在空间上是稀疏的,而在频谱上是自相似的。基于这一性质,我们采用Spectral-wise Multi-head Self-Attention(S-MSA)来构成基本单元——Spectral-wise Attention Block-谱式注意块(SAB)。S-MSA 将每个光谱特征图作为一个token,沿光谱维度计算self-attention。其次,我们的 SABs建立了我们提出的单级光谱-Single-stage Spectral-wise(SST ),它利用 U 形结构来提取多分辨率谱上下文信息,这对于 HSI 恢复是至关重要的。最后,我们的 MST++由几个 SST 级联,开发了一个多阶段学习方案,从粗到细逐步提高重建质量,从而显著提高了性能。

 本文的主要贡献如下。
        我们为SR提出了一个新颖的框架 MST++.据我们所知,这是在这项任务中首次尝试探索 Transformer 的潜力。
        我们在这个任务上验证了一系列自然图像恢复模型。针对这些问题,我们提出了 Top- K 多模型集成策略来提高分辨率性能。
        定量和定性实验表明,我们的 MST++明显优于SOTA 方法,同时需要更cheaper的参数和触发器。令人惊讶的是,我们的 MST++获得了 NTIRE 2022 光谱重建挑战赛第一名。




2. 相关工作

2.1. 高光谱图像采集

        用于收集 HSI 的传统成像系统通常采用光谱仪沿着空间或光谱维度扫描场景。三种主要类型的扫描仪,包括语音室扫描仪、推进式扫描仪和带式顺序扫描仪,通常用于采集 HSI。几十年来,这些扫描仪已经广泛用于探测、遥感、医学成像和环境监测。例如,推扫式扫描仪和 whiskbroom 扫描仪已经用于卫星传感器,用于摄影测量和遥感。然而,扫描过程通常需要很长时间,这使得它不适合测量动态场景。此外,成像设备通常体积太大,无法插入便携式平台。为了解决这些限制,研究人员开发了 SCI 系统来捕获 HSI,其中 3D HSI 立方体被压缩成单个 2D 测量值.在这些 SCI 系统中,编码孔径快照光谱成像(CASSI) 脱颖而出,形成一个很有前途的研究方向。尽管如此,到目前为止,SCI 系统对于消费级应用来说仍然过于昂贵。即使是“低成本”的 SCI 系统通常也 在 10 万美元 10K 左右。因此,随机共振课题具有重要的研究和实用价值。        


2.2. RGB 光谱重建         

        传统 SR 方法主要基于手工制作的高光谱先验。例如,Paramar 等人提出了一种用于HSI 重建的数据稀疏扩展方法。Arad 等人提出了一种稀疏编码方法,该方法创建了 HSI 信号及其 RGB 投影的字典。Aeschbacher 等人建议在实现光谱超分辨率之前使用来自特定光谱的相对浅的学习模型。然而,这些基于模型的方法存在表示能力有限和泛化能力差的问题。

        最近,受深度学习在自然图像恢复方面取得巨大成功的启发,CNN 已经 被 用 来 学 习 从 RGB 到 HSI 的 底 层 映 射 函 数。例如,Xiong等人提出一个统一的HSCNN 框架,用于从 RGB 图像和压缩图像进行 HSI 重建测量。Shi et al.利用适配残差块为张等建立深度残差网络 HSCNN-R定制像素感知深度函数混合网络,用于模拟 RGB 到 HSI 的映射。然而,这些基于 CNN 的随机共振方法取得了令人印象深刻的结果,但在捕捉非局部自相似性和长程相关性方面表现局限性。

2.3. 视觉变压器

 

        NLP 模型转换器被提议用于机器翻译。近年来,由于它在捕捉空间区域之间的长程相关性方面的优势,它已被引入计算机视觉并受到广泛欢迎。在高层视 觉 中 ,变 换 在 图 像 分 类 中 得 到 了 广 泛 的 应 用 ,对象 检测,语义分割,人体姿态估计等。此外,vision Transformer 还 已在低级视觉中使用.例如,蔡等人提出第一个基于变压器的端到端框架 MST,用于根据压缩测量值重建 HSI。林等将 HSI 稀疏性嵌入到 Transformer 中,以建立用于光谱压缩成像的由粗到细的学习方案。前工作人员采用由 Swin Transformer 块进行自然图像恢复。然而,据我们所知。Transformer 在光谱超分辨率方面的潜力还 没有被开发出来。这项工作旨在填补这一研究空白。




3. 方法


3.1. 网络体系结构 

        如图所示,图(a)描述了建议的多级频谱式变压器 (MST++),它由 Ns 个单级频谱式变压器(SSTs)级联而成。我们的 MST++接受一个 RGB 图像作为输入,并重建它的 HSI 副本。利用长身份映射来简化训练过程。

         图(b)显示了由编码器、瓶颈和解码器组成的 U 形SST。嵌入和映射模块是单个 conv3×3 层。编码器中的特征映射依次经历下采样操作 (一个步长 ,conv4×4 层)、N1 频谱关注块(sab)、下采样操作和 N2 SABs。瓶颈是由 N3 SABs。解码器采用对称架构。上采样操作是一个步长的 deconv2×2 层。为了避免下采样中的信息丢失,在编码器和解码器之间使用跳跃连接。

        图(c)示出了 SAB 的组件,即前馈网络(FFN)。

 

        图(d)展示了基于频谱的多头自关注(S-MSA)和两层规范化。 

        图(e)显示了S-MSA 的详细信息。

 


3.4. 集成策略

        NLP 模型转换器被提议用于机器翻译。在 NTIRE 2022 光谱重建挑战赛中,我们采用了三种集成策略,包括自集成、多尺度集成和Top-K 多模型集成,以提高 MST++的性能和通用性。在这一部分,我们将详细描述它们。

3.4.1 自我集成

        RGB 输入被 上 / 下 / 左 / 右 翻 转 或 旋 转 90°/180°/270°,以加入网络。随后,输出被转换到原始状态进行平均。

3.4.2 多尺度集成

         我们分别用大小为256×256×128 和 64×64的图片训练我们的模型 。然后对输出(整个图像)进行平 均以提高恢复质量。

3.4.3 Top-K 多模型集成

4. 实验

4.1. 资料组
        NTIRE 2022 光谱重建挑战提供的数据集包含 1000个 RGB-HSI 对。该数据集按 18:1:1 的比例分成训练、有效和测试子集。大小为 482×512 的每个 HSI 具有从400 纳米到 700 纳米的 31 个波长。为了产生相关的对应于 RGB 对应物 I ∈ RH×W×3,变换矩阵 M ∈RNλ×3 被 应 用 于 地 面 真 实 HSI 立 方 体 Y ∈ RH×W×Nλ as I = Y M.  然后,生成的 RGB 图像被注入散粒噪声以模拟真实的摄像机情况。

4.2.实施细节

        在 训 练 过 程 中 , RGB 图像被线性重新缩放到 [0,1],之后从数据集中裁剪出 128×128的RGB 和 HSI 样本对。batch size设置为 20,参数优化算法选择 Adam,其中β1 =0.9,β2 = 0.999。学习率被初始化为 0.0004,采用Cosine Annealing scheme训练300轮。通过随机旋转和翻转来增加训练数据。提出的 MST++已经在 Pytorch 框架上实现,在单个 RTX 3090 GPU 上训练一个网络大约需要 48 小时。采用预测的和地面真实的 HSI 之间的MRAE 损失函数作为目标。在我们 MST++的实现中,我们设置 Ns = 3,N1 = N2 = N3 = 1,C = 31。
        在测试阶段,RGB 图像也是线性的重新调整到[0,1]并输入网络以实现频谱恢复。我们
的 MST++ 在 RTX 3090 GPU 上 重 建 每 幅 图 像 (482 512 3 大小)需要 102.48 毫秒。
        我们采用三个评估指标来评估模型性能。第一个度量是平均相对绝对误差(MRAE ),其计算重建的和地面 真实 HSI 的所有波长之间的像素差异。
4.3. 主要结果
4.3.1 有效集上的定量结果
        我们比较了我们的 MST++和 SOTA 方法,包括两种 SCI重建方法(MST和HD-Net)、三种 SR 算法 (HSCNN+ ,AWAN 和HRNet)和五种自 然 图 像 恢 复 模 型 (MIRNet , MPRNet ,Restormer ,HINet ,EDSR)在有效集合上。请注意,HSCNN+ ,AWAN 和HRNet是 NTIRE 2018 的获奖者和 2020 年光谱 重建的挑战。结果列在表2
 
        我们的 MST++在需要最少的参数和浮点运算的同时,大大优于 SOTA 方法。例如,我们的 MST++在 PSNR 实现了 3.10、7.43 和7.96 dB 的 改 进 , 而 只 需 要 40.10% (1.62 /4.04) 、 5.11% 、 34.84% 的 参 数 和 8.52% (23.05 / 270.61),与 AWAN、HRNet 和 HSCNN+相比,失败次数分别为 14.07%和 7.57%。
        为了直观地展示 MST++的优越性,我们在图中提供了不同算法的 PSNR-Params-FLOPS比较。 Figure1纵轴是PSNR(性能),横轴是 FLOPS(计算成本),圆半径是Params(内存成本)。可以看出,我们的 MST++占据了左上角,展示了我们的方法在效率上的巨大优势.

 

4.3.2 测试集上的定量结果
2列出了 NTIRE 2022 光谱挑战(测试集)的前 12 名,其中*表示使用集合模型。令人印象深刻的是,我们 的方法在 231 名参与者中赢得了冠军,这表明了我们的 MST++的优越性。
4.4. 消融研究
        我们使用有效的子集来进行消融。基础线性模型是通过从MST++中移除 S-MSA 而得到的。
4.4.1 Self-Attention机制
        我们已经在第二节讨论了不同的自我注意机制。在本部分中,我们进行消融研究以验证这些 MSA 的性能,包括global MSA (G-MSA) ,local window-based MSA (W-MSA) ,Swin MSA (SW-MSA) ,以及通过的S-MSA.结果记录在表3a
        
        为了公平起见,使用不同 MSA 的模型的参数被设置为相同的值。值得注意的是,G-MSA 的输入特性被缩减为 1 的大小,以避免内存不足。可以观察到,我们采用的 SMSA 实现了最显著的改进,同时需要最少的存储器和计算成本。具体来说,当我们分别应用 SW-MSA、WMSA、G-MSA 和 S-MSA 时,性能在 MRAE 分别提高了0.0338、0.0553、0.1356 和 0.1532,同时增加6.42、6.42、7.43和5.37 GFLOPS。正如 Sec. 3.3,这些结果主要来源于HSI在空间上稀疏,而在光谱上自相似的性质。因此,捕获光谱间的相关性比建模空间区域的相关性更具成本效益。
4.4.2 Stage Number
        我们改变 MST++的级数 Ns 来研究它的效果。结果显示在表3b。当 Ns = 3 时,性能达到峰值。因此,我们最终采用 3 阶段 MST++作为我们的 SR 模型。

 

4.4.3 集成策略
在 Sec.3.4,我们采用三种集成策略应对 NTIRE2022 光谱重建挑战。在这一部分中,我们进行消融来研究它们的效果。在有效集上,自集成、多尺度集成和 Top-K (K 设置为 5)多模型集成在 MRAE 方面分别实现了 0.015、0.033 和 0.045 的改进。

5. 未来的工作

        到目前为止,还没有一个用于 SR 研究的低成本、高精度的开源基线。我们的 MST++旨在填补这一空白。此外,所有的源代码和预训练的模型在表2包括 11 个 SOTA方法是公开可用的。

6. 结论

        在本文中,我们提出了第一个基于 Transformer 的框架 MST++,用于从 RGB 进行光谱重建。基于 HSI 的空间稀疏性和光谱自相似性,我们采用 S-MSA 将每个光谱特征图作为一个自注意计算的令牌来组成基本单元SAB。然后 sab 建立 SST。最后,我们的 MST++由几个 SST 级联而成。MST++采用多阶段学习方案,从粗到细逐步提高重建质量。定量和定性实验表明,我们的MST++明显优于 SOTA 方法,同时需要更便宜的内存和计算成本。令人印象深刻的是,我们的 MST++在 NTIRE2022 挑战赛中获得了 RGB 光谱重建的第一名。


推荐阅读
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
  • 颜色迁移(reinhard VS welsh)
    不要谈什么天分,运气,你需要的是一个截稿日,以及一个不交稿就能打爆你狗头的人,然后你就会被自己的才华吓到。------ ... [详细]
  • 学习笔记17:Opencv处理调整图片亮度和对比度
    一、理论基础在数学中我们学过线性理论,在图像亮度和对比度调节中同样适用,看下面这个公式:在图像像素中其中:参数f(x)表示源图像像素。参数g(x)表示输出图像像素。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题
    摘要:目前复杂问题包括两种:含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
author-avatar
毕竟汤侦探
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有