摘要:现有的光谱重建(SR)主要方法集中在设计更深或更宽的卷积神经网络(CNN ),以学习从 RGB 图像到其高光谱图像(HSI)的端到端映射。这些基于 CNN 的方法实现了令人印象深刻的恢复性能,同时在捕获long-range dependencies 和self-similarity方面显示出局限性。为了解决这个问题,我们提出了一种新的基于Transformer的方法,Multi-stage Spectral-wise Transformer(MST++),用于高效光谱重建。特别地,我们采用基于 HSI 空间稀疏和频谱自相似特性的Spectral-wise Multi-head Self-attention(S-MSA)来组成基本单元,Spectral-wise Attention Block-频谱式注意块(SAB)。然后 SABs 建立单级谱式变换器(SST ),利用 U 形结构提取多分辨率上下文信息。最后,我们的 MST++由几个SST 级联而成,从粗到细逐步提高了重建质量。综合实验表明,我们的 MST++明显优于其他先进的方法。在 NTIRE 2022 光谱重建挑战赛中,我们的方法获得了第一名。
高光谱成像在狭窄的波段(narrow bands)中记录真实世界的场景光谱,其中每个波段捕获特定光谱波长的信息。与普通的 RGB图像相比,HSIs 具有更多的光谱波段来存储更丰富的信息,并描绘所捕捉场景的更多细节。由于这一优点 , HSI 具有广泛的应用 ,例如医学图像处理,遥感,目标跟踪等等。尽管如此,这种具有丰富光谱信息的 HSI 是费时的,以至于光谱仪被用来沿着空间或光谱维度扫描场景。这种局限性限制了 HSIs 的应用范围,尤其是在动态或实时场景中。
解决这个问题的一个方法是开发快照压缩成像(SCI)系 统和计算重建算法从 2D 测量到三维 HSI 立方体。然而,这些方法依赖于昂贵的硬件设备。为了降低成本,提出了从给定的 RGB 图像重建 HSI 的光谱重建(SR)算法,该图像可以容易地由 RGB 相机获得。
传统的 SR 方法主要基于稀疏编码或相对较浅的学习模型。尽管如此,这些基于模型的方法表现能力有限,泛化能力差。近年来,随着深度学习的发展,人工智能取得了重大进展。深度卷积神经网络(CNN)已经被用于学习从 RGB 图像到 HSI 立方体的端到端映射函数。尽管已经取得了令人印象深刻的性能,但是这些基于 CNN 的方法在捕获远程相关性(long-range dependencies)和光谱间自相似性方面显示出局限性。
近年来,自然语言处理(NLP)模型,Transformer ,已在计算机视觉中得到应用,并取得巨大成功。Transformer 中的multi-head self-attention(MSA)机制在建模长期依赖关系(modeling long-range dependencies)和无局部自相似性(no-local self-similarity)方面比 CNN 做得更好,这可以缓解基于 CNN 的 SR 算法的局限性。
然而,直接使用标准Transformer的SR 会遇到两个主要问题。㈠Global和local Transformer记录空间区域的相互作用。然而,HSI 表示在空间上是稀疏的,而在频谱上是高度自相似的。因此,对空间相互依赖性进行建模可能比捕获光谱间相关性的成本效益低。(ii)一方面,standard globel MSA 的计算复杂度与空间维度成二次关系,这是一个难以承受的巨大负担。另一方面,基于局部窗口(local window-based)的 MSA 在位置特异性窗口(position-specific windows)内受到有限 receptive fields的影响。
为了解决上述限制,我们提出了第一个Transfoemer-based的框架,Multi-stage Spectral-wise(MST++ ),用于从 RGB 图像进行有效的光谱重建。值得注意的是,我们的 MST++是基于先前的工作 MST,它是为光谱压缩成像复原而定制的。首先,我们注意到 HSI 信号在空间上是稀疏的,而在频谱上是自相似的。基于这一性质,我们采用Spectral-wise Multi-head Self-Attention(S-MSA)来构成基本单元——Spectral-wise Attention Block-谱式注意块(SAB)。S-MSA 将每个光谱特征图作为一个token,沿光谱维度计算self-attention。其次,我们的 SABs建立了我们提出的单级光谱-Single-stage Spectral-wise(SST ),它利用 U 形结构来提取多分辨率谱上下文信息,这对于 HSI 恢复是至关重要的。最后,我们的 MST++由几个 SST 级联,开发了一个多阶段学习方案,从粗到细逐步提高重建质量,从而显著提高了性能。
本文的主要贡献如下。
我们为SR提出了一个新颖的框架 MST++.据我们所知,这是在这项任务中首次尝试探索 Transformer 的潜力。
我们在这个任务上验证了一系列自然图像恢复模型。针对这些问题,我们提出了 Top- K 多模型集成策略来提高分辨率性能。
定量和定性实验表明,我们的 MST++明显优于SOTA 方法,同时需要更cheaper的参数和触发器。令人惊讶的是,我们的 MST++获得了 NTIRE 2022 光谱重建挑战赛第一名。
2.1. 高光谱图像采集
用于收集 HSI 的传统成像系统通常采用光谱仪沿着空间或光谱维度扫描场景。三种主要类型的扫描仪,包括语音室扫描仪、推进式扫描仪和带式顺序扫描仪,通常用于采集 HSI。几十年来,这些扫描仪已经广泛用于探测、遥感、医学成像和环境监测。例如,推扫式扫描仪和 whiskbroom 扫描仪已经用于卫星传感器,用于摄影测量和遥感。然而,扫描过程通常需要很长时间,这使得它不适合测量动态场景。此外,成像设备通常体积太大,无法插入便携式平台。为了解决这些限制,研究人员开发了 SCI 系统来捕获 HSI,其中 3D HSI 立方体被压缩成单个 2D 测量值.在这些 SCI 系统中,编码孔径快照光谱成像(CASSI) 脱颖而出,形成一个很有前途的研究方向。尽管如此,到目前为止,SCI 系统对于消费级应用来说仍然过于昂贵。即使是“低成本”的 SCI 系统通常也 在 10 万美元 10K 左右。因此,随机共振课题具有重要的研究和实用价值。
2.2. RGB 光谱重建
传统 SR 方法主要基于手工制作的高光谱先验。例如,Paramar 等人提出了一种用于HSI 重建的数据稀疏扩展方法。Arad 等人提出了一种稀疏编码方法,该方法创建了 HSI 信号及其 RGB 投影的字典。Aeschbacher 等人建议在实现光谱超分辨率之前使用来自特定光谱的相对浅的学习模型。然而,这些基于模型的方法存在表示能力有限和泛化能力差的问题。
最近,受深度学习在自然图像恢复方面取得巨大成功的启发,CNN 已经 被 用 来 学 习 从 RGB 到 HSI 的 底 层 映 射 函 数。例如,Xiong等人提出一个统一的HSCNN 框架,用于从 RGB 图像和压缩图像进行 HSI 重建测量。Shi et al.利用适配残差块为张等建立深度残差网络 HSCNN-R定制像素感知深度函数混合网络,用于模拟 RGB 到 HSI 的映射。然而,这些基于 CNN 的随机共振方法取得了令人印象深刻的结果,但在捕捉非局部自相似性和长程相关性方面表现局限性。
NLP 模型转换器被提议用于机器翻译。近年来,由于它在捕捉空间区域之间的长程相关性方面的优势,它已被引入计算机视觉并受到广泛欢迎。在高层视 觉 中 ,变 换 在 图 像 分 类 中 得 到 了 广 泛 的 应 用 ,对象 检测,语义分割,人体姿态估计等。此外,vision Transformer 还 已在低级视觉中使用.例如,蔡等人提出第一个基于变压器的端到端框架 MST,用于根据压缩测量值重建 HSI。林等将 HSI 稀疏性嵌入到 Transformer 中,以建立用于光谱压缩成像的由粗到细的学习方案。前工作人员采用由 Swin Transformer 块进行自然图像恢复。然而,据我们所知。Transformer 在光谱超分辨率方面的潜力还 没有被开发出来。这项工作旨在填补这一研究空白。
如图所示,图(a)描述了建议的多级频谱式变压器 (MST++),它由 Ns 个单级频谱式变压器(SSTs)级联而成。我们的 MST++接受一个 RGB 图像作为输入,并重建它的 HSI 副本。利用长身份映射来简化训练过程。
图(b)显示了由编码器、瓶颈和解码器组成的 U 形SST。嵌入和映射模块是单个 conv3×3 层。编码器中的特征映射依次经历下采样操作 (一个步长 ,conv4×4 层)、N1 频谱关注块(sab)、下采样操作和 N2 SABs。瓶颈是由 N3 SABs。解码器采用对称架构。上采样操作是一个步长的 deconv2×2 层。为了避免下采样中的信息丢失,在编码器和解码器之间使用跳跃连接。
图(c)示出了 SAB 的组件,即前馈网络(FFN)。
图(d)展示了基于频谱的多头自关注(S-MSA)和两层规范化。
图(e)显示了S-MSA 的详细信息。
NLP 模型转换器被提议用于机器翻译。在 NTIRE 2022 光谱重建挑战赛中,我们采用了三种集成策略,包括自集成、多尺度集成和Top-K 多模型集成,以提高 MST++的性能和通用性。在这一部分,我们将详细描述它们。
3.4.3 Top-K 多模型集成
4.1. 资料组
NTIRE 2022 光谱重建挑战提供的数据集包含 1000个 RGB-HSI 对。该数据集按 18:1:1 的比例分成训练、有效和测试子集。大小为 482×512 的每个 HSI 具有从400 纳米到 700 纳米的 31 个波长。为了产生相关的对应于 RGB 对应物 I ∈ RH×W×3,变换矩阵 M ∈RNλ×3 被 应 用 于 地 面 真 实 HSI 立 方 体 Y ∈ RH×W×Nλ as I = Y M. 然后,生成的 RGB 图像被注入散粒噪声以模拟真实的摄像机情况。