热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【跨层注意力:多层次融合】

Multi-levelfeaturesfusionviacross-layerguidedattentionforhyperspectralpansharpening࿰


Multi-level features fusion via cross-layer guided attention for hyperspectral pansharpening

(基于跨层注意力引导的多层次特征融合高光谱全色锐化)

近年来,卷积神经网络(CNN)在计算机视觉中的成功应用引起了人们的广泛关注。特别地,具有注意力机制的深度学习模型在高光谱(HS)全色锐化中表现出令人印象深刻的性能。然而,这些现有模型大多遵循早/晚融合策略,没有充分利用层次特征。为此,设计了一种新的基于跨层注意力引导的端到端多级特征融合网络(HP-MFFN),该网络能够逐层提取层次特征。由于网络的不同层次具有不同的感受域和包含不同的细节,利用跨层引导注意力融合模块(CLGAF)对从HS图像和全色图像中提取的层次特征进行细化,得到细节精细、语义丰富的空谱特征。


介绍

高光谱图像是一个包含空间域和光谱域信息的三维数据立方体。它在军事、农业、环境等诸多领域显示出显著的优越性。然而,由于传感器物理特性等因素的限制,空间分辨率和光谱分辨率之间存在着关键的折衷。HS图像通常具有几十条甚至上百条连续条带,空间分辨率较低,极大地限制了其应用。因此,现有的全色(PAN)传感器可以捕获具有高空间分辨率但低光谱分辨率的图像。因此,PAN图像作为一种互补信息,被用于融合同一场景的低分辨率HS(LRHS)图像,以生成高分辨率HS(HRHS)图像。此过程称为全色锐化。在地物精细分类、目标检测和环境检测等许多领域都表现出了良好的性能。
已经开发了大量的HS全色锐化方法,这些方法大致可以分为两类,即:传统算法和基于深度学习的算法。传统的算法可以进一步分为四类:成分替代(CS)方法、矩阵分解方法、基于贝叶斯的方法和多分辨率分析(MRA)。第一类算法主要包括Gram-Schmidt(GS)、自适应GS(GSA)和主成分分析(PCA)这些方法通过采用逆变换用PAN图像代替HS图像的空间分量。然而,这些方法可能导致一些明显的频谱失真。作为矩阵分解的代表,耦合非负矩阵分解(CNMF)算法交替分解HS和多光谱图像,以获得有利的端元和丰度矩阵。最近,作为矩阵分解的高阶推广的张量分解已被广泛应用于HS图像处理,例如HS图像分类、HS去噪和HS图像融合。例如,Dian等人提出的非局部稀疏张量分解方法(NLSTF_SMBF)实现了HS图像和多光谱图像的融合。随后,他们提出了一种基于低张量训练秩(LTTR)的融合算法,其中通过LTTR先验学习非局部相似HS图像立方体的空间、光谱和非局部模式之间的相关性。“…剩下的略…”

总之,一些学者的工作已经证明,来自多个层的特征有利于生成更好的结果。网络越深,接受域越大,这是一个被广泛接受的真理。具有小感受野的低级特征保留了高分辨率重建的细节,而具有大感受野的高级特征提供了图像区域类别识别的语义知识。
本文提出了一种端到端的多层次特征融合网络(HP-MFFN),旨在挖掘尽可能多的不同层次的细节特征,更有效地传递信息。该方法基于两重性提出。一方面,HP-MFFN能够重点提取每一层的PAN和HS细节,并基于注意力机制逐步整合这些提取的特征,以减轻直接重构高分辨率细节HS图像的困难。另一方面,采用空间-频谱关注机制进一步细化每一层的信息,提高特征表示能力。


贡献

1)提出了一种双分支多级特征聚合网络HP-MFFN,该网络有效地提取不同层次的层次特征,提高了全色锐化的性能。

2)受网络深度不同、感受野不同的启发,设计了跨层引导注意力融合模块(CLGAF),生成细节精细、语义丰富的精细化空谱特征,在每个CLGAF之间,通过密集连接形成连续的存储机制,以减轻一步恢复详细HS图像的难度。

3)与基于自然图像任务注意机制的HS全色锐化方法不同,本文提出了一种全局-局部空间-谱注意机制(GL-PySSAM),该机制由局部金字塔通道注意(LPCA)和全局金字塔空间注意(GPSA)组成,用于多核选择建模。GLPySSAM通过使用具有多个核的通道关注来局部地维持光谱相似性,并使用多个核来全局地捕获不同级别的对象信息,从而有助于产生更有效的空间-光谱特征。


相关工作


Method overview

设PAN ∈





R



1


×


M


×


N





R^{1×M×N}


R1×M×N
是可用的PAN图像,大小为M×N的。设Hl





R



C


×


m


×


n





R^{C×m×n}


RC×m×n
表示观察到的LRHS图像,其中C表示频带的数目,m×n是每个带上的像素数。让Hu





R



C


×


M


×


N





R^{C×M×N}


RC×M×N
表示上采样HS图像,其从LRHS Hl被内插到与输入PAN图像相同的大小,并且H∈





R



C


×


M


×


N





R^{C×M×N}


RC×M×N
表示期望的HS图像。

设计了高光谱全色锐化网络,利用PAN和Hu对HS图像H进行复原。大多数现有的基于深度学习的现有技术水平的全色锐化算法可以大致分为两类:1)早期融合算法,2)后期融合算法,其可以被描述为在这里插入图片描述
然而,早期的融合全色锐化方法是将PAN图像和预插值后的HRHS图像连接起来作为输入直接送入网络,未能充分利用PAN图像复杂的空间信息。对于后期融合全色锐化方法,这些高级模型主要集中于分别从PAN图像和HS图像中的深卷积层提取的高级特征的非线性组合。这些方法的输出结果常常由于缺乏低级信息(例如,对象边缘和细节)。

由具有小区域的浅卷积层生成的低层特征映射适合捕获输入图像的精细细节,这一点被广泛接受。随着网络的卷积层增加,每个卷积层中的特征将具有不同的感受域。CNN的本质是当前卷积层的每个像素是前一卷积层的感受野中所有像素的加权平均。CNN可以通过增加网络深度获得更大的感受野。因此,不同层次的卷积层可以捕获具有不同外观和形状的物体。在此基础上,提出了HPMFFN算法,分别用于提取HS图像和PAN图像的潜在多层次特征。HP-MFFN的流程图如图1所示。
请添加图片描述

HP-MFFN通过提取每一层的多层次特征,保证了融合结果的多样性,为生成满意的融合结果提供了更多的空间细节信息。简单地说,这个过程可以用公式表示为:在这里插入图片描述


The Architecture of HP-MFFN

拟议的HP-MFFN由三个部分组成:两分支多层次特征提取模块、基于空谱关注度的多层次特征融合模块和特征重构模块。为了保证双分支网络结构的高度相似性,HP-MFFN将预插值后的HRHS图像和PAN图像分别作为双分支的输入。HS图像分支开始于卷积层,其被采用以从预内插HS图像Hu提取初始浅层表示。在这里插入图片描述
CBs跟随第一卷积层。CB由两个卷积层和两个整流线性单元(ReLU)激活层组成。针对深度学习中“网络越深,感受野越大”的特点,提出的HP-MFFN采用3个CBs来提取多层次特征。在第一个convblock和最后一个convblock之间添加剩余连接,以避免以下公式的梯度色散问题在这里插入图片描述表示HS图像分支中第N个convblock的操作。PAN分支也由用于浅层特征提取的初始卷积层和用于多层特征提取的三个CBs组成。从PAN图像PAN获得的初始特征表示可以用公式表示为。在这里插入图片描述
然后,利用CBs挖掘PAN图像的潜在多层次特征。同样地,残差连接也被嵌入到多级特征提取中。这个过程可以写成:
在这里插入图片描述
在获得PAN和HS图像不同层次的特征后,如何有效地融合层次特征是一个值得考虑的问题。现有的基于深度学习的HS全色锐化算法大多假设提取的特征具有相同的重要性。因此,针对上述问题,如图1所示,我们提出了一种**新的跨层引导注意力融合模块(CLGAF)**来融合层次特征,它可以表示为。
请添加图片描述
然后,我们采用两个卷积层和一个ReLU激活函数来重建一个满意的HRHS图像H。该过程用以下公式表示。
在这里插入图片描述


The Architecture of CLGAF

请添加图片描述

近年来,人们发现人类视觉系统的一个重要特性是每个人都能自动聚焦于感兴趣的区域而不是聚焦于整个场景。这种科学机制被称为注意机制,以往的文献对此进行了广泛的研究。如图1所示,本文采用了一种基于注意机制的多层次特征融合模型CLGAF,利用每一层的所有早期细化特征进行特征增强。在每个CLGAF之间,采用密集连接形成连续记忆机制,提高了空间-光谱特征的有效传递。具体地说,在网络的每一层,我们利用由局部金字塔通道注意力(LPCA)和全局金字塔空间注意力(GPSA)组成的全局-局部注意力模块(GL-PySSAM)来获得初始的精细特征。考虑到不同感受野的每一层特征所包含的信息不同,我们创新性地采用了层叠GL-PySSAM算法,利用早期提取的层次特征进一步增强初始细化特征,以捕获更详细的信息,促进更有效的信息流动。这个过程被称为跨层引导注意力融合。与传统的特征融合策略直接采用逐元素或串接运算不同,基于注意力的特征融合策略可以直接关注图像的高亮区域,提高特征的表示能力。设





F



F


u





F^{Fu}


FFu
K表示





F



H


S


I





F^{HSI}


FHSI
K





F



P


A


N





F^{PAN}


FPAN
K的和
,





F



H


S


I





F^{HSI}


FHSI
K





F



P


A


N





F^{PAN}


FPAN
K分别表示第K层提取的特征。EK表示CLGAF在第K层的输出。以第K层的CLGAF为例,可表示为在这里插入图片描述


The Architecture of GL-PySSAM

虽然现有的注意模块在视觉图像处理中表现出了良好的性能,但是将这些注意机制直接转移到与HS图像处理相关的任务中可能会产生一些问题。例如,传统的通道注意力(CA)算法直接压缩输入特征图的空间维度来计算通道注意力图,而使用通道注意力图来细化整体特征不可避免地破坏了HS图像的原始局部谱向量。同时,传统的空间注意(SA)模块采用核大小为3×3的卷积层或7×7生成空间注意掩模时,未能充分利用上下文感知信息,导致局部细节纹理平滑。因此,提出了LPCA和GPSA算法,有效缓解了传统注意带来的问题,进一步提高了全色锐化的性能。在GL-PySSAM中,我们利用LPCA和GPSA形成复合注意掩码,以便在网络中有选择地传递更有效的信息。


The Architecture of LPCA

LPCA是局部金字塔渠道关注的对象。基于同一HS图像中的相邻像素通常是相关或相关的概念,如图2所示,我们通过使用具有不同大小核的最大池和平均池,在局部区域采用通道关注,以保持局部光谱矢量相似性,并在通道维度上为每个局部区域定制不同的关注水平。在这里插入图片描述
我们首先整合输入特征地图F2RC的局部空间信息通过采用平均池化和和最大池操作在四个尺度3×3,5×5,7×7、9×9和步幅分别为3、5、7和9,其输出可分别表示为





F



k


×


k





F^{k×k}


Fk×k
Lavg





F



k


×


k




 


L


m


a


x


 


,


k






3


,


5


,


7


,


9



,



F^{k×k}~Lmax~,k∈{3,5,7,9},


Fk×k Lmax ,k3,5,7,9,
F{k×k}$~Lavg~和$F{k×k}Lmax将四个尺度转发到每个共享网络以生成四个局部信道注意力图MLavgc





R



C


×


(


(


M





k


)


)


/


/


k


+


1


)


×


(


(


N





k


)


/


/


k


+


1


)





R^{C×((M-k))//k+1)×((N-k)//k+1)}


RC×((Mk))//k+1)×((Nk)//k+1)
,k∈{3,5,7,9}和MLmaxc





R



C


×


(


(


M





k


)


)


/


/


k


+


1


)


×


(


(


N





k


)


/


/


k


+


1


)





R^{C×((M-k))//k+1)×((N-k)//k+1)}


RC×((Mk))//k+1)×((Nk)//k+1)
,k∈{3,5,7,9}。具有一个隐层的多层感知器(MLP)是每个尺度的共享网络的组成部分。为了最小化参数开销,隐层参数设置为





R



C


/


r


×


1


×


1





R^{C/r×1×1}


RC/r×1×1
,其中r是缩减比,1是核大小。然后,我们合并输出特征图





F



k


×


k





F^{k×k}


Fk×k
Lavgc
分别使用元素方式求和





F



k


×


k





F^{k×k}


Fk×k
Lmaxc的四个标度。这个过程可以写成
请添加图片描述

为了融合4个尺度的局部信道关注度图,采用最近插值的方法保持局部区域的关注度权重不变。通过Sigmoid激活函数分别对各尺度的注意力图进行插值融合,得到最终的注意力图FLC。简而言之,LPCA的计算公式为在这里插入图片描述


The Architecture of GPSA

在这里插入图片描述
GPSA是全局金字塔空间注意力。基于同一对象类别在同一幅图像中可以出现在不同尺度上的知识,如图3所示,我们采用了具有四个层次的不同类型核的空间注意力来捕捉不同层次的细节,使特征更加锐化。
输入特性的信道信息映射F是第一聚合特性映射采用maxpooling和avgpooling,分别生产两种特性表示:在这里插入图片描述
为了获得更精细的空间注意力图,我们采用金字塔结构对输入进行多尺度解析。





F


s




F^s


Fs
avg





R



1


×


H


×


W





R^{1×H×W}


R1×H×W






F


s




F^s


Fs
max





R



1


×


H


×


W





R^{1×H×W}


R1×H×W
由金字塔核大小分别为3×3,5×5,7×7,9×9进行级联的卷积,然后在Sigmoid函数之后生成2D空间注意力图。简而言之,这个过程可以用公式表示为在这里插入图片描述
在这里插入图片描述


Loss function

{





H



(


i


)





H^{(i)}


H(i)
u





P



(


i


)





P^{(i)}


P(i)
,





R



(


i


)





R^{(i)}


R(i)
}^Ni=1表示训练样本,其中N表示样本数。





H



(


i


)





H^{(i)}


H(i)
u





P



(


i


)





P^{(i)}


P(i)






R



(


i


)





R^{(i)}


R(i)
分别代表第i个样本的输入预插值HRHS图像、输入PAN图像和参考HS图像。一些先前的HS超分辨率任务已经证明,均方误差(称为L2损失)可能产生过平滑结果,因为平方惩罚在图像边缘处不起作用。
因此,我们采用损失函数的平均绝对误差(称为L1损失),广泛应用于自然超分辨率商品形象的任务,导致微妙的细节。Pavia Center dataset的训练损失曲线图4所示。的损失函数HP-MFFN可以写成。

请添加图片描述
请添加图片描述







推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了响应式页面的概念和实现方式,包括针对不同终端制作特定页面和制作一个页面适应不同终端的显示。分析了两种实现方式的优缺点,提出了选择方案的建议。同时,对于响应式页面的需求和背景进行了讨论,解释了为什么需要响应式页面。 ... [详细]
  • 最近做个项目要用百度地图,每一个点都要在地图上显示出来,而且都在可是范围之内,因为之前已经将所有的点都标注到地图上了,但是地图大小不变化。下面是代码:functionresizeMap(){ ... [详细]
  • 自编码器(Autoencoder,AE)基本意思就是一个隐藏层的神经网络,输入输出都是x,并且输入维度一定要比 ... [详细]
  • 深度强化学习Policy Gradient基本实现
    全文共2543个字,2张图,预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然 ... [详细]
  • 微信小程序中如何获取当前位置经纬度以及地图显示
    小编给大家分享一下微信小程序中如何获取当前位置经纬度以及地图显示,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 热血合击脚本辅助工具及随机数生成器源码分享
    本文分享了一个热血合击脚本辅助工具及随机数生成器源码。游戏脚本能够实现类似真实玩家的操作,但信息量有限且操作不可控。热血合击脚本辅助工具可以帮助玩家自动刷图、换图拉怪等操作,并提供了雷电云手机的扩展服务。此外,还介绍了使用mt_rand函数作为随机数生成器的代码示例。 ... [详细]
  • HTML学习02 图像标签的使用和属性
    本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • “近年来最大计算机漏洞”被中国程序员发现!
    头条中国程序员,计算机漏洞头条(观察者网讯)据美联社12月11日报道,中国阿里云安全团队在Web服务器软件阿帕奇(Apache)下的开源日志组件Log4j内,发现一个漏洞Log4S ... [详细]
author-avatar
手机用户2502906317
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有