热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

语义分割中FPN多尺度特征的配准问题

1.问题阐述语义分割的目的是给每一个像素进行正确的分类,这个定义提供了一种从分类视角看待问题的思路,但不能很好的阐述语义分割所面临的关键问题。顾名思

1.

问题阐述

语义分割的目的是给每一个像素进行正确的分类,这个定义提供了一种从分类视角看待问题的思路,但不能很好的阐述语义分割所面临的关键问题。顾名思义,语义分割是将图像分成若干块,同时获取块的类别,也就是语义信息。这其中有两个关键,一是分割的准确性,保证每个类边缘的准确;二是类别预测的准确性。要准确预测类别,需要利用深层的网络提取语义特征,而随着网络层数的加深,边缘细节不可避免的损失掉了。

很直观的我们可以用边界预测的方式来解决这个问题,也的确有很多论文这么做。但更多的论文是通过融合多尺度特征来保证在获取健壮的语义表示(大尺度)的同时维持细节(小尺度)。因为多尺度还有助于像素分类,毕竟不同的类别可能需要在不同的尺度之下进行探测。图像的多尺度还有一些其他的优势,比如省内存,最近视觉Transformer相关的论文也有相当多的一部分在致力于提取多尺度的特征或者说是恢复成多尺度的结构。

多尺度特征的提取问题暂且不谈,我们重点来讨论一下如何同时利用好不同尺度的特征,也就是如何进行多尺度特征融合。以FPN结构为例,小尺度的图像先经过1*1卷积降维使得大家通道数都一样,然后大尺度的图像经过一个上采样使得大家图像尺寸一样,规模都一样之后就可以相加了。然而真的可以直接相加吗,相加默认了像素之间存在一个一一对应的关系,但这个对应关系是否正确呢?在上采样通常只是双线性插值的情况下,这个对应关系明显存在疏漏。ICCV 2021 | 涨点神器!FaPN:用于密集图像预测的特征对齐金字塔网络 - 知乎该文提出FaPN来进行处理。

FaPN

FPN

Image

最近刚好看到了两篇论文SFsegNet(ECCV 2020), AlignSeg(TPAMI 2021)都是重点解决的这个问题,在此特地总结一下,包括他们的解决思路以及具体的代码实现。这两篇论文都是认为像素之间一一对应的关系存在误差,需要进行纠正,需要寻找每个像素之间正确的对应关系,也就是为每个像素寻找对应点。这不就是一个配准问题吗?当然不是很严格的一样,但是思路打开了,能否借鉴一下配准领域的知识呢,譬如这两篇论文都是用光流的方式进行配准,去计算每个像素的运动。

·可不可以不对所有像素进行计算,只计算一些关键点?(这样会有收益吗) 

·可不可以用其他的方式配准?(光流似乎最好实现) 

·不准的原因是什么,是不是这里发生了运动?(肯定不是真实的运动,是什么的运动呢)

不管怎样解决这个问题,这两篇论文至少都证明了语义分割中配准问题是真真实实存在的,以下图来自SFsegNet, 可以很明显的看到不同尺度之间图像“对应”像素之间的语义差别还是蛮大的,估计了光流然后纠正后效果十分明显。

Image

这种像素错位的问题 ,该博客也进行了阐述

点击可查看大图

1.AlignSeg: Feature-Aligned Segmentation Networks

论文地址:

https://arxiv.org/abs/2003.00872 

代码地址:

https://github.com/speedinghzl/AlignSeg

这里只看配准部分,其他部分有兴趣的可以看看原文。

Image

点击可查看大图

模块组成很直观,先对低分辨率特征上采样,再与高分辨率特征相连,经过1x1卷积降到256,然后BN,激活,经过3x3卷积得到四个通道,其含义就是两个尺度特征的offset map(H x W x 2, 因为有两个方向的偏移,所以乘2)。模块里没有体现的就是那个u函数,也就是如何利用offset map进行纠正,纠正之后把两个尺度的特征相加即可。论文给出的纠正公式如下:(出自Spatial transformer networks,但论文并没有进行引用,我还是看的SFsegNet发现的)

Image

点击可查看大图

拍脑袋想一下,有了offset map,直接按照偏移量将原像灰度值(为了简便,这样表述)赋给新的像点不就好了吗?为什么要用这个看起来这么复杂的公式。实际上要考虑到偏移不是整数的情况,直接赋值就是最近邻插值,不太精确,论文这个公式就是双线性插值。

点(h,w)经过偏移变成

Image

, 新像点(h,w)的值由偏移后的点附近(-1,1)范围内的点按距离双线性插值得到。虽然求和范围是全图,但把max以及绝对值展开,就会发现只有在距偏移后的点(-1,1)的方格内的点才对权重有贡献。

来看一下实际的代码实现,发现论文作者并没有按论文里说的一起计算偏移分量,delta_gen还是各自经过卷积得到,作者回复因为两个尺度偏移矩阵的方差不一样,分开计算效果更好。

代码复杂的部分依然是这个双线性插值如何实现,但仔细一看,我发现和下一篇的warp函数基本上完全一样,这里就不介绍了。它的第二个插值函数实际并没有用到...

class CAB(nn.Module): def __init__(self, features): super(CAB, self).__init__() self.delta_gen1 = nn.Sequential( nn.Conv2d(features*2, features,kernel_size=1, bias=False), InPlaceABNSync(features), nn.Conv2d(features, 2, kernel_size=3,padding=1, bias=False) )         self.delta_gen2 = nn.Sequential(         nn.Conv2d(features*2, features,kernel_size=1, bias=False),         InPlaceABNSync(features),         nn.Conv2d(features, 2, kernel_size=3,padding=1, bias=False) ) self.delta_gen1[2].weight.data.zero_() self.delta_gen2[2].weight.data.zero_()     def bilinear_interpolate_torch_gridsample(self, input, size,delta=0): out_h, out_w = size n, c, h, w = input.shape s = 1.0 norm = torch.tensor([[[[h/s,w/s]]]]).type_as(input).to(input.device) w_list = torch.linspace(-1.0, 1.0, out_h).view(-1,1).repeat(1, out_w) h_list = torch.linspace(-1.0, 1.0, out_w).repeat(out_h, 1) grid = torch.cat((h_list.unsqueeze(2),w_list.unsqueeze(2)), 2) grid = grid.repeat(n, 1, 1,1).type_as(input).to(input.device) grid = grid + delta.permute(0, 2, 3, 1) / norm output = F.grid_sample(input, grid) return output     def bilinear_interpolate_torch_gridsample2(self, input, size,delta=0): out_h, out_w = size n, c, h, w = input.shape norm = torch.tensor([[[[1,1]]]]).type_as(input).to(input.device) delta_clam = torch.clamp(delta.permute(0, 2, 3, 1) / norm,-1, 1) grid =torch.stack(torch.meshgrid(torch.linspace(-1,1,out_h),torch.linspace(-1,1,out_w)), dim=-1).unsqueeze(0) grid = grid.repeat(n, 1, 1,1).type_as(input).to(input.device)
grid = grid.detach() + delta_clam output = F.grid_sample(input, grid) return output     def forward(self, low_stage, high_stage):  h, w = low_stage.size(2), low_stage.size(3)        high_stage = F.interpolate(input=high_stage, size=(h, w)mode='bilinear', align_corners=True) cOncat= torch.cat((low_stage, high_stage), 1) delta1 = self.delta_gen1(concat) delta2 = self.delta_gen2(concat)        high_stage =self.bilinear_interpolate_torch_gridsample(high_stage, (h, w),delta1)        low_stage =self.bilinear_interpolate_torch_gridsample(low_stage, (h, w),delta2)  high_stage += low_stage return high_stage

2.Semantic Flow for Fast and Accurate Scene Parsing

论文地址:

https://arxiv.org/abs/2002.10120v3 

代码地址:

https://github.com/lxtGH/SFSegNets

同样只看配准部分。

Image

点击可查看大图

先各自经过一个1*1卷积到指定维数,再对低分辨率上采样,将两个分辨率特征相连,经过3×3卷积降到2维,分别代表x,y方向的offset map,再经过一个warp操作对低分辨率图进行纠正。

warp操作就是双线性插值,看起来比较复杂的代码就是grid的生成,可以固定h,w的大小,在python命令行里自己输入一下那几行语句,从维度和具体的值来加深这一过程的理解。

class AlignedModule(nn.Module):


def __init__(self, inplane, outplane, kernel_size=3):        super(AlignedModule, self).__init__()        self.down_h = nn.Conv2d(inplane, outplane, 1, bias=False)         self.down_l = nn.Conv2d(inplane, outplane, 1, bias=False)         self.flow_make = nn.Conv2d(outplane*2, 2,kernel_size=kernel_size, padding=1, bias=False)
def forward(self, x): low_feature, h_feature = x h_feature_orign = h_feature h, w = low_feature.size()[2:] size = (h, w) low_feature = self.down_l(low_feature) h_feature= self.down_h(h_feature) h_feature = F.upsample(h_feature, size=size,mode="bilinear", align_corners=True)        flow = self.flow_make(torch.cat([h_feature, low_feature],1))       h_feature = self.flow_warp(h_feature_orign, flow,size=size)
        return h_feature            def flow_warp(self, input, flow, size):     out_h, out_w = size     n, c, h, w = input.size()     # n, c, h, w     # n, 2, h, w          norm = torch.tensor([[[[out_w,out_h]]]]).type_as(input).to(input.device)        h = torch.linspace(-1.0, 1.0, out_h).view(-1, 1).repeat(1,out_w) w = torch.linspace(-1.0, 1.0, out_w).repeat(out_h, 1) grid = torch.cat((w.unsqueeze(2), h.unsqueeze(2)), 2) grid = grid.repeat(n, 1, 1,1).type_as(input).to(input.device) grid = grid + flow.permute(0, 2, 3, 1) / norm output = F.grid_sample(input, grid) return output

2.

总结

这两篇论文解决多尺度特征配准问题的方式大同小异,区别就在于AlignSeg分别估计了 不同分辨率的offset map,并分别进行了纠正,而SFsegNet只对低分辨率图进行了纠正。前 者解释说估计两个的原因是,配准靠单方面无法完成。

有趣的是这两篇论文第一版上arXiv的时间都是Mon, 24 Feb 2020。

原文:


推荐阅读
  • 本文介绍了Python字典视图对象的示例和用法。通过对示例代码的解释,展示了字典视图对象的基本操作和特点。字典视图对象可以通过迭代或转换为列表来获取字典的键或值。同时,字典视图对象也是动态的,可以反映字典的变化。通过学习字典视图对象的用法,可以更好地理解和处理字典数据。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了Python异常的捕获、传递与抛出操作,并提供了相关的操作示例。通过异常的捕获和传递,可以有效处理程序中的错误情况。同时,还介绍了如何主动抛出异常。通过本文的学习,读者可以掌握Python中异常处理的基本方法和技巧。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • 广度优先遍历(BFS)算法的概述、代码实现和应用
    本文介绍了广度优先遍历(BFS)算法的概述、邻接矩阵和邻接表的代码实现,并讨论了BFS在求解最短路径或最短步数问题上的应用。以LeetCode中的934.最短的桥为例,详细阐述了BFS的具体思路和代码实现。最后,推荐了一些相关的BFS算法题目供大家练习。 ... [详细]
  • 我用Tkinter制作了一个图形用户界面,有两个主按钮:“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]
  • 本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]
author-avatar
喜欢玩电脑游戏的我_425
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有