FCNFullyConvolutionalNetworks

作者：真真贱贱_474 | 来源：互联网 | 2023-06-27 21:38

CNN与FCN通常cnn网络在卷积之后会接上若干个全连接层，将卷积层产生的特征图（featuremap）映射成为一个固定长度的特征向量。一

CNN与FCN

通常cnn网络在卷积之后会接上若干个全连接层&＃xff0c;将卷积层产生的特征图&＃xff08;feature map&＃xff09;映射成为一个固定长度的特征向量。一般的CNN结构适用于图像级别的分类和回归任务&＃xff0c;因为它们最后都期望得到输入图像的分类的概率&＃xff0c;如ALexNet网络最后输出一个1000维的向量表示输入图像属于每一类的概率。

FCN对图像进行像素级的分类&＃xff0c;从而解决了语义级别的图像分割问题。与经典的CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同&＃xff0c;FCN可以接受任意尺寸的输入图像&＃xff0c;采用反卷积层对最后一个卷基层的特征图&＃xff08;feature map&＃xff09;进行上采样&＃xff0c;使它恢复到输入图像相同的尺寸&＃xff0c;从而可以对每一个像素都产生一个预测&＃xff0c;同时保留了原始输入图像中的空间信息&＃xff0c;最后奇偶在上采样的特征图进行像素的分类。

-全卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。
FCN将传统CNN中的全连接层转化成一个个的卷积层。如下图所示&＃xff0c;在传统的CNN结构中&＃xff0c;前5层是卷积层&＃xff0c;第6层和第7层分别是一个长度为4096的一维向量&＃xff0c;第8层是长度为1000的一维向量&＃xff0c;分别对应1000个类别的概率。FCN将这3层表示为卷积层&＃xff0c;卷积核的大小(通道数&＃xff0c;宽&＃xff0c;高)分别为&＃xff08;4096,1,1&＃xff09;、&＃xff08;4096,1,1&＃xff09;、&＃xff08;1000,1,1&＃xff09;。所有的层都是卷积层&＃xff0c;故称为全卷积网络。

FCN特点

1.将普通的分类网络丢弃全连接层&＃xff0c;换上对应的卷积层

2.上采样&＃xff0c;方法是双线性上采样差&＃xff0c;此处的上采样即是反卷积。

3.跳跃结构&＃xff1a;因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的&＃xff0c;所以作者将不同池化层的结果进行上采样之后来优化输出&＃xff0c;现在我们有1/32尺寸的heatMap&＃xff0c;1/16尺寸的featureMap和1/8尺寸的featureMap&＃xff0c;如果直接对1/32尺寸的heatMap进行upsampling操作&＃xff0c;因为还原的图片仅仅是conv5中的卷积核中的特征&＃xff0c;限于精度问题不能够很好地还原图像当中的特征&＃xff0c;因此
把conv4中的卷积核对上一次upsampling之后的图进行反卷积补充细节(相当于一个差值过程)&＃xff0c;最后把conv3中的卷积核对刚才upsampling之后的图像进行再次反卷积补充细节&＃xff0c;最后就完成了整个图像的还原。

网络结构

网络结构如下。输入可为任意尺寸图像彩色图像&＃xff1b;输出与输入尺寸相同&＃xff0c;深度为&＃xff1a;20类目标&＃43;背景&＃61;21。 &＃xff08;在PASCAL数据集上进行的&＃xff0c;PASCAL一共20类&＃xff09;

作者的FCN主要使用了三种技术&＃xff1a;

不含全连接层(fc)的全卷积(fully conv)网络。可适应任意尺寸输入。
增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。
结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。

16*16*21变成34*34*21&＃xff1a;参考&＃xff1a;https://blog.csdn.net/py184473894/article/details/83748891讲解了完整caffe文件结构。

对于deconvolution: output &＃61; (input - 1) * stride &＃43; ksize - 2 * padding;

layer {name: "upscore2"type: "Deconvolution"bottom: "score_fr"top: "upscore2"param {lr_mult: 0}convolution_param {num_output: 21bias_term: falsekernel_size: 4stride: 2} }

upscore2&＃xff1a;输入为16*16*21 输入为34*34*21

crop

注意&＃xff1a;为了得到和输入图像尺寸完全相同的特征图,FCN中还使用了crop操作来辅助反卷积操作&＃xff0c;因为反卷积操作并不是将特征图恰好放大整数倍。图中灰色区域。

layer {name: "crop_layer"type: "Crop"bottom: "A"bottom: "B"top: "C"crop_param {axis: 1offset: 25offset: 128offset: 128} }

偏移参数用于告诉裁剪层准确裁剪的位置

Crop_layer的主要作用就是进行剪裁。Caffe中的数据是以 blobs形式存在的&＃xff0c;blob是四维数据&＃xff0c;即Blob是4D :(批量大小&＃xff0c;通道数/过滤器数&＃xff0c;高度&＃xff0c;宽度&＃xff09;&＃61;&＃xff08;N&＃xff0c;C&＃xff0c;H&＃xff0c;W&＃xff09;

1-crop bottom A is (20, 50, 512, 512)

2-reference bottom B is (20, 10, 256, 256)

3-the top blob C (result blob) will be (20, 10, 256, 256)

在这个例子中&＃xff0c;我们想要裁剪尺寸1,2和3.但是保持尺寸0固定。所以我们设置axis&＃61; 1&＃xff08;将裁剪1和所有后续轴&＃xff09;
另一个参数&＃39;offset&＃39;指定裁剪在A中的确切位置。显然&＃xff0c;此参数没有默认值&＃xff0c;必须指定。
指定3个偏移&＃xff1a;比如偏移&＃61;&＃xff08;25,128,128&＃xff09;所以轴&＃61; 1&＃xff0c;偏移&＃61;&＃xff08;25,128,128&＃xff09;
numpy语法中的裁剪操作将是&＃xff1a;C &＃61; A [&＃xff1a;&＃xff0c;25&＃xff1a;25 &＃43; B.shape [1]&＃xff0c;128&＃xff1a;128 &＃43; B.shape [2]&＃xff0c;128&＃xff1a;128 &＃43; B.shape [3]]
用语言来说&＃xff1a;这只会采用A 25到35的过滤器而忽略其余部分。并为空间维度做中心裁剪

from :https://blog.csdn.net/sunshine_in_moon/article/details/52900338

全卷积层&＃xff1a;

假设卷积神经网络的输入是224x224x3的图像&＃xff0c;一系列的卷积层和下采样层将图像数据变为尺寸为 7x7x512 的数据体。AlexNet使用了两个尺寸为4096的全连接层&＃xff0c;最后一个有1000个神经元的全连接层用于计算分类评分。我们可以将这3个全连接层中的任意一个转化为卷积层&＃xff1a;

第一个连接区域是[7x7x512]的全连接层&＃xff0c;令其滤波器尺寸为Kernel&＃61;7&＃xff0c;这样输出数据体就为[1x1x4096]了&＃xff1b;
第二个全连接层&＃xff0c;令其滤波器尺寸为Kernel&＃61;1&＃xff0c;这样输出数据体为[1x1x4096]&＃xff1b;
最后一个全连接层也做类似的&＃xff0c;令其Kernel&＃61;1&＃xff0c;最终输出为[1x1x1000]。

转化的意义

这样的变换每次都需要把全连接层的权重W重塑成卷积层的滤波器。如果想让卷积网络在一张更大的输入图片上滑动&＃xff0c;得到多个输出&＃xff0c;那么卷积层可以在单次前向传播中完成全连接层几次才能完成的操作。

假设想让224×224的滑窗&＃xff0c;以32的步长在384×384的图片上滑动&＃xff0c;将每个位置的特征都提取到网络中&＃xff0c;最后得到6×6个位置的类别得分。如果224×224的输入图片经过卷积层和下采样层之后得到了[7x7x512]的特征图&＃xff0c;那么&＃xff0c;384×384的大图片直接经过同样的卷积层和下采样层之后会得到[12x12x512]的特征。然后再经过上面由3个全连接层转化得到的3个卷积层&＃xff0c;最终得到[6x6x1000]的输出((12 – 7)/1 &＃43; 1 &＃61; 6)。这个结果正是滑窗在原图中6×6个位置的得分。

对于384×384的图像&＃xff0c;让&＃xff08;含全连接层&＃xff09;的初始卷积神经网络以32像素的步长独立对图像中的224×224块进行多次评价&＃xff0c;其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播是一样的。所以将全连接层转换成卷积层会更简便。

CNN中输入的图像大小是固定resize成 227x227 大小的图像&＃xff0c;第一层pooling后为55x55&＃xff0c;第二层pooling后图像大小为27x27&＃xff0c;第五层pooling后的图像大小为13*13。

而FCN输入的图像是H*W大小&＃xff0c;第一层pooling后变为原图大小的1/4&＃xff0c;第二层变为原图大小的1/8&＃xff0c;第五层变为原图大小的1/16&＃xff0c;第八层变为原图大小的1/32。经过多次卷积和pooling以后&＃xff0c;得到的图像越来越小&＃xff0c;分辨率越来越低。其中图像到 H/32&＃xff0c;W/32 的时候图片是最小的一层时&＃xff0c;所产生图叫做heatmap&＃xff0c;是我们最重要的高维特征图&＃xff0c;得到高维特征的heatmap之后就是最重要的一步也是最后的一步对原图像进行upsampling&＃xff0c;把图像进行放大、放大、放大到原图像的大小。

我的理解&＃xff1a;放大的尺寸根据缩放的比例来求&＃xff0c;通过参数步长stride来确定&＃xff0c;对于反卷积来说&＃xff0c;stride&＃61;n,相当于先对featuremap每个像素间隔插入n个“0”元素&＃xff0c;然后使用卷积核进行计算。&＃xff1f;&＃xff1f;&＃xff1f;

反卷积-升采样

卷积操作如下&＃xff1a;

通过滑动卷积核&＃xff0c;就可以得到整张图片的卷积结果&＃xff0c;

full卷积&＃xff1a;

下图表示的是参数为( i′&＃61;2,k′&＃61;3,s′&＃61;1,p′&＃61;2)的反卷积操作&＃xff0c;其对应的卷积操作参数为 (i&＃61;4,k&＃61;3,s&＃61;1,p&＃61;0)。我们可以发现对应的卷积和非卷积操作其 (k&＃61;k′,s&＃61;s′)&＃xff0c;但是反卷积却多了p′&＃61;2。通过对比我们可以发现卷积层中左上角的输入只对左上角的输出有贡献&＃xff0c;所以反卷积层会出现 p′&＃61;k−p−1&＃61;2。通过示意图&＃xff0c;我们可以发现&＃xff0c;反卷积层的输入输出在 s&＃61;s′&＃61;1 的情况下关系为&＃xff1a;

o′&＃61;i′−k′&＃43;2p′&＃43;1&＃61;i′&＃43;(k−1)−2p

&＃xff08;为什么padding加的越多&＃xff0c;最后输出越小&＃xff09;。下图是当stride&＃61;2时的反卷积情况&＃xff1a;

卷积&＃xff1a;

反卷积&＃xff1a;&＃xff0c;可以把式中的p&＃61;k-1-p′

假设原图是3X3&＃xff0c;首先使用上采样让图像变成7X7&＃xff0c;可以看到图像多了很多空白的像素点。使用一个3X3的卷积核对图像进行滑动步长为1的valid卷积&＃xff0c;得到一个5X5的图像&＃xff0c;我们知道的是使用上采样扩大图片&＃xff0c;使用反卷积填充图像内容&＃xff0c;使得图像内容变得丰富&＃xff0c;这也是CNN输出end to end结果的一种方法。

下半部分&＃xff0c;反卷积层&＃xff08;橙色×3&＃xff09;可以把输入数据尺寸放大。和卷积层一样&＃xff0c;上采样的具体参数经过训练确定。

这里图像的反卷积与下图的full卷积原理是一样的&＃xff0c;使用了这一种反卷积手段使得图像可以变大&＃xff0c;FCN作者使用的方法是这里所说反卷积的一种变体&＃xff0c;这样就可以获得相应的像素值&＃xff0c;图像可以实现end to end。

&＃xff08;feature map值与权重不同&＃xff0c;生成的上采样的二值区域也是不一样的。&＃xff09;
这里写图片描述

使用上采样操作&＃xff1b;并且将这些特征图进行上采样之后&＃xff0c;将特征图对应元素相加&＃xff0c;FCN为了得到信息&＃xff0c;使用上采样&＃xff08;使用反卷积&＃xff09;实现尺寸还原。不仅对pool5之后的特征图进行了还原&＃xff0c;也对pool4和pool3之后的特征图进行了还原&＃xff0c;结果表明&＃xff0c;从这些特征图能很好的获得关于图片的语义信息&＃xff0c;而且随着特征图越来越大&＃xff0c;效果越来越好。

逐像素点预测分类

采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸&＃xff0c;从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

具体过程&＃xff1a;经过多次卷积和pooling以后&＃xff0c;得到的图像越来越小&＃xff0c;分辨率越来越低。

这里写图片描述

from&＃xff1a;https://blog.csdn.net/qq_36269513/article/details/80420363

from&＃xff1a;https://www.cnblogs.com/ywheunji/p/10154757.html

原文&＃xff1a;https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf

推荐阅读

format
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
python
python发送邮件库_drymail：Python 电子邮件发送库

说明Python教程正在编写中，欢迎大家加微信sinbam提供意见、建议、纠错、催更。drymail是一个邮件发送库，封装了Python的smtplib ... [详细]

蜡笔小新 2024-11-16 09:30:20
format
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
format
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
format
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
datetime
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
range
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
less
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
config
【前端开发】深入探讨 RequireJS 与性能优化策略

随着前端技术的迅速发展，RequireJS虽然不再像以往那样吸引关注，但其在模块化加载方面的优势仍然值得深入探讨。本文将详细介绍RequireJS的基本概念及其作为模块加载工具的核心功能，并重点分析其性能优化策略，帮助开发者更好地理解和应用这一工具，提升前端项目的加载速度和整体性能。 ... [详细]

蜡笔小新 2024-10-31 11:23:01
数组
利用PaddleSharp模块在C#中实现图像文字识别功能测试

PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库，适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能，并进行了全面的功能测试，验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]

蜡笔小新 2024-10-30 15:53:37
数组
Spring 中策略模式的应用：Resource 接口详解

本文探讨了在 Spring 框架中如何利用 Resource 接口实现资源访问策略。Resource 接口作为资源访问策略的抽象，通过多种实现类支持不同类型的资源访问。 ... [详细]

蜡笔小新 2024-11-15 23:58:40
数组
《程序员的数学》：一本适合初学者的数学指南

结城浩（1963年7月出生），日本资深程序员和技术作家，居住在东京武藏野市。他开发了著名的YukiWiki软件，并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍，其中许多被翻译成英文和韩文。 ... [详细]

蜡笔小新 2024-11-12 21:47:50
数组
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
format
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12

真真贱贱_474

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章