当前位置: 开发笔记 > 编程语言 > 正文

ResNet网络结构、BN以及迁移学习介绍

作者：掩不住的心 | 来源：互联网 | 2023-08-01 14:51

文章目录1.resNet介绍1.134层深度残差结构1.2网络亮点1.3网络简单堆叠和resNet网络的比较1.4残差结构residual1.5BatchNormalization

文章目录

1. resNet介绍
- 1.1 34层深度残差结构
- 1.2 网络亮点
- 1.3 网络简单堆叠和resNet网络的比较
- 1.4 残差结构residual
- 1.5 Batch Normalization详解
2. 迁移学习简介
- 2.1 使用迁移学习的优势
- 2.2 迁移学习过程理解
- 2.3 常见迁移学习方式
3. 花分类实例

1. resNet介绍

1.1 34层深度残差结构

在这里插入图片描述

1.2 网络亮点

超深的网络结构&＃xff08;突破1000层&＃xff09;
提出residual模块
使用batch normalization加速训练&＃xff08;丢弃dropout&＃xff09;

1.3 网络简单堆叠和resNet网络的比较

网络简单堆叠存在的问题

梯度消失&＃xff08;梯度<1&＃xff09;或梯度爆炸&＃xff08;梯度>1&＃xff09;
退化问题

网络简单堆叠和resNet网络错误率的比较。
右图实线为验证集错误率&＃xff0c;虚线为训练集错误率
在这里插入图片描述

1.4 残差结构residual

有两种残差结构
在这里插入图片描述
注意&＃xff1a; 主分支与侧分支的输出特征矩阵需要相加&＃xff0c;故两者shape必须相同

对左边残差结构的理解

左边残差结构在网络层数较少时使用&＃xff0c;ResNet34层
主分支上&＃xff1a;输入特征矩阵经过两个3*3的卷积层
结尾的加号表示&＃xff1a;输入特征矩阵在主分支经过一系列卷积之后再与原输入特征矩阵相加&＃xff0c;最后再通过relu激活函数

对右边残差结构的理解

适用于ResNet50层/101/152层
主分支上&＃xff1a; $1 * 1$ 的卷积层&＃xff08;作用是降维&＃xff1a;从256->64&＃xff09;、 $3 * 3$ 的卷积层、 $1 * 1$ 的卷积层&＃xff08;作用是升维&＃xff0c;便于主分支与侧分支的输出特征矩阵的shape相同&＃xff09;

ResNet参数列表&＃xff1a;
在这里插入图片描述
不同的残差结构&＃xff08;实线残差结构、虚线残差结构&＃xff09;

实线残差结构是由于&＃xff1a;输入特征矩阵和输出特征矩阵能够直接相加
在这里插入图片描述

虚线残差结构&＃xff1a;输入特征矩阵和输出特征矩阵不能直接相加&＃xff0c;输入特征矩阵需要经过侧分支的128个 $1 * 1$ 卷积核才能与主分支的输出特征矩阵相加

在这里插入图片描述

对于残差结构图中的侧分支有些是实线有些是虚线的解释

虚线原因&＃xff1a;由于输入特征矩阵的shape和输出特征矩阵的shape不同
实线残差结构和虚线残差结构的不同之处&＃xff1a;步距stride、侧分支
对于18层、34层ResNet的conv2的第一层是实线残差结构&＃xff0c;原因是经过最大池化下采样后得到的输出是[56&＃xff0c;56&＃xff0c;64]&＃xff0c;刚好是实线残差结构所需要的输入shape
对于深层结构50层、101层、152层&＃xff0c;输入特征矩阵通过最大池化层后的输出shape是[56&＃xff0c;56&＃xff0c;64]&＃xff0c;而实线残差结构所需要的输入shape是[56&＃xff0c;56&＃xff0c;256]。因此conv2_x对应的第一个虚线残差层仅调整特征矩阵的深度&＃xff0c;高和宽不变。对于conv3_x、conv4_x、conv5_x不仅调整深度&＃xff0c;同时需要调整高和宽

1.5 Batch Normalization详解

BN更详细的看这篇&＃xff1a;Batch Normalization详解以及pytorch实验

CNN中的feature map介绍

Batch Normalization的目的&＃xff1a;使一批&＃xff08;batch&＃xff09;特征矩阵feature map每个channel对应的维度满足均值为0&＃xff0c;方差为1的分布规律&＃xff0c;通过该方法能够加速网络的收敛并提升准确率

在图像预处理过程中通常会对图像进行标准化处理&＃xff0c;以加速网络的收敛。对于Conv1来说输入的就是满足某一分布的特征矩阵&＃xff0c;但对于Conv2而言输入的feature map就不一定满足某一分布规律了

&＃xff08;注意这里所说满足某一分布规律并不是指某一个feature map的数据要满足分布规律&＃xff0c;理论上是指整个训练样本集所对应feature map的数据要满足分布规律&＃xff09;。

而我们Batch Normalization的目的就是使我们的特征层feature map满足均值为0&＃xff0c;方差为1的分布规律。

在这里插入图片描述

使用BN应注意的问题

训练时将training设置为True&＃xff0c;验证时将training设置为False。在pytorch中通过创建模型的model.train()和model.eval()方法控制
batch size尽可能设置大设置的越大求的均值和方差越接近整个训练集的均值和方差
将BN层放在卷积层Conv和激活层&＃xff08;例如Relu&＃xff09;之间&＃xff0c;且卷积层不要用偏置bias&＃xff08;即使使用也无任何作用&＃xff0c;参考下图推理&＃xff09;

2. 迁移学习简介

2.1 使用迁移学习的优势

1. 能够快速训练出来一个理想的结果
2. 当训练集较小时也能训练出理想的效果

注意 &＃xff1a;使用别人预训练模型参数时&＃xff0c;要注意与别人的预处理方式保持一致

2.2 迁移学习过程理解

在这里插入图片描述

浅层卷积层学习到的角点、纹理信息是较为通用的信息&＃xff0c;这些信息不仅在本网络中使用&＃xff0c;同时可以迁移应用到其他网络&＃xff0c;即迁移。

浅层网络的参数迁移到新网络&＃xff0c;则新网络也拥有了识别角点、纹理等通用特征的能力&＃xff0c;新网络就能够更加快速的学习新的数据集的高维特征

2.3 常见迁移学习方式

载入权重后训练所有参数&＃xff08;准确率高但训练时间长&＃xff0c;且对硬件要求严格&＃xff09;
载入权重后只训练最后几层参数
载入权重后在原网络基础上添加一层全连接层&＃xff0c;仅训练最后一个全连接层

硬件有限或对时间有要求选择第2、3种迁移学习方式

由于训练集的最后一层的分类个数可能和原预训练模型的参数不一致&＃xff0c;采用第一种方式时&＃xff0c;最后一层无法载入模型参数&＃xff1b;但若采用第三种迁移学习方式&＃xff0c;由于又添加了一层全连接层&＃xff0c;最后一层模型参数可以载入&＃xff0c;新添加的全连接层的结点个数即训练集的分类个数&＃xff0c;仅训练最后一个全连接层即可。

3. 花分类实例

花分类实例参考这篇&＃xff1a;使用pytorch搭建ResNet并基于迁移学习训练

推荐阅读

eval
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
eval
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
eval
在Windows10系统上使用VMware创建CentOS虚拟机的详细步骤教程

本文详细介绍了在Windows10系统上使用VMware创建CentOS虚拟机的步骤，包括准备条件、安装VMware、下载CentOS ISO文件、创建虚拟机并进行自定义配置、设置虚拟机的ISO与网络、进行安装和配置等。通过本文的指导，读者可以轻松地创建自己的CentOS虚拟机并进行相应的配置和操作。 ... [详细]

蜡笔小新 2023-12-09 09:09:21
char
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
const
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
main
WPF之Binding初探

初学wpf，经常被Binding搞晕，以下记录写Binding的基础。首先，盗用张图。这图形象的说明了Binding的机理。对于Binding,意思是数据绑定，基本用法是：1、 ... [详细]

蜡笔小新 2023-10-17 17:01:37
instance
KVC/KVO底层实现原理

KVC:Key-valuecodingisamechanismforindirectlyaccessinganobject’sattributesandrelations ... [详细]

蜡笔小新 2023-10-17 13:57:22
main
java布尔字段用is前缀_POJO类中布尔类型的变量都不要加is前缀详解

前言对应阿里巴巴开发手册第一章的命名风格的第八条。【强制】POJO类中布尔类型的变量都不要加is前缀，否则部分框架解析会引起序列化错误。反例：定义为基本 ... [详细]

蜡笔小新 2023-10-17 12:21:15
main
S3D算法详解

S3D论文详解论文地址：RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]

蜡笔小新 2023-10-16 17:45:39
main
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
instance
PyTorch源码解读之torchvision.models

PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchv ... [详细]

蜡笔小新 2023-10-16 11:14:55
instance
传统图像处理之皮肤区域检测

本文主要分享【图像区域识别】，技术文章【传统图像处理之皮肤区域检测】为【watersink】投稿，如果你遇到图像处理相关问题，本文相关知识或能到你。图像区域识别能够从别人的角度来看待这个世界，是一 ... [详细]

蜡笔小新 2023-10-15 19:11:50
instance
微信回应「10 元就能在朋友圈改定位」；谷歌官方首次提及 Android 11；Node 8.16.2 发布 | 极客头条...

微信回应「10元就能在朋友圈改定位」；谷歌官方首次提及Android11；Node8.16.2发布|极客头条,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 15:22:56
instance
YOLOV4 Pytorch版本训练自建数据集和预测

1.程序下载本文程序核心部分完全参考开源代码：https:github.comWongKinYiuPyTorch_YOLOv4。只是从一种学习的角度去写了我的代码仓库，在基础上增加 ... [详细]

蜡笔小新 2023-10-14 15:32:06
instance
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46

掩不住的心

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章