【论文阅读笔记】BatchNormalization_AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift

作者：Lanboream | 来源：互联网 | 2023-09-11 17:45

前提知识： covariateshift，协向量变化，即输入变量x自身的变化【对于一个可学习系统的输入分布在改变。通俗的说，

前提知识&＃xff1a;
covariate shift&＃xff0c; 协向量变化&＃xff0c;即输入变量x自身的变化【对于一个可学习系统的输入分布在改变。通俗的说&＃xff0c;就是一个网络在训练过程中每层子网络的输入在不断变化】
Batch-Normalization&＃xff0c;使得网络层输入的分布呈现标准正态分布【均值为0&＃xff0c;方差为1】&＃xff0c;其可使网络的训练加快【每一层网络的分布不一样&＃xff0c;所需的学习率lr不一样&＃xff0c;网络系统需要使用最低的那个lr来保证模型在收敛】&＃xff0c;亦可部分解决梯度爆炸现象的问题【通过减少梯度对于参数初始值的依赖性】。
数据初始化&＃xff0c;以图像为例&＃xff0c;其每个channel的数字都在0~255&＃xff0c;即在二维笛卡尔坐标中&＃xff0c;数据都分布在第一象限&＃xff0c;且附近像素点之间具有强相关性&＃xff0c;这使得数据分布显得狭长。这就使得随机分界面出现在第一象限的概率为1/4&＃xff08;在二维的情况下&＃xff09;&＃xff0c;且狭长的分布形状使得随机分界面出现在数据分布周边的概率更低&＃xff0c;这就需要多次迭代模型才能收敛&＃xff0c;而且大量数据外的分割面迭代可能会进入局部最优解。如果使用PCA和ZCA白化使得数据分布不再狭长&＃xff0c;其随机分布界面靠近数据分布的几率就大了些&＃xff1b;如果在每个维度都减去均值&＃xff0c;则在每个维度上都增加了2倍几率的扩散，总共增加了 $2^{n}$ 的分布几率。

为什么模型训练前要对输入数据做归一化处理&＃xff1f;

学习过程的本质就是为了学习数据分布&＃xff0c;一旦训练数据和测试数据的分布不同&＃xff0c;那么模型的泛化能力也大大降低。况且如果每批&＃xff08;Batch&＃xff09;训练数据的分布各不相同&＃xff0c;那么模型在每次迭代都要去学习适应不同的分布&＃xff0c;这会降低模型的收敛速度。因此&＃xff0c;我们需要对输入数据进行归一化处理。

概要

训练深层神经网络是复杂的&＃xff0c;因为每一层的输入在训练的过程中都在不断的变化&＃xff08;前一层的参数在不断的变化&＃xff09;。这使得我们训练模型的时候需要应用低学习率、谨慎地初始化参数&＃xff0c;以及使得非线性饱和模型的训练变得十分困难&＃xff0c;这些现象的结果就是降低了训练的速度。我们把这个现象称为【internal covariate shift&＃xff0c;内部协变量变化】&＃xff0c;并通过规范化层输入来解决这个问题。【Batch-Normalization&＃xff0c;批处理】允许我们使用更高的学习率&＃xff0c;允许我们不用那么在意初始化&＃xff0c;并且在一些情况下不需要使用【Dropout】。使用Batch-Normalization能提升数倍的训练速度&＃xff0c;并大幅度提高准确度【刷新了当年&＃xff08;2015年&＃xff09;ImageNet分类的top-5准确值】。

内部协向量变化

由于神经网络每层的输入都受到前面所有层的参数的影响&＃xff0c;因此随着网络变得更深&＃xff0c;网络参数的微小变化就会放大&＃xff0c;这使得深层神经网络的训练变得困难[complicated]。已知如果输入经过了白化操作【均值为0&＃xff0c;方差为1】&＃xff0c;网络收敛的速度就会加快&＃xff0c;所以本文借鉴了这种想法&＃xff0c;将每层网络的分布都进行这种操作作为下一层的输入。

在Mini-Batch上的Normalization

如果每层都使用白化操作&＃xff0c;那么计算协相关矩阵要耗费大量时间&＃xff0c;且不一定可逆&＃xff0c;所以在实际操作中&＃xff0c;作者借鉴了其中最重要的一点&＃xff1a;在输入变量的每个维度上都使它0均值和单位方差&＃xff0c;

x (k) 1 &＃61; x ( k ) - E [ x ( k ) ] V a r [ x ( k ) ] - - - - - - - \sqrt

由于每次 Normalization 都是在一个Mini-Batch上操作的【即计算均值的时候&＃xff0c;在一个batch上&＃xff08;比如5&＃xff09;进行均值运算】&＃xff0c;所以该操作称为
Batch-Normalization。但如果简单的直接正规化每一层的输入&＃xff0c;那么会破坏其正常的分布&＃xff08;如将Sigmoid函数的input进行正规化&＃xff0c;则会将非线性编程线性的【这是因为Sigmoid函数在0附近时基本呈线性】&＃xff09;&＃xff0c;所以使用两个参数来学习原来正常的分布

y (k) &＃61; γ (k) x (k) 1 &＃43; β (k)

值得一提的是&＃xff0c;如果令

γ(k)&＃61;Var[x(k)]且β(k)&＃61;E[x(k)]γ(k)&＃61;Var[x(k)]且β(k)&＃61;E[x(k)]&＃xff0c;我们将恢复原始的函数。
需要之后详细了解的一点是&＃xff0c;在ReLU这种分段函数上是不存在Sigmoid那种小范围内呈线性的特点的&＃xff0c;且在ReLU函数后&＃xff0c;函数值又重回了第一象限&＃xff0c;这个情况下的归一化是不是更应该在 ReLU 激活函数之后&＃xff0c;而不是在 Wx&＃43;b 上&＃xff1f;

实验

作者说将 Normalization 放在激活函数前&＃xff08;如ReLU和Sigmoid&＃xff09;会比较好&＃xff0c;因为训练刚开始的时候&＃xff0c;参数变化幅度大&＃xff0c;即参数不稳定&＃xff0c;在激活函数下趋于饱和的神经元容易被破坏分布&＃xff0c;不如退而在Wx&＃43;b上进行 Batch Normalization&＃xff0c;因为初始的W是从标准高斯分布中采样得到的&＃xff0c;而W中元素的数量远大于x&＃xff0c;Wx&＃43;b每维的均值本身就接近0、方差接近1&＃xff0c;所以在Wx&＃43;b后使用 Batch Normalization 能得到更稳定的结果。
使用 Batch Normalization 后&＃xff0c;可以移除或使用较低的 dropout&＃xff0c;与以前使用 40%~50%相比&＃xff0c;文中分别使用了10%&＃xff0c;5%&＃xff0c;0%的 dropout 训练模型&＃xff0c;结果大大加快了训练速度。类似的&＃xff0c;使用 Batch Normalization 后&＃xff0c;可以降低 L2权重衰减系数。因为 L2正则化的作用在于处理局部最优解导致的部分权重系数较大&＃xff0c;而使用 Batch Normalization后&＃xff0c;随机分界面就更接近数据内部&＃xff0c;可以在一定程度下减缓局部最优解的问题&＃xff0c;因而可以减小L2权重衰减系数。

猜想

使用 Batch Normalization&＃xff0c;初始权重会更接近数据内部&＃xff0c;这就在一定程度上避免了过拟合现象&＃xff0c;而 dropout 的作用在于使部分神经元失活从而避免过拟合&＃xff0c;这与 Batch Normalization 作为一个整体避免过拟合的作用冲突&＃xff0c;所以使用 Batch Normalization 时需要减少 dropout 的使用。

推荐阅读

php
思科IOS XE与ISE集成实现TACACS认证配置

本文详细介绍了如何在思科IOS XE设备上配置TACACS认证，并通过ISE（Identity Services Engine）进行用户管理和授权。配置包括网络拓扑、设备设置和ISE端的具体步骤。 ... [详细]

蜡笔小新 2024-11-12 13:17:06
php
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
php
Ubuntu 22.04 安装搜狗输入法详细指南及常见问题解决方案

本文将详细介绍如何在 Ubuntu 22.04 上安装搜狗输入法，并提供常见问题的解决方法。包括下载安装包、更新源、安装依赖项等步骤。 ... [详细]

蜡笔小新 2024-11-15 10:11:27
php
解决Unreal Engine中UMG按钮长时间按住自动释放的问题

本文探讨了在Unreal Engine中使用UMG按钮时，长时间按住按钮会导致自动释放的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-14 20:40:39
php
持续集成持续部署持续交付_您不进行持续集成！

持续集成持续部署持续交付今天，我将谈论开发人员的一个误解：持续集成是关于运行自动化集成管道的…什么是持续集成（CI） ... [详细]

蜡笔小新 2024-11-14 20:00:58
js
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
php
Python中调整数据分辨率的方法

本文介绍了如何在Python中使用插值方法将不同分辨率的数据统一到相同的分辨率。 ... [详细]

蜡笔小新 2024-11-14 15:10:26
js
MySQL初级篇——字符串、日期时间、流程控制函数的相关应用

文章目录：1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]

蜡笔小新 2024-11-14 10:57:02
js
Pentaho Kettle 中 RowMetaInterface.writeMeta 方法详解与代码示例

本文详细介绍了 Pentaho Kettle 中 RowMetaInterface.writeMeta 方法的使用，并提供了多个代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-11-13 16:21:25
js
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
loops
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
php
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
fetch
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
fetch
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
fetch
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36

Lanboream

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章