当前位置: 开发笔记 > 编程语言 > 正文

BatchNorm（针对面试问题总结）

作者：刘刚michaelup_340 | 来源：互联网 | 2023-08-13 14:33

参考：基础|batchnorm原理及代码详解https:blog.csdn.netqq_25737169articledetails79048516详解机器学习中

参考&＃xff1a;

基础 | batchnorm原理及代码详解 https://blog.csdn.net/qq_25737169/article/details/79048516

详解机器学习中的梯度消失、爆炸原因及其解决方法 https://blog.csdn.net/qq_25737169/article/details/78847691

Pytorch Batch Normalizatin layer的坑 https://zhuanlan.zhihu.com/p/65439075

1. Batch Norm 为什么有效&＃xff1f;

深度学习的话尤其是在CV上都需要对数据做归一化&＃xff0c;因为深度神经网络主要就是为了学习训练数据的分布&＃xff0c;并在测试集上达到很好的泛化效果。

但是&＃xff0c;如果我们每一个batch输入的数据都具有不同的分布&＃xff0c;显然会给网络的训练带来困难。

另一方面&＃xff0c;数据经过一层层网络计算后&＃xff0c;其数据分布也在发生着变化&＃xff0c;此现象称为Internal Covariate Shift&＃xff08;内部协变量偏移&＃xff09;&＃xff0c;接下来会详细解释&＃xff0c;会给下一层的网络学习带来困难。

batchnorm 直译过来就是批规范化&＃xff0c;就是为了解决这个分布变化问题。

补充两个知识点&＃xff1a;

1.1 Internal Covariate Shift

Internal Covariate Shift &＃xff1a;此术语是google小组在论文Batch Normalizatoin中提出来的&＃xff0c;其主要描述的是&＃xff1a;训练深度网络的时候经常发生训练困难的问题&＃xff0c;因为&＃xff0c;每一次参数迭代更新后&＃xff0c;上一层网络的输出数据经过这一层网络计算后&＃xff0c;数据的分布会发生变化&＃xff0c;为下一层网络的学习带来困难&＃xff08;神经网络本来就是要学习数据的分布&＃xff0c;要是分布一直在变&＃xff0c;学习就很难了&＃xff09;&＃xff0c;此现象称之为Internal Covariate Shift。

Batch Normalizatoin 之前的解决方案就是使用较小的学习率&＃xff0c;和小心的初始化参数&＃xff0c;对数据做白化处理&＃xff0c;但是显然治标不治本。

1.2 covariate shift

Internal Covariate Shift 和Covariate Shift具有相似性&＃xff0c;但并不是一个东西&＃xff0c;Internal发生在神经网络的内部&＃xff0c;后者发生在输入数据上。Covariate Shift主要描述的是由于训练数据和测试数据存在分布的差异性&＃xff0c;给网络的泛化性和训练速度带来了影响&＃xff0c;我们经常使用的方法是做归一化或者白化。想要直观感受的话&＃xff0c;看下图&＃xff1a;https://blog.csdn.net/qq_25737169/article/details/79048516

优点&＃xff1a;

Batchnorm 是归一化的一种手段&＃xff0c;极限来说&＃xff0c;这种方式会减小图像之间的绝对差异&＃xff0c;突出相对差异&＃xff0c;加快训练速度。

因为对数据做归一化可以加快训练速度&＃xff0c;能对数据做去相关性&＃xff0c;突出它们之间的分布相对差异。

2. Batch Norm 步骤

è¿éåå¾çæè¿°

3. Batch Norm的两个参数有什么作用&＃xff1f;

3.1 如果只做归一化&＃xff0c;为什么是学不到任何东西的&＃xff1f;

如果在每一层之后都归一化成0-1的高斯分布&＃xff08;减均值除方差&＃xff09;那么数据的分布一直都是高斯分布&＃xff0c;数据分布都是固定的了&＃xff0c;这样即使加更多层就没有意义了&＃xff0c;深度网络就是想学习数据的分布发现规律性&＃xff0c;BN就是不让学习的数据分布偏离太远&＃xff0c;详细细节可以去看论文。beta gama都是学习的&＃xff08;怎么学的还不清楚&＃xff1f;&＃xff09;&＃xff0c;代码里他们定义的是variable&＃xff0c; trainable是True

3.2 两个参数的作用

为了减小InternalCovariate Shift&＃xff0c;对神经网络的每一层做归一化不就可以了&＃xff0c;假设将每一层输出后的数据都归一化到0均值&＃xff0c;1方差&＃xff0c;满足正太分布&＃xff0c;但是&＃xff0c;此时有一个问题&＃xff0c;如果每一层的数据分布都是标准正太分布&＃xff0c;导致其完全学习不到输入数据的特征&＃xff0c;因为&＃xff0c;费劲心思学习到的特征分布被归一化了&＃xff0c;因此&＃xff0c;直接对每一层做归一化显然是不合理的。
但是如果稍作修改&＃xff0c;加入可训练的参数做归一化&＃xff0c;那就是BatchNorm 实现的了。

接下来详细介绍一下这额外的两个参数&＃xff0c;之前也说过如果直接做归一化不做其他处理&＃xff0c;神经网络是学不到任何东西的&＃xff0c;但是加入这两个参数后&＃xff0c;事情就不一样了。先考虑特殊情况下&＃xff0c;如果γ 和β 分别等于此batch的标准差和均值&＃xff0c;那么yi 就还原到归一化前的x了吗&＃xff0c;也即是缩放平移到了归一化前的分布&＃xff0c;相当于batchnorm没有起作用&＃xff0c;$ β$ 和γ 分别称之为平移参数和缩放参数。这样就保证了每一次数据经过归一化后还保留的有学习来的特征&＃xff0c;同时又能完成归一化这个操作&＃xff0c;加速训练。

3.3 两个参数是怎么学习的&＃xff08;γ 和β &＃xff09;&＃xff1f;

1. 注意momentum的定义

Pytorch中的BN层的动量平滑和常见的动量法计算方式是相反的&＃xff0c;默认的momentum&＃61;0.1

[公式]

BN层里的表达式为&＃xff1a;

[公式]

其中γ和β是可以学习的参数。在Pytorch中&＃xff0c;BN层的类的参数有&＃xff1a;

CLASS torch.nn.BatchNorm2d(num_features, eps&＃61;1e-05, momentum&＃61;0.1, affine&＃61;True, track_running_stats&＃61;True)

num_features - 来自预期输入大小&＃xff08;N&＃xff0c;C&＃xff0c;H&＃xff0c;W&＃xff09;的CC&＃xff08;N&＃xff0c;C&＃xff0c;H&＃xff0c;W&＃xff09;

eps - 为数值稳定性添加到分母的值。默认值&＃xff1a;1e-5

动量 - 用于running_mean和running_var计算的值。对于累积移动平均值&＃xff08;即简单平均值&＃xff09;&＃xff0c;可以设置为“无”。默认值&＃xff1a;0.1

affine - 一个布尔值&＃xff0c;当设置为True时&＃xff0c;此模块具有可学习的仿射参数。默认值&＃xff1a;True

track_running_stats - 一个布尔值&＃xff0c;当设置为True时&＃xff0c;此模块跟踪运行的均值和方差&＃xff0c;当设置为False时&＃xff0c;此模块不跟踪此类统计信息&＃xff0c;并始终在训练和评估模式下使用批次统计信息。默认值&＃xff1a;True

2. 具体计算是:

running_mean &＃61; momentum * running_mean &＃43; (1 - momentum) * x_mean running_var &＃61; momentum * running_var &＃43; (1 - momentum) * x_var

running_mean 存储的是当前为止训练集中所有batch 的均值的加权结果。

momentum 在pytorch 中默认为 0.1&＃xff0c;即&＃xff1a;当前batch的均值占 0.9的比重&＃xff0c;之前的runing_mean 占0.1的比重。

这篇有提到&＃xff1a; Pytorch Batch Normalizatin layer的坑

https://zhuanlan.zhihu.com/p/65439075

4. Batch Norm 训练和测试的区别&＃xff1f;

训练阶段&＃xff1a;首先计算均值和方差&＃xff08;每次训练给一个批量&＃xff0c;计算批量的均值方差&＃xff09;&＃xff0c;然后归一化&＃xff0c;然后缩放和平移&＃xff0c;完事&＃xff01;

测试阶段&＃xff1a;每次只输入一张图片&＃xff0c;这怎么计算批量的均值和方差&＃xff0c;于是&＃xff0c;就有了代码中下面两行&＃xff0c;在训练的时候实现计算好mean、 var&＃xff0c;测试的时候直接拿来用就可以了&＃xff0c;不用计算均值和方差。

running_mean &＃61; momentum * running_mean &＃43; (1 - momentum) * x_mean running_var &＃61; momentum * running_var &＃43; (1 - momentum) * x_var

5. Batch Norm 可以防止过拟合吗&＃xff1f;

在dropout部分&＃xff0c; 我们已经解释过&＃xff0c; 之所以dropout可以抑制overfitting, 是因为在训练阶段&＃xff0c; 我们引入了随机性(随机cancel一些Neuron)&＃xff0c;减少网络的匹配度, 在测试阶段&＃xff0c; 我们去除掉随机性&＃xff0c; 并通过期望的方式marginalize随机影响。
在BatchNormalization中&＃xff0c; 训练阶段&＃xff0c; 我们随机选取了Batch进行Normalization, 并计算runningmean等&＃xff0c; 在测试阶段&＃xff0c; 应用running_mean这些训练参数来进行整体Normalization&＃xff0c; 本质上是在Marginalize训练阶段的随机性。因此&＃xff0c; BatchNormalization也提供了Regularization的作用&＃xff0c; 实际应用中证明&＃xff0c; NB在防止过拟合方面确实也有相当好的表现。

Batch Norm 总结

1 优点

&＃xff08;1&＃xff09;没有它之前&＃xff0c;需要小心的调整学习率和权重初始化&＃xff0c;但是有了BN可以放心的使用大学习率&＃xff0c;但是使用了BN&＃xff0c;就不用小心的调参了&＃xff0c;较大的学习率极大的提高了学习速度。&＃xff08;因为batchnorm将特征归一化到0点附近&＃xff0c;显然会加快训练速度&＃xff1b;并更进一步的通过变换拉大数据之间的相对差异性&＃xff0c;使特征更容易区分&＃xff09;
&＃xff08;2&＃xff09;Batchnorm本身上也是一种正则的方式&＃xff0c;可以代替其他正则方式如dropout等
&＃xff08;3&＃xff09;batchnorm降低了数据之间的绝对差异&＃xff0c;有一个去相关的性质&＃xff0c;更多的考虑相对差异性&＃xff0c;因此在分类任务上具有更好的效果。

2 缺点

韩国团队在2017NTIRE图像超分辨率中取得了top1的成绩&＃xff0c;主要原因竟是去掉了网络中的batchnorm层&＃xff0c;由此可见&＃xff0c;BN并不是适用于所有任务的&＃xff0c;在image-to-image这样的任务中&＃xff0c;尤其是超分辨率上&＃xff0c;图像的绝对差异显得尤为重要&＃xff0c;所以batchnorm的scale并不适合。

推荐阅读

io
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
get
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
future
42VERSE & 圆圈徽章，Web3 社交的流派之争——针对两个国内案例的调研

01 行业分析本文所研究的细分赛道为：Web3应用层——社交与内容场景——DID/创新场景（以元宇宙3D空间为 ... [详细]

蜡笔小新 2024-09-29 12:10:23
install
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
install
生成模型自编码器（Autoencoder，AE）

自编码器（Autoencoder，AE）基本意思就是一个隐藏层的神经网络，输入输出都是x，并且输入维度一定要比 ... [详细]

蜡笔小新 2024-09-26 10:19:40
java
WebBrowser控件（1）

WindowsPhone7内置了一个强大的网络浏览器，该浏览器的内核是基于桌面版的InternetExplorer7（Mango版基于InternetE ... [详细]

蜡笔小新 2024-09-30 16:56:38
java
无需人类知识，DeepMind新一代围棋程序AlphaGo Zero再次登上Nature

选自DeepMind机器之心编译在今年五月击败柯洁之后，AlphaGo并没有停止自己的发展。昨天，DeepMind在《自然》杂志上发表了一篇论文 ... [详细]

蜡笔小新 2024-09-29 11:57:34
java
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55
java
文本生成图像简要回顾 text to image synthesis

摘要文本生成图像作为近几年的热门研究领域，其解决的问题是从一句描述性文本生成与之对应的图片。近一周来，我通过阅读了近几年发表于顶会的近10篇论文，做出本文中对该方向的 ... [详细]

蜡笔小新 2024-09-29 11:02:00
char
商业智能_2018 商业智能 10 大趋势报告出炉：从 AI 热到 CDO 崛起，热门趋势抢先读！

本文由编程笔记#小编为大家整理，主要介绍了2018商业智能10大趋势报告出炉：从AI热到CDO崛起，热门趋势抢先读！相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-26 16:56:58
function
python绘图设置正交坐标等距_Python:线性代数机器学习背后的优化原理 (五十五)...

线性代数：机器学习背后的优化原理线性代数作为数学的一个分支，广泛应用于科学和工程中，掌握好线性代数对于理解和从事机器学习算法相关工作是很有 ... [详细]

蜡笔小新 2024-09-26 10:09:12
function
深度强化学习Policy Gradient基本实现

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然 ... [详细]

蜡笔小新 2024-09-25 17:01:10
function
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05

刘刚michaelup_340

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章