当前位置: 开发笔记 > 编程语言 > 正文

BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift论文学习

作者：buddha覀mito_438 | 来源：互联网 | 2023-10-12 13:17

BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift文章试图解决的

Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift

文章试图解决的问题

内部协变量转移(internal covariate shift)&＃xff1a;在训练进行时&＃xff0c;网络中的参数不断改变&＃xff0c;导致每一层的输入分配会进行变化&＃xff0c;这个现象被称作内部协变量转移
由于分布变化&＃xff0c;所以需要更小的学习率&＃xff0c;小心的初始化。但导致训练速度降低&＃xff0c;本文就是要解决这个问题
内部协变量转移不符合IID(独立同分布)的假设

常见的优化

我们都知道&＃xff0c;对初始数据减均值或者白化可以加快学习速度

- 减均值&＃xff1a;如上b&＃xff0c;紫色的先是拟合线&＃xff0c;但是训练一开始生成的线是在原点的附近&＃xff0c;所以要变成紫色的先要花费较多的时间&＃xff0c;所以我们可以让点都集中在原点的附近—减均值
- 白化&＃xff1a;白化有很多种方式&＃xff1a;如PCA白化&＃xff1a;
  PCA完后再进行方差归一化—>这样的数据基本满足 0均值&＃xff0c;单位方差和弱相关性。
  - 作者首先考虑对每一层进行PCA白化&＃xff1a;但是这样是不可取的&＃xff0c;因为计算量很大&＃xff0c;而且在求逆的过程中或许不可导
  - 如果只进行简单的对每一层数据归一化&＃xff0c;会降低层的表达能力&＃xff0c;以及梯度的作用。因为在计算梯度的时候没有把归一化的梯度考虑进去。
作者想通过Batch Normalization的方式&＃xff1a;尝试减少内部协变量转移&＃xff0c;通过修复层输入的均值和方差来实现。

优点

协变量转移减少&＃xff0c;学习速度更快
通过减小了网络对梯度的依赖&＃xff0c;使得可以用更大学习率而不存在发散的风险
减少了对dropout的需要

内容

我们知道对每一层进行白化的不可行&＃xff0c;所以我们考虑做两个必要的简化。
- 1、我们考虑单独normalize每一个特征&＃xff0c;使其均值为0&＃xff0c;方差为1;而不是在输入输出上共同normalize
- 对一个d维的input $x&＃61;(x^{(1)},...x^{(d)})$ &＃xff0c;我们normalize每一维
$x^(k)&＃61;x(k)−E[x(k)]Var[x(k)]\hat x^{(k)}&＃61;\frac{x^{(k)-E[x^{(k)}]}}{\sqrt{Var[x^{(k)}]}}$
x(k)−E[x(k)]
- 期望和方差在总体的数据集上计算
- 仅仅是这一个简化&＃xff0c;就能加速收敛
- 这个简化导致数据分布是零均值的&＃xff0c;毕竟各层的分布都差不多了
我们知道如果只这样干不行&＃xff0c;会降低网络的表达能力&＃xff0c;如在sigmoid之前这样干会把sigmoid非线性极值变成线性
- 所以我们对每一个激活值 $x^(k)\hat x^{(k)}$ 引进两个参数
  $y(k)&＃61;γ(k)x^(k)&＃43;β(k)y^{(k)}&＃61;\gamma^{(k)}\hat x^{(k)}&＃43;\beta^{(k)}$
这些参数和原始网络一起学习&＃xff0c;并恢复网络的表达能力
事实上&＃xff0c;通过设定 $γ(k)&＃61;Var[x(k)],β(k)&＃61;E[x(k)\gamma^{(k)}&＃61;\sqrt{Var[x^{(k)}]},\beta^{(k)}&＃61;E[x^{(k)}$
,β(k)&＃61;E[x(k)是最理想的方法
- 2、我们这样设置的训练步骤是基于整个网络的&＃xff0c;&＃xff0c;但是我们在进行SGD的时候是不行的。所以我们有了第二个简化&＃xff1a;我们每次用一个Batch(小批量)的均值和方差来作为对整个数据集的估计

然后我们在测试和训练的时候是不一样的&＃xff0c;因为训练的时候可以用mini_batch&＃xff0c;而测试的时候我们用的是一张张的图片&＃xff0c;所以此时直接用所有的均值和方差来做无偏估计&＃xff0c;然后训练的网络要用net.eval()来使得参数不变

eval会把网络的参数固定住&＃xff0c;比如dropout和BN的参数&＃xff0c;不会取平均

推荐阅读

io
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
io
[论文笔记] Crowdsourcing Translation: Professional Quality from Non-Professionals (ACL, 2011)

Time:4hoursTimespan:Apr15–May3,2012OmarZaidan,ChrisCallison-Burch:CrowdsourcingTra ... [详细]

蜡笔小新 2024-12-28 13:39:05
io
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
io
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
深入解析JVM垃圾收集器

本文基于《深入理解Java虚拟机：JVM高级特性与最佳实践》第二版，详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景，帮助读者更好地理解和优化JVM内存管理。 ... [详细]

蜡笔小新 2024-12-28 13:35:19
io
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
io
配置并访问BackTrack 5的SSH服务

本文详细介绍了如何在BackTrack 5中配置和启动SSH服务，确保其正常运行，并通过Windows系统成功连接。涵盖了必要的密钥生成步骤及常见问题解决方法。 ... [详细]

蜡笔小新 2024-12-27 20:13:35
io
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
io
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
io
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
io
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
io
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
io
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
io
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25

buddha覀mito_438

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章