热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

批归一化作用_Nomaomi

批归一化的问题回到本文的动机,在许多情况下,批归一化可能会影响性能或者根本不起作用。使用小的batchsizes时不稳定如上所述,批归一化

批归一化的问题

回到本文的动机,在许多情况下,批归一化可能会影响性能或者根本不起作用。

使用小的batch sizes时不稳定

如上所述,批归一化层必须计算均值和方差,以便对整个batch的前一个输出进行归一化。

ResNet-50的批归一化验证误差

上面是ResNet-50的验证误差图。如果batch size保持为32,那么最终验证误差将在23左右,并且随着batch size的减小,误差会不断减小(batch size不能为1,因为它本身就是均值)。损失有很大的不同(大约10%)。

如果小batch size是一个问题,为什么我们不使用更大的batch size呢?实际上,我们不能在每种情况下都使用较大的batch size。在进行微调时,我们不能使用大的batch size,以避免使用大梯度伤害我们的模型。在分布式训练中,大的batch size最终将作为一组小的batch sizes分布在实例中。

会导致训练时间增加

NVIDIA和卡耐基梅隆大学进行的实验结果表明,“即使批归一化不占用大量计算资源,但收敛所需的总迭代次数却减少了。每次迭代的时间可能会显著增加”,并且随着batch size的增加,训练时间可能进一步增加。

使用Titan X Pascal在ImageNet上的ResNet-50训练时间分布

如您所见,批归一化消耗了总训练时间的1/4。原因是因为批归一化要求对输入数据进行两次迭代:一次用于计算batch统计信息,另一次用于对输出进行归一化。

在测试/推断阶段不稳定

例如,考虑实际应用程序:“对象检测”。在训练对象检测器时,我们通常使用大的batch size(默认情况下,YOLOv4和Faster-RCNN都以batch size= 64进行训练)。但是在将这些深度学习模型投入生产后,这些模型并不像训练时那么有效。这是因为它们是用大的batch size进行训练的,而在实时情况下,它们得到的batch size等于1,因为它必须处理每一帧。如前所述,当使用batch size为1时,它本身就是均值,因此归一化层将无法有效地处理所谓的“内部协变移位”。

不利于在线学习

与batch学习相比,在线学习是一种学习技术,通过依次(或单独地,或通过称为mini-batches的small groups)向系统提供数据实例,对系统进行增量式训练。每一个学习步骤既快速又廉价,因此系统可以在新数据到达时动态地学习新数据。

典型的在线学习管道

由于它依赖于外部数据源,数据可以单独到达,也可以成批到达。由于每次迭代中batch size的变化,它不能很好地概括输入数据的规模和shift,这最终会影响性能。

不适用于循环神经网络

在卷积神经网络中,尽管批归一化可以显著提高训练速度和泛化能力,但事实证明,它们很难应用于循环体系结构。批归一化可以应用于RNN的堆栈之间,其中归一化是“垂直”应用(即每个RNN的输出),但是它不能“水平”应用(即在时间步之间),因为重复的rescaling会导致梯度爆炸。

备选方案

在无法进行批归一化的情况下,可以使用以下几种替代方法:

层归一化。

实例归一化。

组归一化(+权重标准化)。

同步批归一化。

最后

批归一化尽管是深度学习开发中的一个里程碑技术,但是它仍会有一些问题,这表明归一化技术仍有改进的空间。



推荐阅读
  • 强人工智能时代,区块链的角色与前景
    随着强人工智能的崛起,区块链技术在新的技术生态中扮演着怎样的角色?本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 卷积神经网络(CNN)基础理论与架构解析
    本文介绍了卷积神经网络(CNN)的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型,并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]
  • 尽管深度学习带来了广泛的应用前景,其训练通常需要强大的计算资源。然而,并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下(如ARM CPU)高效运行深度神经网络,特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 多智能体深度强化学习中的分布式奖励估计
    本文探讨了在多智能体系统中应用分布式奖励估计技术,以解决由于环境和代理互动引起的奖励不确定性问题。通过设计多动作分支奖励估计和策略加权奖励聚合方法,本研究旨在提高多智能体强化学习(MARL)的有效性和稳定性。 ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
  • 随着5G、云计算、人工智能、大数据等新技术的广泛应用,人们的生活生产方式发生了深刻变化。从人际互联到万物互联,数据存储与处理需求激增,推动了数据与算力设施的发展。 ... [详细]
  • 吴恩达推出TensorFlow实践课程,Python基础即可入门,四个月掌握核心技能
    量子位报道,deeplearning.ai最新发布了TensorFlow实践课程,适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 本文精选了几所优秀的PHP实训和培训学校,为希望深入学习PHP编程的学员提供参考。 ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • 图像分类算法的优化策略与实践
    本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术,旨在通过具体实例和实验验证,提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]
author-avatar
mobiledu2502875315
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有