热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[论文笔记]TheDifficultyofTrainingDeepArchitecturesandtheEffectofUnsupervisedPreTraining

这是篇比较早的论文了,09年左右那会儿是unsupervisedpre-training大热的时候,因为它让训练深层网络看到了希望,而这篇主要是探讨了关于训练深层网络困难的问题,并

这是篇比较早的论文了,09年左右那会儿是 unsupervised pre-training 大热的时候,因为它让训练深层网络看到了希望,而这篇主要是探讨了关于训练深层网络困难的问题,并通过实验分析了 unsupervised pre-training 给训练深层网络带来的优势。


Experimental Results

这篇论文主要以实验分析为主,主要讨论了以下几个问题:



  • Why is it more difficult to train deep architectures than shallow architectures?

  • How does the depth of the architectures affect the difficulty of training?

  • What does the cost function landscape of deep architectures look like?

  • Is the advantage of unsupervised pre-training related to optimization, or perhaps some form of regularization?

  • What is the effect of random initialization on the learning trajectories?


Effect of Depth, Pre-training and Robustness to Random Initilization

第一组实验是随机参数初始化(无预训练,服从均匀分布)和预训练方式的效果比较。训练了400个模型,下图是 test error 的箱式图。可以看到带预训练的那组的 error ,随着隐层数量从1到4层,基本保持在一个 level,还有逐步减少的趋势;而没有预训练的那组在隐层为3层后 error 就开始上升了,并且隐层为2层后的 error 离群值也开始大幅增加。另外,实验结果中是没有5层隐层模型的结果,因为在当时的实验中,没有预训练的模型,5层网络就很难训练下去了。

在这里插入图片描述
另外通过下图两组不同层数的 test error 分布可以看到,1层网络没有 pre-training 的test error 分布区间为 [1.6, 2],而4层网络没有 pre-training 的test error 分布区间为 [1.8, 3]。综合上面的结果,可以得到一个结论:增加层数会增加陷入 poor local minima 的概率,这也就回答了上面的其中一个问题,网络层数是如何影响深层网络训练的难度。

在这里插入图片描述


The Pre-Training Advantage: Better Optimization or Better Generalization?

预训练和随机初始化参数唯一的区别在于训练时参数空间的起始点。深层网络为什么会比浅层的网络训练要困难许多,主要是因为深层网络由许多层非线性层组成,这也就使得损失函数是非凸的,而非凸的优化是很困难的,因为存在许多疑似的局部最优点。而 pre-training 的优势在于其初始的参数处于较优的局部最优值附近,这也使得深层网络的优化会比随机初始化参数的情况下要好。

当然也可能存在一种情况,pre-training 初始的参数空间区域不一定比随机初始化的好(train error差不多),但是能使模型有更好的泛化能力(test error)。下面的实验则是验证了上面的猜想:pre-training 的优势不仅仅在于使得网络训练优化的更好,而且使得模型有更好的泛化能力

为什么会有较好的泛化能力?一种可能是因为这里的 pre-training 是通过 stacked denoising auto-encoder 得到的,这也对模型的参数空间做了一个限制(因为初始的参数也要满足 denoising auto-encoder 能较好的重构出原始输入)。因此,pre-training 也起到了正则项(regularizer)的作用(但好像后来的论文也有提到说 pre-training 并没有起到 pre-training 的作用)。

在这里插入图片描述


A better Random Initialization?

作者有一个猜想蛮有趣的,就是是否有一个更好的分布来随机初始化参数能逼近 pre-training 的效果,他做了几组实验都和 pre-training 的效果有一定差距。当然,现在的一些参数初始化方式,已经有不错的效果了。


Evaluating the Importance of Pre-Training on Different Layers

作者还有一组实验是验证 pre-training 不同层所带来的效果增益。如下图,可以看到,只pre-training 第一层就能逼近 pre-training 全部层的效果,而 pre-training 第二层却达不到那种效果。这里的一个解释是 “training the lower layers is more difficult because gradient information becomes less informative as it is backpropagated through more layer.”,所以 pre-training 对 lower layers 来说是更重要。

在这里插入图片描述


总结

这篇论文讨论了为什么训练深层网络比浅层网络困难,并通过实验揭示了 pre-training 给深层网络训练带来的优势。虽然论文中 pre-training 和现在的 pre-training 方式不同(采用 stacked denoising auto-encoder 的方式),但论文中揭示了这里 pre-training 给深层网络训练带来效益的背后原因(better optimization and better generalization),这也是有一定指导意义的。


推荐阅读
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • vue使用
    关键词: ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • Java序列化对象传给PHP的方法及原理解析
    本文介绍了Java序列化对象传给PHP的方法及原理,包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用,以及代码执行序列化所需要的权限。最后指出,序列化会将对象实例的所有字段都进行序列化,使得数据能够被表示为实例的序列化数据,但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • javascript  – 概述在Firefox上无法正常工作
    我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观:而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
author-avatar
休息一下狂想曲
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有