热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

影响网络模型性能的主要因素

在上一节中讲到,从AlexNet到VGG的过程可以看出,深度增加确实对模型的性能有较大的提升。但是,在其过程中VGG随着网络模型深度的增加

    在上一节中讲到,从AlexNet到VGG的过程可以看出,深度增加确实对模型的性能有较大的提升。但是,在其过程中VGG随着网络模型深度的增加准确度反而降低,这就说明,模型性能的影响因子不可能只来自于网络的深度。也就是说,并不是网络深度越深模型的性能就越好,当网络深度达到临界状态时,再盲目加大模型的深度,模型性能反而会降低。那影响模型性能的主要因素有哪些呢?主要有5个因素,如下所示:

  1. 网络深度;
  2. 学习率的设计策略;
  3. 最优化方法;
  4. 卷积核的设置;
  5. 其他因素;

1、网络深度

    网络深度上文已经讲过,不再赘述。

2、学习率的设计策略

    学习率主要是控制模型的学习进度或是速度。学习速率是指导我们该如何通过损失函数的梯度调整网络权重的超参数。学习率越高,损失函数的变化速度就越快,反之亦然。
    需要指出的是高学习率会使损失函数变化加快,但是往往得不到最优解,即在最优解附近来回震荡且震荡幅度较大。但是,使用低学习率可以确保我们不会错过任何局部极小值,同样也意味着我们将花费更长的时间来进行收敛,特别是在被困在高原区域的情况下。此时学习率的设计策略就变得尤为重要。
    学习率的主要策略有Step、Exp、Inv、Multistep、Poly、Sigmoid等,其中效果一般最好的是Step和Multistep,Inv效果比较差。学习率的大小一般设置在0.01 ~ 0.001。当然,不同的模型对学习率的策略与大小要求不同,这个需要开发者自己尝试。

3、最优化方法

    最优化问题在机器学习/深度学习中是经常遇到的问题,也是很重要的一个问题。学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优化,从而训练出最好的模型。常见的最优化方法主要有Adam、RMS(均方根)prop、AdaDelta、Adagrad、Momentum、SGD等。最优化方法的选择可以注意以下几点:

  1. 对于稀疏数据,尽量使用学习率可自适应的优化方法,不用手动调节,而且最好采用默认值;
  2. SGD通常训练时间更长,但是在好的初始化和学习率调度方案的情况下,结果更可靠;
  3. 如果在意更快的收敛,并且需要训练较深较复杂的网络时,推荐使用学习率自适应的优化方法;
  4. Adadelta,RMSprop,Adam是比较相近的算法,在相似的情况下表现差不多;
  5. 在想使用带动量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。

4、卷积核的设置

    卷积核的大小、步长、padding等都会影响感受野的大小,也影响feature map的尺寸,这对特征的学习尤为重要。卷积核最常见的大小就是3x3和5x5,其他的相对应用较少。
    值得注意的是,选择卷积核大小的原则是小而深,这样其可以达到大的卷积核的效果,但参数会减少,而且会有更好的泛化能力。为了加快速度,常常把卷积核裁开,比如一个3x3的卷积核,可以裁成一个3x1和1x3的卷积核(通过矩阵乘法得知),分别对原有输入做卷积运算,这样可以大大提升运算的速度。

5、其他因素

    其他因素主要是正则化因子、BN层的设置、激活函数的设置、网络的宽度、数据的数量质量与均衡性、网络结构的设计等等。


推荐阅读
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 吴恩达推出TensorFlow实践课程,Python基础即可入门,四个月掌握核心技能
    量子位报道,deeplearning.ai最新发布了TensorFlow实践课程,适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]
  • 强人工智能时代,区块链的角色与前景
    随着强人工智能的崛起,区块链技术在新的技术生态中扮演着怎样的角色?本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]
  • 在中国医疗行业面临高度监管和市场垄断的背景下,医疗领域的创新面临诸多挑战。本文通过探讨技术变革与商业模式的结合,为医疗AI的未来发展提供了新的视角。 ... [详细]
  • 连续正数序列之和等于目标值的解法探讨
    给定一个正整数目标值,找出所有连续正整数序列,其和等于目标值。这些序列需至少包含两个数,且序列中的数字应从小到大排列。不同的序列根据其首个数字的大小顺序排列。 ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • a16z 宣布成立全新的加密研究实验室,旨在推动加密技术和 Web3 领域的科学发展。 ... [详细]
  • 图像分类算法的优化策略与实践
    本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术,旨在通过具体实例和实验验证,提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]
  • 随着5G、云计算、人工智能、大数据等新技术的广泛应用,人们的生活生产方式发生了深刻变化。从人际互联到万物互联,数据存储与处理需求激增,推动了数据与算力设施的发展。 ... [详细]
  • 深入解析闪电网络现状及其在CKB上的应用前景
    本文从技术实现、实际应用、对比特币的影响及在CKB上的潜在优势四个方面,全面分析了闪电网络的现状和发展潜力。 ... [详细]
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 获得头条Offer后,我感激的七个技术公众号
    是否感觉订阅的公众号过多,浏览时缺乏目标性,未能获取实质性的知识?本文将介绍如何精简公众号列表,提升信息吸收效率,并推荐几个高质量的技术公众号。 ... [详细]
  • 本文详细介绍了 TensorFlow 的入门实践,特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构,并解释了各部分的作用,随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]
  • 李宏毅机器学习笔记:无监督学习之线性方法
    无监督学习主要涵盖两大类别:一是聚类与降维,旨在简化数据结构;二是生成模型,用于从编码生成新的数据样本。本文深入探讨了这些技术的具体应用和理论基础。 ... [详细]
author-avatar
手机用户2502859707
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有